分页: 1 / 2

#1 ai中文优势有没有道理

发表于 : 2025年 2月 11日 01:58
drifter
看见有中文在ai训练有优势的说法
我猜应该是说 假定人类知识英文和中文内容相当 由于中文字少和组词的优势导致矩阵空间小很多 因而暴力运算要求要低一些
会不会open ai最近发布的模型被发现时不时转成中文跟这个有关
估计芯片禁运是根据英文需求制定的 没想到中文不需要那么多 😄

#2 Re: ai中文优势有没有道理

发表于 : 2025年 2月 11日 07:47
verdelite
drifter 写了: 2025年 2月 11日 01:58 看见有中文在ai训练有优势的说法
我猜应该是说 假定人类知识英文和中文内容相当 由于中文字少和组词的优势导致矩阵空间小很多 因而暴力运算要求要低一些
会不会open ai最近发布的模型被发现时不时转成中文跟这个有关
估计芯片禁运是根据英文需求制定的 没想到中文不需要那么多 😄
我认为没道理。推理应该是以“意思”为单位的,而不是以字或者字母为单位的。

#3 Re: ai中文优势有没有道理

发表于 : 2025年 2月 11日 17:33
TheMatrix
verdelite 写了: 2025年 2月 11日 07:47 我认为没道理。推理应该是以“意思”为单位的,而不是以字或者字母为单位的。
这个不好说。

语言模型的输入和结果呈现都是字和字母。“意思”在中间层,它对不对谁也不知道,well,只能看它的呈现,所以还是语言,也就是字和字母。

不同语言对语言模型的performance可能是有影响的。

#4 Re: ai中文优势有没有道理

发表于 : 2025年 2月 11日 17:51
诺华老药工
这所谓“推理”其实是“统计”和“某些词” (所谓的 prompting)发生联系的”概率”。所以我认为中文还是不一样的,而且使用人又多又集中。

#5 Re: ai中文优势有没有道理

发表于 : 2025年 2月 11日 18:36
newwmkj2022
“意思”就是黄金,文字和语言就是矿石,汉语算是富矿石,英语算是垃圾矿石,要提练出相同的数量的黄金(意思),需要富矿石(汉语)数量少,需要垃圾矿石(英语)多。
verdelite 写了: 2025年 2月 11日 07:47 我认为没道理。推理应该是以“意思”为单位的,而不是以字或者字母为单位的。

#6 Re: ai中文优势有没有道理

发表于 : 2025年 2月 11日 21:19
红烛歌楼
对比一下为表述相同意思的文章,中英文训练出来的模型的参数量即可

#7 Re: ai中文优势有没有道理

发表于 : 2025年 2月 12日 00:27
xexz
红烛歌楼 写了: 2025年 2月 11日 21:19 对比一下为表述相同意思的文章,中英文训练出来的模型的参数量即可
联合国同一官方文本纸制媒体的厚度,算官方证据,没有异议。

#8 Re: ai中文优势有没有道理

发表于 : 2025年 2月 12日 00:32
xexz
xexz 写了: 2025年 2月 12日 00:27 联合国同一官方文本纸制媒体的厚度,算官方证据,没有异议。
原来学汉语,不说变聪明,至少反应快,你们为什么不学呢?

难吗?不难呀,分析语的词法、语法规矩多了呀。

#9 Re: ai中文优势有没有道理

发表于 : 2025年 2月 12日 00:33
drifter
xexz 写了: 2025年 2月 12日 00:32 原来学汉语,不说变聪明,至少反应快,你们为什么不学呢?

难吗?不难呀,分析语的词法、语法规矩多了呀。
你们是谁啊?

#10 Re: ai中文优势有没有道理

发表于 : 2025年 2月 12日 00:40
xexz
drifter 写了: 2025年 2月 12日 00:33 你们是谁啊?
不想学中文的蠢货呀,

你这个人,怎么明知故问呀。

#11 Re: ai中文优势有没有道理

发表于 : 2025年 2月 12日 00:44
drifter
xexz 写了: 2025年 2月 12日 00:40 不想学中文的蠢货呀,

你这个人,怎么明知故问呀。
那你应该用英文或别的语言发 这里的人好像都学过中文

#12 Re: ai中文优势有没有道理

发表于 : 2025年 2月 12日 00:49
drifter
红烛歌楼 写了: 2025年 2月 11日 21:19 对比一下为表述相同意思的文章,中英文训练出来的模型的参数量即可
这应该很容易测试 就拿楼上提到的联合国官方文件来测试

#13 Re: ai中文优势有没有道理

发表于 : 2025年 2月 12日 00:58
xexz
drifter 写了: 2025年 2月 12日 00:44 那你应该用英文或别的语言发 这里的人好像都学过中文
:mrgreen: :mrgreen: :mrgreen:

太直接了,说中文的人一般都很含蓄,

看破不说破,打人不打脸,有话说一半,日后好相见。

所谓的难,难在文化差异太大,人本主义的性善论文化,

对西方人来说,就象进入异次元空间。

即使是真相也不需要所有人都知道,这个就叫含蓄。

#14 Re: ai中文优势有没有道理

发表于 : 2025年 2月 12日 03:17
tops
如下图5段英语文字机器翻译成中文后word count,算token好像英语有优势,真正的机器运输怎样咱就不懂了。
图片

图片

#15 Re: ai中文优势有没有道理

发表于 : 2025年 2月 12日 04:47
Trump
tops 写了: 2025年 2月 12日 03:17 如下图5段英语文字机器翻译成中文后word count,算token好像英语有优势,真正的机器运输怎样咱就不懂了。
图片

图片
这是英文跟韩文比,不是中文

#17 Re: ai中文优势有没有道理

发表于 : 2025年 2月 12日 12:00
drifter
tops 写了: 2025年 2月 12日 03:17 如下图5段英语文字机器翻译成中文后word count,算token好像英语有优势,真正的机器运输怎样咱就不懂了。
图片

图片
我觉得内容多了之后 英文字涨很快 尤其涉及各项专业知识 内容少不明显
对通用大模型影响大

#18 Re: ai中文优势有没有道理

发表于 : 2025年 2月 12日 14:59
ccmath
根本应该在于中文用现成汉字造新词,并且在保留意义的基础上高度压缩的能力很强

比如甲亢,英文的hyperthyroidism 如果不做词根切割,就是一个 token , 日文的名词“甲状腺機能亢進症”不能压缩,结果字数太多,被各种片假名取代。但是中文在单字的基础上,造的新词层出不穷,比如“自干五”。

过去中文处理有个切分词的问题,现在每个词自成 token, 反而成了优势
drifter 写了: 2025年 2月 11日 01:58 看见有中文在ai训练有优势的说法
我猜应该是说 假定人类知识英文和中文内容相当 由于中文字少和组词的优势导致矩阵空间小很多 因而暴力运算要求要低一些
会不会open ai最近发布的模型被发现时不时转成中文跟这个有关
估计芯片禁运是根据英文需求制定的 没想到中文不需要那么多 😄

#19 Re: ai中文优势有没有道理

发表于 : 2025年 2月 12日 15:29
drifter
ccmath 写了: 2025年 2月 12日 14:59 根本应该在于中文用现成汉字造新词,并且在保留意义的基础上高度压缩的能力很强

比如甲亢,英文的hyperthyroidism 如果不做词根切割,就是一个 token , 日文的名词“甲状腺機能亢進症”不能压缩,结果字数太多,被各种片假名取代。但是中文在单字的基础上,造的新词层出不穷,比如“自干五”。

过去中文处理有个切分词的问题,现在每个词自成 token, 反而成了优势
是的
组词新词规则就那么些 而且ai最擅长这种模糊规则
相对于海量新词来讲 对数级的优势

#20 Re: ai中文优势有没有道理

发表于 : 2025年 2月 12日 19:12
ccmath
Deepseek 的做法,mixture of experts, token 集合的高度重复是个有利条件

就像会汉字的中国人看不熟悉的专业书,凭着懂汉字也能猜出点意思

美国人,日本人,如果词汇量不够就完全是天书
drifter 写了: 2025年 2月 12日 15:29 是的
组词新词规则就那么些 而且ai最擅长这种模糊规则
相对于海量新词来讲 对数级的优势

#21 Re: ai中文优势有没有道理

发表于 : 2025年 2月 14日 12:42
FoxMe
属实。

文言文是最高效的语言,现在的白话文已经退化了。文言文极为紧凑,不用标点,妥妥的数据压缩高科技。
ccmath 写了: 2025年 2月 12日 19:12 Deepseek 的做法,mixture of experts, token 集合的高度重复是个有利条件

就像会汉字的中国人看不熟悉的专业书,凭着懂汉字也能猜出点意思

美国人,日本人,如果词汇量不够就完全是天书