分页: 1 / 2
#1 ai中文优势有没有道理
发表于 : 2025年 2月 11日 01:58
由 drifter
看见有中文在ai训练有优势的说法
我猜应该是说 假定人类知识英文和中文内容相当 由于中文字少和组词的优势导致矩阵空间小很多 因而暴力运算要求要低一些
会不会open ai最近发布的模型被发现时不时转成中文跟这个有关
估计芯片禁运是根据英文需求制定的 没想到中文不需要那么多

#2 Re: ai中文优势有没有道理
发表于 : 2025年 2月 11日 07:47
由 verdelite
drifter 写了: 2025年 2月 11日 01:58
看见有中文在ai训练有优势的说法
我猜应该是说 假定人类知识英文和中文内容相当 由于中文字少和组词的优势导致矩阵空间小很多 因而暴力运算要求要低一些
会不会open ai最近发布的模型被发现时不时转成中文跟这个有关
估计芯片禁运是根据英文需求制定的 没想到中文不需要那么多
我认为没道理。推理应该是以“意思”为单位的,而不是以字或者字母为单位的。
#3 Re: ai中文优势有没有道理
发表于 : 2025年 2月 11日 17:33
由 TheMatrix
verdelite 写了: 2025年 2月 11日 07:47
我认为没道理。推理应该是以“意思”为单位的,而不是以字或者字母为单位的。
这个不好说。
语言模型的输入和结果呈现都是字和字母。“意思”在中间层,它对不对谁也不知道,well,只能看它的呈现,所以还是语言,也就是字和字母。
不同语言对语言模型的performance可能是有影响的。
#4 Re: ai中文优势有没有道理
发表于 : 2025年 2月 11日 17:51
由 诺华老药工
这所谓“推理”其实是“统计”和“某些词” (所谓的 prompting)发生联系的”概率”。所以我认为中文还是不一样的,而且使用人又多又集中。
#5 Re: ai中文优势有没有道理
发表于 : 2025年 2月 11日 18:36
由 newwmkj2022
“意思”就是黄金,文字和语言就是矿石,汉语算是富矿石,英语算是垃圾矿石,要提练出相同的数量的黄金(意思),需要富矿石(汉语)数量少,需要垃圾矿石(英语)多。
verdelite 写了: 2025年 2月 11日 07:47
我认为没道理。推理应该是以“意思”为单位的,而不是以字或者字母为单位的。
#6 Re: ai中文优势有没有道理
发表于 : 2025年 2月 11日 21:19
由 红烛歌楼
对比一下为表述相同意思的文章,中英文训练出来的模型的参数量即可
#7 Re: ai中文优势有没有道理
发表于 : 2025年 2月 12日 00:27
由 xexz
红烛歌楼 写了: 2025年 2月 11日 21:19
对比一下为表述相同意思的文章,中英文训练出来的模型的参数量即可
联合国同一官方文本纸制媒体的厚度,算官方证据,没有异议。
#8 Re: ai中文优势有没有道理
发表于 : 2025年 2月 12日 00:32
由 xexz
xexz 写了: 2025年 2月 12日 00:27
联合国同一官方文本纸制媒体的厚度,算官方证据,没有异议。
原来学汉语,不说变聪明,至少反应快,你们为什么不学呢?
难吗?不难呀,分析语的词法、语法规矩多了呀。
#9 Re: ai中文优势有没有道理
发表于 : 2025年 2月 12日 00:33
由 drifter
xexz 写了: 2025年 2月 12日 00:32
原来学汉语,不说变聪明,至少反应快,你们为什么不学呢?
难吗?不难呀,分析语的词法、语法规矩多了呀。
你们是谁啊?
#10 Re: ai中文优势有没有道理
发表于 : 2025年 2月 12日 00:40
由 xexz
drifter 写了: 2025年 2月 12日 00:33
你们是谁啊?
不想学中文的蠢货呀,
你这个人,怎么明知故问呀。
#11 Re: ai中文优势有没有道理
发表于 : 2025年 2月 12日 00:44
由 drifter
xexz 写了: 2025年 2月 12日 00:40
不想学中文的蠢货呀,
你这个人,怎么明知故问呀。
那你应该用英文或别的语言发 这里的人好像都学过中文
#12 Re: ai中文优势有没有道理
发表于 : 2025年 2月 12日 00:49
由 drifter
红烛歌楼 写了: 2025年 2月 11日 21:19
对比一下为表述相同意思的文章,中英文训练出来的模型的参数量即可
这应该很容易测试 就拿楼上提到的联合国官方文件来测试
#13 Re: ai中文优势有没有道理
发表于 : 2025年 2月 12日 00:58
由 xexz
drifter 写了: 2025年 2月 12日 00:44
那你应该用英文或别的语言发 这里的人好像都学过中文
太直接了,说中文的人一般都很含蓄,
看破不说破,打人不打脸,有话说一半,日后好相见。
所谓的难,难在文化差异太大,人本主义的性善论文化,
对西方人来说,就象进入异次元空间。
即使是真相也不需要所有人都知道,这个就叫含蓄。
#14 Re: ai中文优势有没有道理
发表于 : 2025年 2月 12日 03:17
由 tops
如下图5段英语文字机器翻译成中文后word count,算token好像英语有优势,真正的机器运输怎样咱就不懂了。

#15 Re: ai中文优势有没有道理
发表于 : 2025年 2月 12日 04:47
由 Trump
tops 写了: 2025年 2月 12日 03:17
如下图5段英语文字机器翻译成中文后word count,算token好像英语有优势,真正的机器运输怎样咱就不懂了。
这是英文跟韩文比,不是中文
#17 Re: ai中文优势有没有道理
发表于 : 2025年 2月 12日 12:00
由 drifter
tops 写了: 2025年 2月 12日 03:17
如下图5段英语文字机器翻译成中文后word count,算token好像英语有优势,真正的机器运输怎样咱就不懂了。
我觉得内容多了之后 英文字涨很快 尤其涉及各项专业知识 内容少不明显
对通用大模型影响大
#18 Re: ai中文优势有没有道理
发表于 : 2025年 2月 12日 14:59
由 ccmath
根本应该在于中文用现成汉字造新词,并且在保留意义的基础上高度压缩的能力很强
比如甲亢,英文的hyperthyroidism 如果不做词根切割,就是一个 token , 日文的名词“甲状腺機能亢進症”不能压缩,结果字数太多,被各种片假名取代。但是中文在单字的基础上,造的新词层出不穷,比如“自干五”。
过去中文处理有个切分词的问题,现在每个词自成 token, 反而成了优势
drifter 写了: 2025年 2月 11日 01:58
看见有中文在ai训练有优势的说法
我猜应该是说 假定人类知识英文和中文内容相当 由于中文字少和组词的优势导致矩阵空间小很多 因而暴力运算要求要低一些
会不会open ai最近发布的模型被发现时不时转成中文跟这个有关
估计芯片禁运是根据英文需求制定的 没想到中文不需要那么多
#19 Re: ai中文优势有没有道理
发表于 : 2025年 2月 12日 15:29
由 drifter
ccmath 写了: 2025年 2月 12日 14:59
根本应该在于中文用现成汉字造新词,并且在保留意义的基础上高度压缩的能力很强
比如甲亢,英文的hyperthyroidism 如果不做词根切割,就是一个 token , 日文的名词“甲状腺機能亢進症”不能压缩,结果字数太多,被各种片假名取代。但是中文在单字的基础上,造的新词层出不穷,比如“自干五”。
过去中文处理有个切分词的问题,现在每个词自成 token, 反而成了优势
是的
组词新词规则就那么些 而且ai最擅长这种模糊规则
相对于海量新词来讲 对数级的优势
#20 Re: ai中文优势有没有道理
发表于 : 2025年 2月 12日 19:12
由 ccmath
Deepseek 的做法,mixture of experts, token 集合的高度重复是个有利条件
就像会汉字的中国人看不熟悉的专业书,凭着懂汉字也能猜出点意思
美国人,日本人,如果词汇量不够就完全是天书
drifter 写了: 2025年 2月 12日 15:29
是的
组词新词规则就那么些 而且ai最擅长这种模糊规则
相对于海量新词来讲 对数级的优势
#21 Re: ai中文优势有没有道理
发表于 : 2025年 2月 14日 12:42
由 FoxMe
属实。
文言文是最高效的语言,现在的白话文已经退化了。文言文极为紧凑,不用标点,妥妥的数据压缩高科技。
ccmath 写了: 2025年 2月 12日 19:12
Deepseek 的做法,mixture of experts, token 集合的高度重复是个有利条件
就像会汉字的中国人看不熟悉的专业书,凭着懂汉字也能猜出点意思
美国人,日本人,如果词汇量不够就完全是天书