分页: 1 / 1
#1 有限智能假说
发表于 : 2025年 2月 13日 16:16
由 Caravel
现在都把AGI,ASI想得太好了,认为一出来就什么科学问题就解决了,这估计是幻想。
从LLM的实践看,经验和知识就存在attention机制里面,attention就是两两之间的关联函数。聪明人比如围棋高手这样的人厉害,很大一部分就是他们的关联函数很sharp,一眼就能看出最佳出招在哪里,所以可以节省大量搜索的时间。
但是如果你看的的东西太多,context window很长,关联函数的有效性就大大降低,要么就得忽略很多元素。所以最佳效能的智能体最好是专精一个领域,而不是样样精通的超级智能。
这也许是Mixture of expert非常有效的原因。
#2 Re: 有限智能假说
发表于 : 2025年 2月 13日 16:30
由 wass
moe有几个experts,有哪些?
好像openai有,不多。ds的experts数量大
有链接吗?
#3 Re: 有限智能假说
发表于 : 2025年 2月 13日 17:02
由 Caravel
wass 写了: 2025年 2月 13日 16:30
moe有几个experts,有哪些?
好像openai有,不多。ds的experts数量大
有链接吗?
ds256个,非常多。
#4 Re: 有限智能假说
发表于 : 2025年 2月 13日 17:07
由 wass
Caravel 写了: 2025年 2月 13日 17:02
ds256个,非常多。
我问ds,它说hundreds or thousands

#5 Re: 有限智能假说
发表于 : 2025年 2月 14日 12:28
由 yanb
Caravel 写了: 2025年 2月 13日 16:16
现在都把AGI,ASI想得太好了,认为一出来就什么科学问题就解决了,这估计是幻想。
从LLM的实践看,经验和知识就存在attention机制里面,attention就是两两之间的关联函数。聪明人比如围棋高手这样的人厉害,很大一部分就是他们的关联函数很sharp,一眼就能看出最佳出招在哪里,所以可以节省大量搜索的时间。
但是如果你看的的东西太多,context window很长,关联函数的有效性就大大降低,要么就得忽略很多元素。所以最佳效能的智能体最好是专精一个领域,而不是样样精通的超级智能。
这也许是Mixture of expert非常有效的原因。
这不是常识吗
真不知道AI有啥好炒的(特定领域可能还有点用)
深入一点的问题AI连毛都摸不着
#6 Re: 有限智能假说
发表于 : 2025年 2月 14日 12:36
由 FoxMe
我叫GPT出几个题目并给出答案,尼玛连矩阵乘法这么简单的东西,给出的答案都是错的。感觉死记硬背的题还是可以的。
现在的AI,绝大部分数学是初等的(工科大学生水平),没有用到高深的数学,这样的AI能有多高的智能?我表示怀疑。
Caravel 写了: 2025年 2月 13日 16:16
现在都把AGI,ASI想得太好了,认为一出来就什么科学问题就解决了,这估计是幻想。
从LLM的实践看,经验和知识就存在attention机制里面,attention就是两两之间的关联函数。聪明人比如围棋高手这样的人厉害,很大一部分就是他们的关联函数很sharp,一眼就能看出最佳出招在哪里,所以可以节省大量搜索的时间。
但是如果你看的的东西太多,context window很长,关联函数的有效性就大大降低,要么就得忽略很多元素。所以最佳效能的智能体最好是专精一个领域,而不是样样精通的超级智能。
这也许是Mixture of expert非常有效的原因。
#7 Re: 有限智能假说
发表于 : 2025年 2月 14日 14:25
由 TheMatrix
FoxMe 写了: 2025年 2月 14日 12:36
我叫GPT出几个题目并给出答案,尼玛连矩阵乘法这么简单的东西,给出的答案都是错的。感觉死记硬背的题还是可以的。
现在的AI,绝大部分数学是初等的(工科大学生水平),没有用到高深的数学,这样的AI能有多高的智能?我表示怀疑。
AI是不能计算的。或者说神经网络是不适合计算的。
神经网络就和人的大脑类似,它里面存储的是“知识”,不是事实。知识的特点是模糊。你这次问它是这么说,下次问它是另一种说法。不是很精确。这个特点使它不适合做计算。比如算个乘法都费劲。938472*27263。
也不是不能算,它要抡起它的高级模糊智能来模拟机械步骤。就好像三体里面的场景 - 用几千几万的人来模拟二进制计算。能算,但是效率不行。
这个特点要以适合的方式来利用。
#8 Re: 有限智能假说
发表于 : 2025年 2月 14日 14:41
由 Caravel
FoxMe 写了: 2025年 2月 14日 12:36
我叫GPT出几个题目并给出答案,尼玛连矩阵乘法这么简单的东西,给出的答案都是错的。感觉死记硬背的题还是可以的。
现在的AI,绝大部分数学是初等的(工科大学生水平),没有用到高深的数学,这样的AI能有多高的智能?我表示怀疑。
GPT如果不是o1的话很弱,AIME只有10几分,推理系列可以到90分。
R1和O1做中科院的物理竞赛题已经排进前三了,
更高深一点的数学其实也不是问题,只是现在训练data不够
陶哲轩他们搞得那个frontier math,全是你说的高深数学,O3可以拿20分.我是一题不会做
https://epoch.ai/frontiermath/benchmark-problems
#9 Re: 有限智能假说
发表于 : 2025年 2月 14日 14:47
由 Caravel
TheMatrix 写了: 2025年 2月 14日 14:25
AI是不能计算的。或者说神经网络是不适合计算的。
神经网络就和人的大脑类似,它里面存储的是“知识”,不是事实。知识的特点是模糊。你这次问它是这么说,下次问它是另一种说法。不是很精确。这个特点使它不适合做计算。比如算个乘法都费劲。938472*27263。
也不是不能算,它要抡起它的高级模糊智能来模拟机械步骤。就好像三体里面的场景 - 用几千几万的人来模拟二进制计算。能算,但是效率不行。
这个特点要以适合的方式来利用。
很奇怪,大模型做大数乘法(10位置乘10位)会错,说明还缺乏一些东西,人脑虽然也是天马行空,但是可以rigoursly follow一些规则,大模型似乎还做不到。
#10 Re: 有限智能假说
发表于 : 2025年 2月 14日 19:06
由 verdelite
Caravel 写了: 2025年 2月 14日 14:47
很奇怪,大模型做大数乘法(10位置乘10位)会错,说明还缺乏一些东西,人脑虽然也是天马行空,但是可以rigoursly follow一些规则,大模型似乎还做不到。
它现在全在大脑里面运算,还缺一个外挂计算器,或者外挂白纸+笔。这些都不难弄进去。
#11 Re: 有限智能假说
发表于 : 2025年 2月 14日 19:08
由 verdelite
FoxMe 写了: 2025年 2月 14日 12:36
我叫GPT出几个题目并给出答案,尼玛连矩阵乘法这么简单的东西,给出的答案都是错的。感觉死记硬背的题还是可以的。
现在的AI,绝大部分数学是初等的(工科大学生水平),没有用到高深的数学,这样的AI能有多高的智能?我表示怀疑。
如果不给你纸笔,你还比不过AI。
你就是对人脑的智能太高看了,因为不了解,所以神秘化。这种思维是错误的,等你明白了世人皆傻的真理。
#12 Re: 有限智能假说
发表于 : 2025年 2月 14日 20:39
由 Caravel
verdelite 写了: 2025年 2月 14日 19:06
它现在全在大脑里面运算,还缺一个外挂计算器,或者外挂白纸+笔。这些都不难弄进去。
他不需要纸笔,随时可以写到内存里啊
#13 Re: 有限智能假说
发表于 : 2025年 2月 16日 10:03
由 FoxMe
那为啥不调用计算程序?很容易实现吧
verdelite 写了: 2025年 2月 14日 19:06
它现在全在大脑里面运算,还缺一个外挂计算器,或者外挂白纸+笔。这些都不难弄进去。
#14 Re: 有限智能假说
发表于 : 2025年 2月 16日 10:05
由 FoxMe
哦是这样的。最近大家学习AI进步很快啊
TheMatrix 写了: 2025年 2月 14日 14:25
AI是不能计算的。或者说神经网络是不适合计算的。
神经网络就和人的大脑类似,它里面存储的是“知识”,不是事实。知识的特点是模糊。你这次问它是这么说,下次问它是另一种说法。不是很精确。这个特点使它不适合做计算。比如算个乘法都费劲。938472*27263。
也不是不能算,它要抡起它的高级模糊智能来模拟机械步骤。就好像三体里面的场景 - 用几千几万的人来模拟二进制计算。能算,但是效率不行。
这个特点要以适合的方式来利用。
#15 Re: 有限智能假说
发表于 : 2025年 2月 16日 10:12
由 verdelite
FoxMe 写了: 2025年 2月 16日 10:03
那为啥不调用计算程序?很容易实现吧
显然现在还没实现。
#16 Re: 有限智能假说
发表于 : 2025年 2月 19日 16:56
由 (ヅ)
Caravel 写了: 2025年 2月 13日 16:16
现在都把AGI,ASI想得太好了,认为一出来就什么科学问题就解决了,这估计是幻想。
从LLM的实践看,经验和知识就存在attention机制里面,attention就是两两之间的关联函数。聪明人比如围棋高手这样的人厉害,很大一部分就是他们的关联函数很sharp,一眼就能看出最佳出招在哪里,所以可以节省大量搜索的时间。
但是如果你看的的东西太多,context window很长,关联函数的有效性就大大降低,要么就得忽略很多元素。所以最佳效能的智能体最好是专精一个领域,而不是样样精通的超级智能。
这也许是Mixture of expert非常有效的原因。
universal approximation theorem证明了存在性,但是没有提供构造性证明
所以大家一通傻算