AI reasoning到底是记住了解题步骤,还是真正会思考了?

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#1 AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 TheMatrix楼主 »

AI做数学题现在很厉害的。这些题现在都难得很,给人做人也做不出来,包括数学系博士生。因为比如说你只懂分析,给你出一个拓扑题你就做不出来了。

另外你看AI解题的过程,感觉一步一步的分解非常合理,而且每一步都不trivial。

按人的经验,这样的分解不可能是死记硬背的,一定是理解了。但是别忘了AI有大量的解题数据。你以为横空出世的解题步骤,在某个领域里可能是固定套路。一个人掌握不了各领域的固定套路,但是AI能。把固定套路都掌握了,AI就能打90%的问题。

所以这篇论文就是想看看,AI倒是记住了解题套路,还是真正会思考了。

不过说实话,这两个问题被改得挺难。AI虽然做错了,但是也不好说是不是不能思考。

https://zhuanlan.zhihu.com/p/23538617559
https://arxiv.org/html/2502.06453



图片

图片

图片

图片
上次由 TheMatrix 在 2025年 2月 15日 12:11 修改。
原因: 未提供修改原因

标签/Tags:
changjiang
论坛精英
论坛精英
帖子互动: 407
帖子: 6085
注册时间: 2022年 7月 22日 21:59

#2 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 changjiang »

AI 模型本质上是不是interpolation? 假设训练数据覆盖了现有人类知识范围,模型基本上能做到无所不知了。
头像
macarthur(麦客)
见习点评
见习点评
帖子互动: 401
帖子: 1940
注册时间: 2024年 1月 11日 09:02

#3 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 macarthur(麦客) »

不是前一阵子有人研究过了么?给它出题的时候故意messing around,东拉西扯加了一大堆不相干的废话,然后AI就彻底乱了阵脚 -- 不明白这些废话跟题目有什么相干性。。。

我是不相信它能真的了解这个世界。。。 熟读唐诗三百首,不会吟诗也会绺。。。 唐诗背得再熟,它也不会理解香炉是个什么东西什么材质形状干什么用的。。。
跳出三界外,不在五行中
duiduilu(abc)
著名点评
著名点评
帖子互动: 201
帖子: 3282
注册时间: 2024年 10月 27日 11:03

#4 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 duiduilu(abc) »

多位数加法,这个没有任何概率分布,除非理解了加法的原理,否则做不出来。
意淫的最高境界,是把彪形大汉的你意淫成我的一个小妾。
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 828
帖子: 18037
注册时间: 2022年 7月 23日 23:48

#5 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 hahan »

天天讲AI的都是很无语
一个stochastic process
根据概率给出next token
为啥有人会觉得它能解数学题呢
急急如丧家之犬
忙忙似漏网之鱼
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#6 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 TheMatrix楼主 »

changjiang 写了: 2025年 2月 15日 12:14 AI 模型本质上是不是interpolation? 假设训练数据覆盖了现有人类知识范围,模型基本上能做到无所不知了。
是。可以打90%的问题。但是不能做open problem。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#7 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 TheMatrix楼主 »

hahan 写了: 2025年 2月 15日 13:08 天天讲AI的都是很无语
一个stochastic process
根据概率给出next token
为啥有人会觉得它能解数学题呢
最大概率next token也可走上最大概率next step。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#8 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 TheMatrix楼主 »

macarthur 写了: 2025年 2月 15日 12:26 不是前一阵子有人研究过了么?给它出题的时候故意messing around,东拉西扯加了一大堆不相干的废话,然后AI就彻底乱了阵脚 -- 不明白这些废话跟题目有什么相干性。。。

我是不相信它能真的了解这个世界。。。 熟读唐诗三百首,不会吟诗也会绺。。。 唐诗背得再熟,它也不会理解香炉是个什么东西什么材质形状干什么用的。。。
香炉是multimodal的问题。

但是数学问题恰好是完全的语言问题。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#9 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 TheMatrix楼主 »

duiduilu 写了: 2025年 2月 15日 12:45 多位数加法,这个没有任何概率分布,除非理解了加法的原理,否则做不出来。
能做。昨天我问deepseek这个乘法:938472*27263。

它能做,只不过很慢。
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 828
帖子: 18037
注册时间: 2022年 7月 23日 23:48

#10 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 hahan »

TheMatrix 写了: 2025年 2月 15日 13:10 最大概率next token也可走上最大概率next step。
加减法的解题是一个概率过程?

华尔街对AI的炒作
没几年就来一次
因为实在没啥炒作标的了

看你们在这一本正经的讨论
非常amusing
急急如丧家之犬
忙忙似漏网之鱼
duiduilu(abc)
著名点评
著名点评
帖子互动: 201
帖子: 3282
注册时间: 2024年 10月 27日 11:03

#11 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 duiduilu(abc) »

TheMatrix 写了: 2025年 2月 15日 13:13 能做。昨天我问deepseek这个乘法:938472*27263。

它能做,只不过很慢。
deepseek那个是假的,调用python api了,我也差点被他骗了。
chatgpt就老老实实说调api了。
意淫的最高境界,是把彪形大汉的你意淫成我的一个小妾。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#12 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 TheMatrix楼主 »

hahan 写了: 2025年 2月 15日 13:14 加减法的解题是一个概率过程?

华尔街对AI的炒作
没几年就来一次
因为实在没啥炒作标的了

看你们在这一本正经的讨论
非常amusing
说的是工程上下一步的选择。这是一个概率问题。加减法也有步骤,下一步也有选择,最好的选择也是个概率问题。

正确性的证明是另一个问题。
头像
YouHi
论坛元老
论坛元老
YouHi 的博客
帖子互动: 2610
帖子: 36024
注册时间: 2022年 7月 22日 22:36

#13 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 YouHi »

我觉得还是个fancy next token prediction而已。。。
著名网友名单
🇺🇸 NC CHINESE AMERICANS FOR TRUMP 🛩️
你也是Trump U毕业的吗???
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 828
帖子: 18037
注册时间: 2022年 7月 23日 23:48

#14 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 hahan »

TheMatrix 写了: 2025年 2月 15日 13:20 说的是工程上下一步的选择。这是一个概率问题。加减法也有步骤,下一步也有选择,最好的选择也是个概率问题。

正确性的证明是另一个问题。
这个不叫解
这个叫猜
急急如丧家之犬
忙忙似漏网之鱼
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 561
帖子: 24557
注册时间: 2022年 7月 24日 17:21

#15 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 Caravel »

TheMatrix 写了: 2025年 2月 15日 12:09 AI做数学题现在很厉害的。这些题现在都难得很,给人做人也做不出来,包括数学系博士生。因为比如说你只懂分析,给你出一个拓扑题你就做不出来了。

另外你看AI解题的过程,感觉一步一步的分解非常合理,而且每一步都不trivial。

按人的经验,这样的分解不可能是死记硬背的,一定是理解了。但是别忘了AI有大量的解题数据。你以为横空出世的解题步骤,在某个领域里可能是固定套路。一个人掌握不了各领域的固定套路,但是AI能。把固定套路都掌握了,AI就能打90%的问题。

所以这篇论文就是想看看,AI倒是记住了解题套路,还是真正会思考了。

不过说实话,这两个问题被改得挺难。AI虽然做错了,但是也不好说是不是不能思考。

https://zhuanlan.zhihu.com/p/23538617559
https://arxiv.org/html/2502.06453



图片

图片

图片

图片
是记住了一些较短的套路,然后可以综合运用,所以新题也是可以做出来。

其实人也是类似的,这些东西都是一些条件概率分布。也看见三角函数就想到和差化积这些公司,然后拿来试一试。

如果短线需要不同的技巧,他如果没学过可能就不会。
x1 图片
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13243
注册时间: 2022年 7月 26日 00:35

#16 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 TheMatrix楼主 »

Caravel 写了: 2025年 2月 15日 13:24 是记住了一些较短的套路,然后可以综合运用,所以新题也是可以做出来。

其实人也是类似的,这些东西都是一些条件概率分布。也看见三角函数就想到和差化积这些公司,然后拿来试一试。

如果短线需要不同的技巧,他如果没学过可能就不会。
应该是这样。目前open problem还是安全的。
qxc
见习写手
见习写手
帖子互动: 45
帖子: 128
注册时间: 2022年 7月 21日 13:44

#17 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 qxc »

duiduilu 写了: 2025年 2月 15日 12:45 多位数加法,这个没有任何概率分布,除非理解了加法的原理,否则做不出来。
模型额外加个 regex 然后调用计算器就搞定了
你还是不能分辨
duiduilu(abc)
著名点评
著名点评
帖子互动: 201
帖子: 3282
注册时间: 2024年 10月 27日 11:03

#18 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 duiduilu(abc) »

qxc 写了: 2025年 2月 15日 13:33 模型额外加个 regex 然后调用计算器就搞定了
你还是不能分辨
我就直接问chatgpt,他老实说调了python API.
意淫的最高境界,是把彪形大汉的你意淫成我的一个小妾。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 561
帖子: 24557
注册时间: 2022年 7月 24日 17:21

#19 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 Caravel »

qxc 写了: 2025年 2月 15日 13:33 模型额外加个 regex 然后调用计算器就搞定了
你还是不能分辨
不需要强化学习一下使用tool就可以了
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 561
帖子: 24557
注册时间: 2022年 7月 24日 17:21

#20 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 Caravel »

TheMatrix 写了: 2025年 2月 15日 13:26 应该是这样。目前open problem还是安全的。
出一个题目,和以前所有题目需要的思路都不一样,这也很困难啊
回复

回到 “STEM”