AI reasoning到底是记住了解题步骤,还是真正会思考了?

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

drifter
论坛精英
论坛精英
帖子互动: 428
帖子: 7151
注册时间: 2022年 9月 1日 04:17

#21 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 drifter »

duiduilu 写了: 2025年 2月 15日 13:16 deepseek那个是假的,调用python api了,我也差点被他骗了。
chatgpt就老老实实说调api了。
这正应该是ai应该做的 识别问题然后调用正确的模块 通过模糊数据和规则 制定精确步骤并执行验证结果

一个会按计算器来回答算术提问的小孩不能说他智能差

标签/Tags:
yanb
论坛点评
论坛点评
帖子互动: 157
帖子: 2815
注册时间: 2022年 10月 24日 19:21

#22 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 yanb »

macarthur 写了: 2025年 2月 15日 12:26 不是前一阵子有人研究过了么?给它出题的时候故意messing around,东拉西扯加了一大堆不相干的废话,然后AI就彻底乱了阵脚 -- 不明白这些废话跟题目有什么相干性。。。

我是不相信它能真的了解这个世界。。。 熟读唐诗三百首,不会吟诗也会绺。。。 唐诗背得再熟,它也不会理解香炉是个什么东西什么材质形状干什么用的。。。
这不是很显然吗
小孩数学竞赛那点题经常要加点东扯西拉的东西 或者彻底改头换面
chatgpt就完全晕菜了
你转换成比较精确的数学语言 有时候能够准确理解
justChat
职业作家
职业作家
帖子互动: 110
帖子: 772
注册时间: 2023年 10月 19日 16:33

#23 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 justChat »

两个数相加:
189764646798746475645645646545646547894167961646064064641641646040646406464+789789464650456406546546540646406464646461464345645634065064604650460460646456456456

数字太大,超出概率搜索空间。也超出任何api处理能力。

如果LLM理解加法,应该对齐之后,一位一位的往前算,像小学教的一样。
试了一圈,只有deepseek r1懂这个思路,还算错了。
TheMatrix 写了: 2025年 2月 15日 12:09 AI做数学题现在很厉害的。这些题现在都难得很,给人做人也做不出来,包括数学系博士生。因为比如说你只懂分析,给你出一个拓扑题你就做不出来了。

另外你看AI解题的过程,感觉一步一步的分解非常合理,而且每一步都不trivial。

按人的经验,这样的分解不可能是死记硬背的,一定是理解了。但是别忘了AI有大量的解题数据。你以为横空出世的解题步骤,在某个领域里可能是固定套路。一个人掌握不了各领域的固定套路,但是AI能。把固定套路都掌握了,AI就能打90%的问题。

所以这篇论文就是想看看,AI倒是记住了解题套路,还是真正会思考了。

不过说实话,这两个问题被改得挺难。AI虽然做错了,但是也不好说是不是不能思考。

https://zhuanlan.zhihu.com/p/23538617559
https://arxiv.org/html/2502.06453



图片

图片

图片

图片
sporky
知名作家
知名作家
帖子互动: 123
帖子: 1077
注册时间: 2023年 9月 19日 18:58

#24 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 sporky »

把加号换成乘号,看它还懂不懂
duiduilu(abc)
著名点评
著名点评
帖子互动: 201
帖子: 3282
注册时间: 2024年 10月 27日 11:03

#25 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 duiduilu(abc) »



居然有个教授专门去做过这个实验。

Is OpenAI's o1 a good calculator? We tested it on up to 20x20 multiplication—o1 solves up to 9x9 multiplication with decent accuracy, while gpt-4o struggles beyond 4x4. For context, this task is solvable by a small LM using implicit CoT with stepwise internalization.
意淫的最高境界,是把彪形大汉的你意淫成我的一个小妾。
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#26 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 wdong(万事休) »

AI只会套路。见过了的题目照猫画虎能画。没见过的,基本上抓瞎。这一点和人一样。人碰到没见过的也是抓瞎。真正会思考的人很少,大部分只会吸收别人的观点,说着说着慢慢以为是自己的观点了。但是即使会思考的也非常勉强。科研都是乱碰,所以才这么难。人要是会系统性的思考,怎么现在弦论走不下去了?

说实在的人比AI高明不了多少。
fantasist
见习点评
见习点评
帖子互动: 182
帖子: 1471
注册时间: 2022年 7月 24日 19:52

#27 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 fantasist »

wdong 写了: 2025年 2月 15日 22:43 AI只会套路。见过了的题目照猫画虎能画。没见过的,基本上抓瞎。这一点和人一样。人碰到没见过的也是抓瞎。真正会思考的人很少,大部分只会吸收别人的观点,说着说着慢慢以为是自己的观点了。但是即使会思考的也非常勉强。科研都是乱碰,所以才这么难。人要是会系统性的思考,怎么现在弦论走不下去了?

说实在的人比AI高明不了多少。
人类又不是一出生就会复杂的推理,都是靠刷题或者环境刺激做出来的。以现在AI知识面的广度和写作速度,加上虽然不高但也不是没有的推理能力,智力实际上已经超过80%的人类了吧?说人比AI高明不了多少,可能是已经低估了AI。
大家现在经常讨论一些AI做不出来的逻辑推理和高等数学题,能参与讨论的是人类里智商最高的小群体,只能说AI还没完爆全人类,并意味着AI不行。
现在AI其实只差两个能力:快速学习迭代的能力,和access to没有数字化的知识。另外有很大进步空间的是也许能通过多模态提高的物理世界理解能力,以及能耗要再降低两个数量级。
rtyu
见习写手
见习写手
帖子互动: 9
帖子: 95
注册时间: 2022年 9月 9日 01:24

#28 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 rtyu »

据说 AlphaGeometry 的确会自己推理,还自己生成了一亿个几何图形来发现新的几何关系(定理). 好像和LLM不是一回事。如果AlphaGeometry成功了,人类可以向AI提供一些概念和方向,AI可以自己推导出定理,但不知道AI能不能知道哪些定理是有用的。

https://deepmind.google/discover/blog/a ... -geometry/
yanb
论坛点评
论坛点评
帖子互动: 157
帖子: 2815
注册时间: 2022年 10月 24日 19:21

#29 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 yanb »

wdong 写了: 2025年 2月 15日 22:43 AI只会套路。见过了的题目照猫画虎能画。没见过的,基本上抓瞎。这一点和人一样。人碰到没见过的也是抓瞎。真正会思考的人很少,大部分只会吸收别人的观点,说着说着慢慢以为是自己的观点了。但是即使会思考的也非常勉强。科研都是乱碰,所以才这么难。人要是会系统性的思考,怎么现在弦论走不下去了?

说实在的人比AI高明不了多少。
我感觉,越需要创造力的东西AI越不行,高明的人或群体,能创造新的工具,AI怎么可能?
DongshanGe(东山)
知名作家
知名作家
帖子互动: 88
帖子: 1022
注册时间: 2024年 7月 8日 08:13

#30 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 DongshanGe(东山) »

duiduilu 写了: 2025年 2月 15日 13:16 deepseek那个是假的,调用python api了,我也差点被他骗了。
chatgpt就老老实实说调api了。
人家deepseek,都几百家在部署了,各个都在调api.
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#31 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 wdong(万事休) »

rtyu 写了: 2025年 2月 16日 00:02 据说 AlphaGeometry 的确会自己推理,还自己生成了一亿个几何图形来发现新的几何关系(定理). 好像和LLM不是一回事。如果AlphaGeometry成功了,人类可以向AI提供一些概念和方向,AI可以自己推导出定理,但不知道AI能不能知道哪些定理是有用的。

https://deepmind.google/discover/blog/a ... -geometry/
那个不是语言模型
goodegg(我是大陆人)
职业作家
职业作家
帖子互动: 171
帖子: 731
注册时间: 2023年 7月 23日 03:31

#32 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 goodegg(我是大陆人) »

你知道你在说什么吗?

duiduilu 写了: 2025年 2月 15日 13:16 deepseek那个是假的,调用python api了,我也差点被他骗了。
chatgpt就老老实实说调api了。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13271
注册时间: 2022年 7月 26日 00:35

#33 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 TheMatrix楼主 »

wdong 写了: 2025年 2月 15日 22:43 AI只会套路。见过了的题目照猫画虎能画。没见过的,基本上抓瞎。这一点和人一样。人碰到没见过的也是抓瞎。真正会思考的人很少,大部分只会吸收别人的观点,说着说着慢慢以为是自己的观点了。但是即使会思考的也非常勉强。科研都是乱碰,所以才这么难。人要是会系统性的思考,怎么现在弦论走不下去了?

说实在的人比AI高明不了多少。
但是人可以“漫无目的的自由组合”,AI不可以。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13271
注册时间: 2022年 7月 26日 00:35

#34 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 TheMatrix楼主 »

yanb 写了: 2025年 2月 16日 02:11 我感觉,越需要创造力的东西AI越不行,高明的人或群体,能创造新的工具,AI怎么可能?
说的对。

技术上来讲,AI并非不能创造。这是个哲学问题:AI“创造”的目的,评判,归依,是哪里呢?

在人类社会的语境下,智能就是类人。只能如此。
duiduilu2(abc)
已冻结已冻结
帖子互动: 32
帖子: 766
注册时间: 2025年 1月 5日 12:42

#35 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 duiduilu2(abc) »

goodegg 写了: 2025年 2月 16日 08:27 你知道你在说什么吗?
我仔细盘问了deepseek,他没有用python api,但是用了hardcoded rules.
也就是说,deepseek计算能力这块,不是llm.


For tasks like math, you use hardcoded rules? these rules are not derived from training data?
xxxx
Yes, that's correct! For tasks like arithmetic (e.g., addition, subtraction, multiplication, division), I use hardcoded rules or algorithms that are explicitly programmed into my system. These rules are not derived from training data. Let me explain in more detail:
1. Hardcoded Rules for Math

These rules are based on the fundamental principles of mathematics, such as:

How to add, subtract, multiply, and divide numbers.

How to handle carry-over in addition.

How to align numbers by place value (units, tens, hundreds, etc.).

These rules are implemented as step-by-step algorithms that I follow to compute results.

For example, in the case of 13413+4313413413+43134:

I break the problem into smaller steps (adding digits column by column).

I apply the rules of addition to compute the result: 56547.

2. Why Not Use Training Data for Math?

Training data is great for learning patterns in language, but it's not reliable for precise tasks like arithmetic.

If I relied on training data for math, I might make mistakes because:

Training data could contain errors.

I might "memorize" incorrect examples.

I wouldn't be able to handle new or unique problems that weren't in the training data.

Hardcoded rules ensure that I can solve any arithmetic problem accurately, even if I've never seen it before.

3. Training Data vs. Hardcoded Rules

Training Data: Used for tasks like understanding language, generating text, or answering questions based on patterns in the data.

Hardcoded Rules: Used for precise, deterministic tasks like arithmetic, where following a specific algorithm guarantees the correct result.

4. Example of Hardcoded Rules in Action

Let's revisit 13413+4313413413+43134:

Step 1: Add the units place: 3+4=73+4=7.

Step 2: Add the tens place: 1+3=41+3=4.

Step 3: Add the hundreds place: 4+1=54+1=5.

Step 4: Add the thousands place: 3+3=63+3=6.

Step 5: Add the ten-thousands place: 1+4=51+4=5.

Result: Combine the digits to get 56547.

This process follows a strict, rule-based approach, not influenced by training data.
5. Key Takeaway

For math, I use hardcoded rules that are explicitly programmed into my system.

These rules are not derived from training data and ensure accurate results for arithmetic tasks.

If you'd like, I can explain how these rules work in more detail or walk through another example! 😊
x1 图片
头像
verdelite(众傻之傻)
论坛元老
论坛元老
帖子互动: 926
帖子: 22867
注册时间: 2022年 7月 21日 23:33

#36 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 verdelite(众傻之傻) »

TheMatrix 写了: 2025年 2月 16日 09:40 但是人可以“漫无目的的自由组合”,AI不可以。
AI当然可以。你训练1万个AI,各自采用不同的训练材料。或者过程中包括输出过程中加入各种随机变量。
没有光子;也没有量子能级,量子跃迁,量子叠加,量子塌缩和量子纠缠。
duiduilu2(abc)
已冻结已冻结
帖子互动: 32
帖子: 766
注册时间: 2025年 1月 5日 12:42

#37 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 duiduilu2(abc) »

LLM是基于统计的,但是并不能在统计的结果上总结出规律来。
这就是说,LLM是老中医模式,他是类比的,而不是逻辑的。
经过我的测试,deepseek解决多位数加法,乘法的方式,是人工输入规则,而不是通过数据来学习规则。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13271
注册时间: 2022年 7月 26日 00:35

#38 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 TheMatrix楼主 »

rtyu 写了: 2025年 2月 16日 00:02 据说 AlphaGeometry 的确会自己推理,还自己生成了一亿个几何图形来发现新的几何关系(定理). 好像和LLM不是一回事。如果AlphaGeometry成功了,人类可以向AI提供一些概念和方向,AI可以自己推导出定理,但不知道AI能不能知道哪些定理是有用的。

https://deepmind.google/discover/blog/a ... -geometry/
看了。很不错。

这个相当于LLM指导下的symbolic试探。

如果把LLM看成是主导的话,symbolic engine看成是工具,这个模型相当于把LLM和工具集成到了一体,也相当于是AI agent。

下一步的方向应该是进一步压缩symbolic engine的主动权。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13271
注册时间: 2022年 7月 26日 00:35

#39 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 TheMatrix楼主 »

verdelite 写了: 2025年 2月 16日 11:57 AI当然可以。你训练1万个AI,各自采用不同的训练材料。或者过程中包括输出过程中加入各种随机变量。
这不是个技术问题。这可能是个哲学问题:

viewtopic.php?p=4987755#p4987755

我也没有完全想好。我想到什么再讨论。
红烛歌楼
见习点评
见习点评
帖子互动: 90
帖子: 2016
注册时间: 2024年 9月 18日 21:29

#41 Re: AI reasoning到底是记住了解题步骤,还是真正会思考了?

帖子 红烛歌楼 »

TheMatrix 写了: 2025年 2月 15日 13:13 能做。昨天我问deepseek这个乘法:938472*27263。

它能做,只不过很慢。

图片
此网站Yesterday 写了: ↑
(得了癌症)复发也可以治,治愈本来就不应该是目标。
得了癌症治疗的目标本来就是不应该治愈,那是啥?还复发也可以治?什么鬼?别说复发,就说第一次被诊断出xxCa.,多少人当场崩溃?还复发可以治?我几个亲戚都是复发了人完了,怎么不治了?推诿回家等S呢?
回复

回到 “STEM”