AI reasoning到底是记住了解题步骤，还是真正会思考了？

drifter · 帖子由 **drifter** » 2025年 2月 15日 13:46

duiduilu 写了： 2025年 2月 15日 13:16 deepseek那个是假的，调用python api了，我也差点被他骗了。
chatgpt就老老实实说调api了。

这正应该是ai应该做的识别问题然后调用正确的模块通过模糊数据和规则制定精确步骤并执行验证结果

一个会按计算器来回答算术提问的小孩不能说他智能差

yanb · 帖子由 **yanb** » 2025年 2月 15日 14:47

macarthur 写了： 2025年 2月 15日 12:26 不是前一阵子有人研究过了么？给它出题的时候故意messing around，东拉西扯加了一大堆不相干的废话，然后AI就彻底乱了阵脚 -- 不明白这些废话跟题目有什么相干性。。。

我是不相信它能真的了解这个世界。。。熟读唐诗三百首，不会吟诗也会绺。。。唐诗背得再熟，它也不会理解香炉是个什么东西什么材质形状干什么用的。。。

这不是很显然吗
小孩数学竞赛那点题经常要加点东扯西拉的东西或者彻底改头换面
chatgpt就完全晕菜了
你转换成比较精确的数学语言有时候能够准确理解

justChat · 帖子由 **justChat** » 2025年 2月 15日 16:14

两个数相加：
189764646798746475645645646545646547894167961646064064641641646040646406464+789789464650456406546546540646406464646461464345645634065064604650460460646456456456

数字太大，超出概率搜索空间。也超出任何api处理能力。

如果LLM理解加法，应该对齐之后，一位一位的往前算，像小学教的一样。
试了一圈，只有deepseek r1懂这个思路，还算错了。

TheMatrix 写了： 2025年 2月 15日 12:09 AI做数学题现在很厉害的。这些题现在都难得很，给人做人也做不出来，包括数学系博士生。因为比如说你只懂分析，给你出一个拓扑题你就做不出来了。

另外你看AI解题的过程，感觉一步一步的分解非常合理，而且每一步都不trivial。

按人的经验，这样的分解不可能是死记硬背的，一定是理解了。但是别忘了AI有大量的解题数据。你以为横空出世的解题步骤，在某个领域里可能是固定套路。一个人掌握不了各领域的固定套路，但是AI能。把固定套路都掌握了，AI就能打90%的问题。

所以这篇论文就是想看看，AI倒是记住了解题套路，还是真正会思考了。

不过说实话，这两个问题被改得挺难。AI虽然做错了，但是也不好说是不是不能思考。

https://zhuanlan.zhihu.com/p/23538617559
https://arxiv.org/html/2502.06453

sporky · 帖子由 **sporky** » 2025年 2月 15日 19:58

把加号换成乘号，看它还懂不懂

duiduilu · 帖子由 **duiduilu（abc）** » 2025年 2月 15日 20:15

居然有个教授专门去做过这个实验。

Is OpenAI's o1 a good calculator? We tested it on up to 20x20 multiplication—o1 solves up to 9x9 multiplication with decent accuracy, while gpt-4o struggles beyond 4x4. For context, this task is solvable by a small LM using implicit CoT with stepwise internalization.

wdong

AI只会套路。见过了的题目照猫画虎能画。没见过的，基本上抓瞎。这一点和人一样。人碰到没见过的也是抓瞎。真正会思考的人很少，大部分只会吸收别人的观点，说着说着慢慢以为是自己的观点了。但是即使会思考的也非常勉强。科研都是乱碰，所以才这么难。人要是会系统性的思考，怎么现在弦论走不下去了？

说实在的人比AI高明不了多少。

fantasist · 帖子由 **fantasist** » 2025年 2月 15日 23:19

wdong 写了： 2025年 2月 15日 22:43 AI只会套路。见过了的题目照猫画虎能画。没见过的，基本上抓瞎。这一点和人一样。人碰到没见过的也是抓瞎。真正会思考的人很少，大部分只会吸收别人的观点，说着说着慢慢以为是自己的观点了。但是即使会思考的也非常勉强。科研都是乱碰，所以才这么难。人要是会系统性的思考，怎么现在弦论走不下去了？

说实在的人比AI高明不了多少。

人类又不是一出生就会复杂的推理，都是靠刷题或者环境刺激做出来的。以现在AI知识面的广度和写作速度，加上虽然不高但也不是没有的推理能力，智力实际上已经超过80%的人类了吧？说人比AI高明不了多少，可能是已经低估了AI。
大家现在经常讨论一些AI做不出来的逻辑推理和高等数学题，能参与讨论的是人类里智商最高的小群体，只能说AI还没完爆全人类，并意味着AI不行。
现在AI其实只差两个能力：快速学习迭代的能力，和access to没有数字化的知识。另外有很大进步空间的是也许能通过多模态提高的物理世界理解能力，以及能耗要再降低两个数量级。

rtyu · 帖子由 **rtyu** » 2025年 2月 16日 00:02

据说 AlphaGeometry 的确会自己推理，还自己生成了一亿个几何图形来发现新的几何关系(定理). 好像和LLM不是一回事。如果AlphaGeometry成功了，人类可以向AI提供一些概念和方向，AI可以自己推导出定理，但不知道AI能不能知道哪些定理是有用的。

https://deepmind.google/discover/blog/a ... -geometry/

yanb · 帖子由 **yanb** » 2025年 2月 16日 02:11

wdong 写了： 2025年 2月 15日 22:43 AI只会套路。见过了的题目照猫画虎能画。没见过的，基本上抓瞎。这一点和人一样。人碰到没见过的也是抓瞎。真正会思考的人很少，大部分只会吸收别人的观点，说着说着慢慢以为是自己的观点了。但是即使会思考的也非常勉强。科研都是乱碰，所以才这么难。人要是会系统性的思考，怎么现在弦论走不下去了？

说实在的人比AI高明不了多少。

我感觉，越需要创造力的东西AI越不行，高明的人或群体，能创造新的工具，AI怎么可能？

DongshanGe

duiduilu 写了： 2025年 2月 15日 13:16 deepseek那个是假的，调用python api了，我也差点被他骗了。
chatgpt就老老实实说调api了。

人家deepseek，都几百家在部署了，各个都在调api.

wdong

rtyu 写了： 2025年 2月 16日 00:02 据说 AlphaGeometry 的确会自己推理，还自己生成了一亿个几何图形来发现新的几何关系(定理). 好像和LLM不是一回事。如果AlphaGeometry成功了，人类可以向AI提供一些概念和方向，AI可以自己推导出定理，但不知道AI能不能知道哪些定理是有用的。

https://deepmind.google/discover/blog/a ... -geometry/

那个不是语言模型

goodegg

你知道你在说什么吗？

duiduilu 写了： 2025年 2月 15日 13:16 deepseek那个是假的，调用python api了，我也差点被他骗了。
chatgpt就老老实实说调api了。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 2月 16日 09:40

wdong 写了： 2025年 2月 15日 22:43 AI只会套路。见过了的题目照猫画虎能画。没见过的，基本上抓瞎。这一点和人一样。人碰到没见过的也是抓瞎。真正会思考的人很少，大部分只会吸收别人的观点，说着说着慢慢以为是自己的观点了。但是即使会思考的也非常勉强。科研都是乱碰，所以才这么难。人要是会系统性的思考，怎么现在弦论走不下去了？

说实在的人比AI高明不了多少。

但是人可以“漫无目的的自由组合”，AI不可以。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 2月 16日 09:43

yanb 写了： 2025年 2月 16日 02:11 我感觉，越需要创造力的东西AI越不行，高明的人或群体，能创造新的工具，AI怎么可能？

说的对。

技术上来讲，AI并非不能创造。这是个哲学问题：AI“创造”的目的，评判，归依，是哪里呢？

在人类社会的语境下，智能就是类人。只能如此。

duiduilu2

goodegg 写了： 2025年 2月 16日 08:27 你知道你在说什么吗？

我仔细盘问了deepseek,他没有用python api，但是用了hardcoded rules.
也就是说，deepseek计算能力这块，不是llm.

For tasks like math, you use hardcoded rules? these rules are not derived from training data?
xxxx
Yes, that's correct! For tasks like arithmetic (e.g., addition, subtraction, multiplication, division), I use hardcoded rules or algorithms that are explicitly programmed into my system. These rules are not derived from training data. Let me explain in more detail:
1. Hardcoded Rules for Math

These rules are based on the fundamental principles of mathematics, such as:

How to add, subtract, multiply, and divide numbers.

How to handle carry-over in addition.

How to align numbers by place value (units, tens, hundreds, etc.).

These rules are implemented as step-by-step algorithms that I follow to compute results.

For example, in the case of 13413+4313413413+43134:

I break the problem into smaller steps (adding digits column by column).

I apply the rules of addition to compute the result: 56547.

2. Why Not Use Training Data for Math?

Training data is great for learning patterns in language, but it's not reliable for precise tasks like arithmetic.

If I relied on training data for math, I might make mistakes because:

Training data could contain errors.

I might "memorize" incorrect examples.

I wouldn't be able to handle new or unique problems that weren't in the training data.

Hardcoded rules ensure that I can solve any arithmetic problem accurately, even if I've never seen it before.

3. Training Data vs. Hardcoded Rules

Training Data: Used for tasks like understanding language, generating text, or answering questions based on patterns in the data.

Hardcoded Rules: Used for precise, deterministic tasks like arithmetic, where following a specific algorithm guarantees the correct result.

4. Example of Hardcoded Rules in Action

Let's revisit 13413+4313413413+43134:

Step 1: Add the units place: 3+4=73+4=7.

Step 2: Add the tens place: 1+3=41+3=4.

Step 3: Add the hundreds place: 4+1=54+1=5.

Step 4: Add the thousands place: 3+3=63+3=6.

Step 5: Add the ten-thousands place: 1+4=51+4=5.

Result: Combine the digits to get 56547.

This process follows a strict, rule-based approach, not influenced by training data.
5. Key Takeaway

For math, I use hardcoded rules that are explicitly programmed into my system.

These rules are not derived from training data and ensure accurate results for arithmetic tasks.

If you'd like, I can explain how these rules work in more detail or walk through another example!

verdelite

TheMatrix 写了： 2025年 2月 16日 09:40 但是人可以“漫无目的的自由组合”，AI不可以。

AI当然可以。你训练1万个AI，各自采用不同的训练材料。或者过程中包括输出过程中加入各种随机变量。

duiduilu2

LLM是基于统计的，但是并不能在统计的结果上总结出规律来。
这就是说，LLM是老中医模式，他是类比的，而不是逻辑的。
经过我的测试，deepseek解决多位数加法，乘法的方式，是人工输入规则，而不是通过数据来学习规则。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 2月 16日 12:03

rtyu 写了： 2025年 2月 16日 00:02 据说 AlphaGeometry 的确会自己推理，还自己生成了一亿个几何图形来发现新的几何关系(定理). 好像和LLM不是一回事。如果AlphaGeometry成功了，人类可以向AI提供一些概念和方向，AI可以自己推导出定理，但不知道AI能不能知道哪些定理是有用的。

https://deepmind.google/discover/blog/a ... -geometry/

看了。很不错。

这个相当于LLM指导下的symbolic试探。

如果把LLM看成是主导的话，symbolic engine看成是工具，这个模型相当于把LLM和工具集成到了一体，也相当于是AI agent。

下一步的方向应该是进一步压缩symbolic engine的主动权。

TheMatrix · 帖子由 **TheMatrix楼主** » 2025年 2月 16日 12:08

verdelite 写了： 2025年 2月 16日 11:57 AI当然可以。你训练1万个AI，各自采用不同的训练材料。或者过程中包括输出过程中加入各种随机变量。

这不是个技术问题。这可能是个哲学问题：

viewtopic.php?p=4987755#p4987755

我也没有完全想好。我想到什么再讨论。

红烛歌楼 · 帖子由 **红烛歌楼** » 2025年 2月 16日 12:11

TheMatrix 写了： 2025年 2月 15日 13:13 能做。昨天我问deepseek这个乘法：938472*27263。

它能做，只不过很慢。

新未名空间

AI reasoning到底是记住了解题步骤，还是真正会思考了？

#21 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#22 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#23 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#24 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#25 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#26 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#27 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#28 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#29 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#30 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#31 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#32 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#33 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#34 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#35 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#36 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#37 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#38 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#39 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？

#41 Re: AI reasoning到底是记住了解题步骤，还是真正会思考了？