STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。
版主: verdelite, TheMatrix
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 264
- 帖子: 13243
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
AI做数学题现在很厉害的。这些题现在都难得很,给人做人也做不出来,包括数学系博士生。因为比如说你只懂分析,给你出一个拓扑题你就做不出来了。
另外你看AI解题的过程,感觉一步一步的分解非常合理,而且每一步都不trivial。
按人的经验,这样的分解不可能是死记硬背的,一定是理解了。但是别忘了AI有大量的解题数据。你以为横空出世的解题步骤,在某个领域里可能是固定套路。一个人掌握不了各领域的固定套路,但是AI能。把固定套路都掌握了,AI就能打90%的问题。
所以这篇论文就是想看看,AI倒是记住了解题套路,还是真正会思考了。
不过说实话,这两个问题被改得挺难。AI虽然做错了,但是也不好说是不是不能思考。
https://zhuanlan.zhihu.com/p/23538617559
https://arxiv.org/html/2502.06453

上次由 TheMatrix 在 2025年 2月 15日 12:11 修改。
原因: 未提供修改原因
标签/Tags:
-
changjiang
- 论坛精英

- 帖子互动: 407
- 帖子: 6085
- 注册时间: 2022年 7月 22日 21:59
帖子
由 changjiang »
AI 模型本质上是不是interpolation? 假设训练数据覆盖了现有人类知识范围,模型基本上能做到无所不知了。
-
macarthur(麦客)
- 见习点评

- 帖子互动: 401
- 帖子: 1940
- 注册时间: 2024年 1月 11日 09:02
帖子
由 macarthur(麦客) »
不是前一阵子有人研究过了么?给它出题的时候故意messing around,东拉西扯加了一大堆不相干的废话,然后AI就彻底乱了阵脚 -- 不明白这些废话跟题目有什么相干性。。。
我是不相信它能真的了解这个世界。。。 熟读唐诗三百首,不会吟诗也会绺。。。 唐诗背得再熟,它也不会理解香炉是个什么东西什么材质形状干什么用的。。。
跳出三界外,不在五行中
-
duiduilu(abc)
- 著名点评

- 帖子互动: 201
- 帖子: 3282
- 注册时间: 2024年 10月 27日 11:03
帖子
由 duiduilu(abc) »
多位数加法,这个没有任何概率分布,除非理解了加法的原理,否则做不出来。
意淫的最高境界,是把彪形大汉的你意淫成我的一个小妾。
-
hahan
- 论坛元老

hahan 的博客
- 帖子互动: 828
- 帖子: 18037
- 注册时间: 2022年 7月 23日 23:48
帖子
由 hahan »
天天讲AI的都是很无语
一个stochastic process
根据概率给出next token
为啥有人会觉得它能解数学题呢
急急如丧家之犬
忙忙似漏网之鱼
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 264
- 帖子: 13243
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
changjiang 写了: 2025年 2月 15日 12:14
AI 模型本质上是不是interpolation? 假设训练数据覆盖了现有人类知识范围,模型基本上能做到无所不知了。
是。可以打90%的问题。但是不能做open problem。
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 264
- 帖子: 13243
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
hahan 写了: 2025年 2月 15日 13:08
天天讲AI的都是很无语
一个stochastic process
根据概率给出next token
为啥有人会觉得它能解数学题呢
最大概率next token也可走上最大概率next step。
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 264
- 帖子: 13243
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
macarthur 写了: 2025年 2月 15日 12:26
不是前一阵子有人研究过了么?给它出题的时候故意messing around,东拉西扯加了一大堆不相干的废话,然后AI就彻底乱了阵脚 -- 不明白这些废话跟题目有什么相干性。。。
我是不相信它能真的了解这个世界。。。 熟读唐诗三百首,不会吟诗也会绺。。。 唐诗背得再熟,它也不会理解香炉是个什么东西什么材质形状干什么用的。。。
香炉是multimodal的问题。
但是数学问题恰好是完全的语言问题。
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 264
- 帖子: 13243
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
duiduilu 写了: 2025年 2月 15日 12:45
多位数加法,这个没有任何概率分布,除非理解了加法的原理,否则做不出来。
能做。昨天我问deepseek这个乘法:938472*27263。
它能做,只不过很慢。
-
hahan
- 论坛元老

hahan 的博客
- 帖子互动: 828
- 帖子: 18037
- 注册时间: 2022年 7月 23日 23:48
帖子
由 hahan »
TheMatrix 写了: 2025年 2月 15日 13:10
最大概率next token也可走上最大概率next step。
加减法的解题是一个概率过程?
华尔街对AI的炒作
没几年就来一次
因为实在没啥炒作标的了
看你们在这一本正经的讨论
非常amusing
急急如丧家之犬
忙忙似漏网之鱼
-
duiduilu(abc)
- 著名点评

- 帖子互动: 201
- 帖子: 3282
- 注册时间: 2024年 10月 27日 11:03
帖子
由 duiduilu(abc) »
TheMatrix 写了: 2025年 2月 15日 13:13
能做。昨天我问deepseek这个乘法:938472*27263。
它能做,只不过很慢。
deepseek那个是假的,调用python api了,我也差点被他骗了。
chatgpt就老老实实说调api了。
意淫的最高境界,是把彪形大汉的你意淫成我的一个小妾。
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 264
- 帖子: 13243
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
hahan 写了: 2025年 2月 15日 13:14
加减法的解题是一个概率过程?
华尔街对AI的炒作
没几年就来一次
因为实在没啥炒作标的了
看你们在这一本正经的讨论
非常amusing
说的是工程上下一步的选择。这是一个概率问题。加减法也有步骤,下一步也有选择,最好的选择也是个概率问题。
正确性的证明是另一个问题。
-
YouHi
- 论坛元老

YouHi 的博客
- 帖子互动: 2610
- 帖子: 36024
- 注册时间: 2022年 7月 22日 22:36
帖子
由 YouHi »
我觉得还是个fancy next token prediction而已。。。
著名网友名单
NC CHINESE AMERICANS FOR TRUMP
你也是
Trump U毕业的吗???
-
hahan
- 论坛元老

hahan 的博客
- 帖子互动: 828
- 帖子: 18037
- 注册时间: 2022年 7月 23日 23:48
帖子
由 hahan »
TheMatrix 写了: 2025年 2月 15日 13:20
说的是工程上下一步的选择。这是一个概率问题。加减法也有步骤,下一步也有选择,最好的选择也是个概率问题。
正确性的证明是另一个问题。
这个不叫解
这个叫猜
急急如丧家之犬
忙忙似漏网之鱼
-
Caravel
- 论坛元老

Caravel 的博客
- 帖子互动: 561
- 帖子: 24557
- 注册时间: 2022年 7月 24日 17:21
帖子
由 Caravel »
是记住了一些较短的套路,然后可以综合运用,所以新题也是可以做出来。
其实人也是类似的,这些东西都是一些条件概率分布。也看见三角函数就想到和差化积这些公司,然后拿来试一试。
如果短线需要不同的技巧,他如果没学过可能就不会。
x1
-
TheMatrix楼主
- 论坛支柱

2024年度优秀版主
TheMatrix 的博客
- 帖子互动: 264
- 帖子: 13243
- 注册时间: 2022年 7月 26日 00:35
帖子
由 TheMatrix楼主 »
Caravel 写了: 2025年 2月 15日 13:24
是记住了一些较短的套路,然后可以综合运用,所以新题也是可以做出来。
其实人也是类似的,这些东西都是一些条件概率分布。也看见三角函数就想到和差化积这些公司,然后拿来试一试。
如果短线需要不同的技巧,他如果没学过可能就不会。
应该是这样。目前open problem还是安全的。
-
qxc
- 见习写手

- 帖子互动: 45
- 帖子: 128
- 注册时间: 2022年 7月 21日 13:44
帖子
由 qxc »
duiduilu 写了: 2025年 2月 15日 12:45
多位数加法,这个没有任何概率分布,除非理解了加法的原理,否则做不出来。
模型额外加个 regex 然后调用计算器就搞定了
你还是不能分辨
-
duiduilu(abc)
- 著名点评

- 帖子互动: 201
- 帖子: 3282
- 注册时间: 2024年 10月 27日 11:03
帖子
由 duiduilu(abc) »
qxc 写了: 2025年 2月 15日 13:33
模型额外加个 regex 然后调用计算器就搞定了
你还是不能分辨
我就直接问chatgpt,他老实说调了python API.
意淫的最高境界,是把彪形大汉的你意淫成我的一个小妾。
-
Caravel
- 论坛元老

Caravel 的博客
- 帖子互动: 561
- 帖子: 24557
- 注册时间: 2022年 7月 24日 17:21
帖子
由 Caravel »
qxc 写了: 2025年 2月 15日 13:33
模型额外加个 regex 然后调用计算器就搞定了
你还是不能分辨
不需要强化学习一下使用tool就可以了
-
Caravel
- 论坛元老

Caravel 的博客
- 帖子互动: 561
- 帖子: 24557
- 注册时间: 2022年 7月 24日 17:21
帖子
由 Caravel »
TheMatrix 写了: 2025年 2月 15日 13:26
应该是这样。目前open problem还是安全的。
出一个题目,和以前所有题目需要的思路都不一样,这也很困难啊