完了!OpenAI o3疑似在FrontierMath测试上造假

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 249
帖子: 13046
注册时间: 2022年 7月 26日 00:35

#1 完了!OpenAI o3疑似在FrontierMath测试上造假

帖子 TheMatrix楼主 »

据说各大AI解决奥赛数学已经小菜一碟了。Terence Tao气不忿,纠集60个数学家,出了一套FrontierMath,要为难一下AI。结果AI只做出了其中的2%。Terence Tao说:数学家的颜面暂时守住了。

来看看FrontierMath到底长什么样:

图片

图片

图片
上次由 TheMatrix 在 2025年 1月 20日 14:34 修改。
原因: 未提供修改原因

标签/Tags:
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 249
帖子: 13046
注册时间: 2022年 7月 26日 00:35

#2 Re: 来看看用来测试AI math的FrontierMath长什么样

帖子 TheMatrix楼主 »

首先这些问题很难。即使对数学家也很难。这都是各领域总结出来的经典的问题。

但是各领域出题人有答案。如果他们写出来,最好以一种适合AI训练的方式写出来,AI学习一下,类似的问题AI能不能回答?

数学家自己都没有答案的问题,AI能不能想出来?
上次由 TheMatrix 在 2025年 1月 19日 09:25 修改。
原因: 未提供修改原因
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 491
帖子: 23018
注册时间: 2022年 7月 24日 17:21

#3 Re: 来看看用来测试AI math的FrontierMath长什么样

帖子 Caravel »

TheMatrix 写了: 2025年 1月 19日 09:14 据说各大AI解决奥赛数学已经小菜一碟了。Terence Tao气不忿,纠集60个数学家,出了一套FrontierMath,要为难一下AI。结果AI只做出了其中的2%。Terence Tao说:数学家的颜面暂时守住了。

来看看FrontierMath到底长什么样:

图片

图片

图片
最新爆料

这个公司是openAI提供funding的,openAI可以看他们的问题。双方对此保密,最近才被发现。
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 249
帖子: 13046
注册时间: 2022年 7月 26日 00:35

#4 Re: 来看看用来测试AI math的FrontierMath长什么样

帖子 TheMatrix楼主 »

Caravel 写了: 2025年 1月 20日 00:56 最新爆料

这个公司是openAI提供funding的,openAI可以看他们的问题。双方对此保密,最近才被发现。
no silver bullet.
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 491
帖子: 23018
注册时间: 2022年 7月 24日 17:21

#5 Re: 来看看用来测试AI math的FrontierMath长什么样

帖子 Caravel »

TheMatrix 写了: 2025年 1月 20日 09:52 no silver bullet.
难怪openai分很高
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 249
帖子: 13046
注册时间: 2022年 7月 26日 00:35

#6 Re: 来看看用来测试AI math的FrontierMath长什么样

帖子 TheMatrix楼主 »

Caravel 写了: 2025年 1月 20日 00:56 最新爆料

这个公司是openAI提供funding的,openAI可以看他们的问题。双方对此保密,最近才被发现。
看来属实啊。

https://www.huxiu.com/article/3925446.html
https://www.zhihu.com/question/10078773 ... 3215772453


图片

图片

图片

图片

图片
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 249
帖子: 13046
注册时间: 2022年 7月 26日 00:35

#7 Re: 来看看用来测试AI math的FrontierMath长什么样

帖子 TheMatrix楼主 »

图片
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 249
帖子: 13046
注册时间: 2022年 7月 26日 00:35

#8 Re: 来看看用来测试AI math的FrontierMath长什么样

帖子 TheMatrix楼主 »

图片
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 249
帖子: 13046
注册时间: 2022年 7月 26日 00:35

#9 Re: 来看看用来测试AI math的FrontierMath长什么样

帖子 TheMatrix楼主 »

图片
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 249
帖子: 13046
注册时间: 2022年 7月 26日 00:35

#10 Re: 来看看用来测试AI math的FrontierMath长什么样

帖子 TheMatrix楼主 »

图片
justChat
职业作家
职业作家
帖子互动: 95
帖子: 685
注册时间: 2023年 10月 19日 16:33

#11 Re: 来看看用来测试AI math的FrontierMath长什么样

帖子 justChat »

任何愿意花半下午时间了解transformer的人都知道,这思路不可能解决任何新的问题。
TheMatrix 写了: 2025年 1月 20日 14:07 图片
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 249
帖子: 13046
注册时间: 2022年 7月 26日 00:35

#12 Re: 来看看用来测试AI math的FrontierMath长什么样

帖子 TheMatrix楼主 »

图片
头像
TheMatrix楼主
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 249
帖子: 13046
注册时间: 2022年 7月 26日 00:35

#13 Re: 来看看用来测试AI math的FrontierMath长什么样

帖子 TheMatrix楼主 »

图片
x1 图片
回复

回到 “STEM”