（转载）deepseek的大模型在推理方面取得重大突破

Caravel · 帖子由 **Caravel楼主** » 2025年 4月 30日 13:45

此帖转自 Caravel 在军事天地（Military）的帖子：deepseek的大模型在推理方面取得重大突破

Putnam bench得了49分，现有大模型都在10分之下

Gemini2.5只有3分，o3mini 0分

forecasting · 帖子由 **forecasting** » 2025年 4月 30日 16:38

Caravel 写了： 2025年 4月 30日 13:45 此帖转自 Caravel 在军事天地（Military）的帖子：deepseek的大模型在推理方面取得重大突破

Putnam bench得了49分，现有大模型都在10分之下

Gemini2.5只有3分，o3mini 0分

还是得弄清其底层机制。老弄个什么bench做测试，不说完全无效，至少还是让人不能信服。

宇宙 · 帖子由宇宙 » 2025年 5月 2日 04:35

好像外行经常提一些让人无语的要求。是一个很普遍的行为。

forecasting 写了： 2025年 4月 30日 16:38 还是得弄清其底层机制。老弄个什么bench做测试，不说完全无效，至少还是让人不能信服。

forecasting · 帖子由 **forecasting** » 2025年 5月 2日 05:43

宇宙写了： 2025年 5月 2日 04:35 好像外行经常提一些让人无语的要求。是一个很普遍的行为。

你内行啊？干AI几年了？
推理靠实例构成的数据集做测试，就能确定的确有突破？

新未名空间