(转载)deepseek的大模型在推理方面取得重大突破

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 491
帖子: 23018
注册时间: 2022年 7月 24日 17:21

#1 (转载)deepseek的大模型在推理方面取得重大突破

帖子 Caravel楼主 »

此帖转自 Caravel 在 军事天地(Military) 的帖子:deepseek的大模型在推理方面取得重大突破

Putnam bench得了49分,现有大模型都在10分之下

Gemini2.5只有3分,o3mini 0分

forecasting
著名点评
著名点评
帖子互动: 288
帖子: 3997
注册时间: 2023年 4月 17日 08:26

#2 Re: (转载)deepseek的大模型在推理方面取得重大突破

帖子 forecasting »

Caravel 写了: 2025年 4月 30日 13:45 此帖转自 Caravel 在 军事天地(Military) 的帖子:deepseek的大模型在推理方面取得重大突破

Putnam bench得了49分,现有大模型都在10分之下

Gemini2.5只有3分,o3mini 0分

还是得弄清其底层机制。老弄个什么bench做测试,不说完全无效,至少还是让人不能信服。
宇宙
著名写手
著名写手
帖子互动: 54
帖子: 285
注册时间: 2025年 2月 26日 07:12

#3 Re: (转载)deepseek的大模型在推理方面取得重大突破

帖子 宇宙 »

好像外行经常提一些让人无语的要求。是一个很普遍的行为。
forecasting 写了: 2025年 4月 30日 16:38 还是得弄清其底层机制。老弄个什么bench做测试,不说完全无效,至少还是让人不能信服。
forecasting
著名点评
著名点评
帖子互动: 288
帖子: 3997
注册时间: 2023年 4月 17日 08:26

#4 Re: (转载)deepseek的大模型在推理方面取得重大突破

帖子 forecasting »

宇宙 写了: 2025年 5月 2日 04:35 好像外行经常提一些让人无语的要求。是一个很普遍的行为。
你内行啊?干AI几年了?
推理靠实例构成的数据集做测试,就能确定的确有突破?
回复

回到 “STEM”