看知乎的讨论,qwen的架构比较保守,似乎有打榜的嫌疑,真正的效果还达不到DS的水平fantasist 写了: 2025年 1月 30日 00:50 这篇AI总结纯粹在bullshit。要想知道具体有什么改进,得去看V3和R1两篇论文原文(有空的话还可以学习下MLA和GRPO),和业内人士写的分析文章。
知识蒸馏大家都在做,R1能撼动QQQ,真本事明显是在惊人的infra optimization效果上。那些创新点是不是“小”改进,不同的人会有不同的opinion。
对benchmark持怀疑态度
版主: hci
-
- 论坛元老
Caravel 的博客 - 帖子互动: 570
- 帖子: 24889
- 注册时间: 2022年 7月 24日 17:21
#21 Re: 对benchmark持怀疑态度
#22 Re: 对benchmark持怀疑态度
这都几个星期了,要是DS只是靠打榜,效果并不是真的,不会现在这个局势,各大平台都部署DS了。
R1我自己也用了好几天了,效果的确不输O1。而且同一个问题,两者的答案总是很不一样,所以什么“抄”的说法也是瞎扯。
R1我自己也用了好几天了,效果的确不输O1。而且同一个问题,两者的答案总是很不一样,所以什么“抄”的说法也是瞎扯。
上次由 hci 在 2025年 1月 31日 16:33 修改。
原因: 未提供修改原因
原因: 未提供修改原因
#23 Re: 对benchmark持怀疑态度
paper里面用PTX绕过老黄的connectivity limitation真的是脑洞大开,h20当h100用。。。真的是被jb逼出来的,lolfantasist 写了: 2025年 1月 30日 00:50 这篇AI总结纯粹在bullshit。要想知道具体有什么改进,得去看V3和R1两篇论文原文(有空的话还可以学习下MLA和GRPO),和业内人士写的分析文章。
知识蒸馏大家都在做,R1能撼动QQQ,真本事明显是在惊人的infra optimization效果上。那些创新点是不是“小”改进,不同的人会有不同的opinion。