对benchmark持怀疑态度

Caravel · 帖子由 **Caravel** » 2025年 1月 31日 10:53

fantasist 写了： 2025年 1月 30日 00:50 这篇AI总结纯粹在bullshit。要想知道具体有什么改进，得去看V3和R1两篇论文原文（有空的话还可以学习下MLA和GRPO），和业内人士写的分析文章。
知识蒸馏大家都在做，R1能撼动QQQ，真本事明显是在惊人的infra optimization效果上。那些创新点是不是“小”改进，不同的人会有不同的opinion。

看知乎的讨论，qwen的架构比较保守，似乎有打榜的嫌疑，真正的效果还达不到DS的水平

hci

这都几个星期了，要是DS只是靠打榜，效果并不是真的，不会现在这个局势，各大平台都部署DS了。

R1我自己也用了好几天了，效果的确不输O1。而且同一个问题，两者的答案总是很不一样，所以什么“抄”的说法也是瞎扯。

anesthetic · 帖子由 **anesthetic** » 2025年 2月 1日 00:29

fantasist 写了： 2025年 1月 30日 00:50 这篇AI总结纯粹在bullshit。要想知道具体有什么改进，得去看V3和R1两篇论文原文（有空的话还可以学习下MLA和GRPO），和业内人士写的分析文章。
知识蒸馏大家都在做，R1能撼动QQQ，真本事明显是在惊人的infra optimization效果上。那些创新点是不是“小”改进，不同的人会有不同的opinion。

paper里面用PTX绕过老黄的connectivity limitation真的是脑洞大开，h20当h100用。。。真的是被jb逼出来的，lol

新未名空间

对benchmark持怀疑态度

#21 Re: 对benchmark持怀疑态度

#22 Re: 对benchmark持怀疑态度

#23 Re: 对benchmark持怀疑态度