对benchmark持怀疑态度

版主: hci

Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 570
帖子: 24889
注册时间: 2022年 7月 24日 17:21

#21 Re: 对benchmark持怀疑态度

帖子 Caravel »

fantasist 写了: 2025年 1月 30日 00:50 这篇AI总结纯粹在bullshit。要想知道具体有什么改进,得去看V3和R1两篇论文原文(有空的话还可以学习下MLA和GRPO),和业内人士写的分析文章。
知识蒸馏大家都在做,R1能撼动QQQ,真本事明显是在惊人的infra optimization效果上。那些创新点是不是“小”改进,不同的人会有不同的opinion。
看知乎的讨论,qwen的架构比较保守,似乎有打榜的嫌疑,真正的效果还达不到DS的水平
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 471
帖子: 9953
注册时间: 2022年 7月 22日 15:29

#22 Re: 对benchmark持怀疑态度

帖子 hci(海螺子) »

这都几个星期了,要是DS只是靠打榜,效果并不是真的,不会现在这个局势,各大平台都部署DS了。

R1我自己也用了好几天了,效果的确不输O1。而且同一个问题,两者的答案总是很不一样,所以什么“抄”的说法也是瞎扯。
上次由 hci 在 2025年 1月 31日 16:33 修改。
原因: 未提供修改原因
anesthetic
知名作家
知名作家
帖子互动: 72
帖子: 794
注册时间: 2022年 8月 30日 01:02

#23 Re: 对benchmark持怀疑态度

帖子 anesthetic »

fantasist 写了: 2025年 1月 30日 00:50 这篇AI总结纯粹在bullshit。要想知道具体有什么改进,得去看V3和R1两篇论文原文(有空的话还可以学习下MLA和GRPO),和业内人士写的分析文章。
知识蒸馏大家都在做,R1能撼动QQQ,真本事明显是在惊人的infra optimization效果上。那些创新点是不是“小”改进,不同的人会有不同的opinion。
paper里面用PTX绕过老黄的connectivity limitation真的是脑洞大开,h20当h100用。。。真的是被jb逼出来的,lol
回复

回到 “葵花宝典(Programming)”