知乎上看到的wdong 写了: 2025年 3月 6日 10:40 摆明了都是对着benchmark调的,出了benchmark的范围都是弱智, 差不多就是大厨炒东西都不知道要先打开火的水平。那种上当的感觉就跟你去Amazon上买个电暖气,结果寄过来发现是中国产的,各种电子界面齐全还带个遥控但是尺寸只有正常大小的三分之一一样。昨天不是出了QwQ-32B吗,我就下下来试了一下。基本的instruction都没法follow。作为对比我把几个月前的llama3.3 70b下下来也跑了一下,至少我那套框架可以顺利运行。
“ 实践证明,V3的指令遵循做的很好,基本上可以准确的执行给出的Prompt,到R1写个2.300字就开始放飞自我了。”
强化学习越多,指令跟随越差。