新未名空间

wdong 写了： 2025年 3月 6日 10:40 摆明了都是对着benchmark调的，出了benchmark的范围都是弱智，差不多就是大厨炒东西都不知道要先打开火的水平。那种上当的感觉就跟你去Amazon上买个电暖气，结果寄过来发现是中国产的，各种电子界面齐全还带个遥控但是尺寸只有正常大小的三分之一一样。昨天不是出了QwQ-32B吗，我就下下来试了一下。基本的instruction都没法follow。作为对比我把几个月前的llama3.3 70b下下来也跑了一下，至少我那套框架可以顺利运行。

知乎上看到的

“ 实践证明，V3的指令遵循做的很好，基本上可以准确的执行给出的Prompt，到R1写个2.300字就开始放飞自我了。”

强化学习越多，指令跟随越差。

什么原理？

Caravel 写了： 2025年 3月 7日 04:39 知乎上看到的

“ 实践证明，V3的指令遵循做的很好，基本上可以准确的执行给出的Prompt，到R1写个2.300字就开始放飞自我了。”

强化学习越多，指令跟随越差。

赖美豪中写了： 2025年 3月 7日 10:34 什么原理？

预训练最后一步RLHF，就是训练指令跟随，这一步需要大量的人的对话标注数据。这个训练完了，上强化学习提高数学coding，以前学的就忘记一部分了。

wdong 写了： 2025年 3月 6日 10:40 摆明了都是对着benchmark调的，出了benchmark的范围都是弱智，差不多就是大厨炒东西都不知道要先打开火的水平。那种上当的感觉就跟你去Amazon上买个电暖气，结果寄过来发现是中国产的，各种电子界面齐全还带个遥控但是尺寸只有正常大小的三分之一一样。昨天不是出了QwQ-32B吗，我就下下来试了一下。基本的instruction都没法follow。作为对比我把几个月前的llama3.3 70b下下来也跑了一下，至少我那套框架可以顺利运行。

benchmark就是这样，最经常的问题就是只测质量，不测用户体验。以前有个dxomark，测相机的，国产品牌经常霸榜。看着牛逼的很，买回来一用，经常上当。

刷benchmark 让我想起前几年北大清华刷排名的事了。
招一堆亚非拉学生增加国际化指标，催发paper求数量不求质量，排名就飞上去了。不过，国际学生仍然不给一个F。

这是对整个机器学习的理念不同，用数学编程可以最方便的建立一个完整的环境反馈，有不足的地方改优化目标就好了。用人label并不是唯一方向，甚至很可能不是最好的方向。至少企业应用里，跟用户对话这种其实没什么实际用处，能真实大量应用的都是有准确性要求的。这跟科技公司优化一样的，以前facebook就搞单一数量优化，好多人觉得不行，吵吵日活不能代表一切，但结果就是一个很烂的但是很多人用的东西。精耕细作的要么死了，要么局限在一个小方向。

abovetherim 写了： 2025年 3月 6日 15:18 我靠，我正好忘了说：grok 3是老美llm里唯一一个也有这毛病的。不知道是不是因为马斯克跟中国人价值观很像

但你比如说让它写代码吧。它写的代码某一个地方有问题。但不管你指出多少次，不管你用什么方式说，它都又把整个代码重复一次，同时完全无视你的问题，这是啥操作？

今天 ChatGPT 也一样无视我指出的问题了，可能我这个问题就是无解的。它来回反复几次之后，终于承认无法满足要求，无解。
我主要用 ChatGPT, 都是技术问题，它还是经常在一些具体问题上反复调换观点，前后自相矛盾的。

Caravel 写了： 2025年 3月 7日 10:37 预训练最后一步RLHF，就是训练指令跟随，这一步需要大量的人的对话标注数据。这个训练完了，上强化学习提高数学coding，以前学的就忘记一部分了。

可能是reward hacking带来的问题

新未名空间

中国的模型太取巧了

#21 Re: 中国的模型太取巧了

#22 Re: 中国的模型太取巧了

#23 Re: 中国的模型太取巧了

#24 Re: 中国的模型太取巧了

#25 Re: 中国的模型太取巧了

#26 Re: 中国的模型太取巧了

#27 Re: 中国的模型太取巧了

#28 Re: 中国的模型太取巧了