对benchmark持怀疑态度

wdong

专门针对benchmark调，和训练通用智能根本就是两回事。我觉得中国人是在overfit benchmark。即使现在不是，马上也就是了。

libaliu

行业心照不宣的秘密了。有些投机取巧的公司和个人为了在排行榜领先，直接针对benchmark的数据来训练。这样就造成有些模型排名领先，但是实际使用不行想象。所以自己真的使用时，还是要根据自己的use case多比较几家。

Caravel · 帖子由 **Caravel** » 2025年 1月 28日 22:02

wdong 写了： 2025年 1月 28日 21:07 专门针对benchmark调，和训练通用智能根本就是两回事。我觉得中国人是在overfit benchmark。即使现在不是，马上也就是了。

现在benchmark的数据不是公开的吧

libaliu

Caravel 写了： 2025年 1月 28日 22:02 现在benchmark的数据不是公开的吧

benchmark有很多，数据有公开的，不公开的，半公开的（训练数据公开，Evaluation不公开）

Caravel · 帖子由 **Caravel** » 2025年 1月 29日 11:17

libaliu 写了： 2025年 1月 28日 21:15 行业心照不宣的秘密了。有些投机取巧的公司和个人为了在排行榜领先，直接针对benchmark的数据来训练。这样就造成有些模型排名领先，但是实际使用不行想象。所以自己真的使用时，还是要根据自己的use case多比较几家。

Ds这样完全开源的应该属于不错的，如果不行，用户自己一用就露馅了，kimi后来发布的那些，很有可能有刷版的。

justChat · 帖子由 **justChat** » 2025年 1月 29日 11:31

即使是真的，也比openai高尚太多了。
openai拿着frontierMath's ground truth训练，然后frontierMath对外宣称，ground truth保密。

"We made a mistake in not being more transparent": OpenAI secretly accessed benchmark data, raising questions about the AI model's supposedly "high scores" — after Sam Altm

wdong 写了： 2025年 1月 28日 21:07 专门针对benchmark调，和训练通用智能根本就是两回事。我觉得中国人是在overfit benchmark。即使现在不是，马上也就是了。

赖美豪中

不公开也可以猜个八九不离十，这玩意就和leetcode一个意思

libaliu 写了： 2025年 1月 29日 10:22 benchmark有很多，数据有公开的，不公开的，半公开的（训练数据公开，Evaluation不公开）

赖美豪中

你们对开源还是一脑门子江湖，llm的开源没有意义，ok，他给你的是trained model, 真的开源是要开源Pre-training model and processes

Caravel 写了： 2025年 1月 29日 11:17 Ds这样完全开源的应该属于不错的，如果不行，用户自己一用就露馅了，kimi后来发布的那些，很有可能有刷版的。

jiml · 帖子由 **jiml** » 2025年 1月 29日 11:37

wdong 写了： 2025年 1月 28日 21:07 专门针对benchmark调，和训练通用智能根本就是两回事。我觉得中国人是在overfit benchmark。即使现在不是，马上也就是了。

在尚未公开的新benchmark上测试，deepseek也是领先，
参见对scale AI亚历山大的采访

TheMatrix · 帖子由 **TheMatrix** » 2025年 1月 29日 12:03

wdong 写了： 2025年 1月 28日 21:07 专门针对benchmark调，和训练通用智能根本就是两回事。我觉得中国人是在overfit benchmark。即使现在不是，马上也就是了。

对数据蒸馏的态度存在争议。

首先它不属于overfitting，用蒸馏出来的数据训练，和用原始数据训练，效果一样好，也就是具有同样的泛化能力。所以这不属于overfitting。

但是蒸馏的数据要不要给原始数据以版权？这个是值得争议的。我认为肯定要给以某种形式的版权。

另外，原始数据的训练和蒸馏数据的训练，规模不一样，架构肯定也有很多不同。所以用蒸馏数据训练的模型，可能做不了原始数据的训练。也就是做不了创新。

Caravel · 帖子由 **Caravel** » 2025年 1月 29日 12:04

赖美豪中写了： 2025年 1月 29日 11:33 不公开也可以猜个八九不离十，这玩意就和leetcode一个意思

leet code会告诉你错在哪里，如果这个测试就给你一个总分，你怎么猜？

hahan · 帖子由 **hahan** » 2025年 1月 29日 13:38

呵呵
美国业界还处在denial 阶段
还真以为llm是啥高科技了

hahan · 帖子由 **hahan** » 2025年 1月 29日 16:44

justChat 写了： 2025年 1月 29日 11:31 即使是真的，也比openai高尚太多了。
openai拿着frontierMath's ground truth训练，然后frontierMath对外宣称，ground truth保密。

"We made a mistake in not being more transparent": OpenAI secretly accessed benchmark data, raising questions about the AI model's supposedly "high scores" — after Sam Altm

属实
OpenAI偷看考题的rumor已经很久了

fantasist · 帖子由 **fantasist** » 2025年 1月 29日 16:54

看来版上没几个人了解serious的大模型厂家如何训练、打榜，我来科普一下吧。
静态benchmark数据集不用说，一批新数据出来，很快就overfit了，分数仅供参考。lmsys arena之类的动态榜单的盲评计算ELO，没有固定的数据集，相对是公信力最高的。虽然还是能有针对性地优化，但模型泛化能力不够绝对挤不进top。
动态榜单的参加方式一般是各厂家自己搭好API access，把模型挂在arena上（知名的open source可能有社区帮忙打榜，是另一回事了）。厂家能看到prompt history，只是不知道跟谁比、谁赢了、对手生成了啥、哪些对话是有效的等信息，overfit难度更高，这是arena分数更有价值的原因。可惜arena也不是完美的，用户输入与实际应用prompt的分布不同，回答长短、格式都会影响用户评价，导致bias。
有了prompt history，想提高ELO比自己想象模型需要什么能力而去造evaluation数据集容易太多。离top差距较大的时候，就用顶级模型打标，做好SFT，能有效提高ELO。现在想当top，纯SFT已无法接近天花板，需要逻辑推理能力。而越接近chatgpt，蒸馏能带来的提升越小，更需要依赖自己的数据工作和reasoning训练方法。

DS的工作非常impressive，不管它有几万张H100，比起卡最多的几个巨头肯定是差一个以上的数量级。这次创新主要在Infra上，用更低的成本实现接近o1的能力。问题主要在于无法确认沿用他们的方法，投入10x以上资源训练，会不会出现能力更上一层楼的模型，还是要找另外的训练范式。

为什么deepseek-V3没太多声浪，而R1出来很轰动呢？值得一提的是，SFT打标很straightforward，而RL不一样。open source的RL framework基本都不work，distributed training跑的时候动不动crash、数值都不见得对。技术路线也有PPO和DPO和它们的很多变种。openai、anthropic、deepmind肯定都是踩过reasoning各种坑的，但他们不会细说进production的具体技术路线是啥。自己踩雷，需要数据、算法与infra结合快速迭代，每一篇论文基本对应一个新系统，难度指数级升高。比如openai论文提出PRM，deepmind论文说用MCTS实现inference time scaling law，而DS说他们试了都不work。DS还说GRPO好用、RL不用打标数据而靠self play，就问你敢不敢跟？谁是狼人你只有自己一轮轮验了才知道，所以reasoning模型没有像sft的LLM烂大街。

笑谈2008 · 帖子由 **笑谈2008** » 2025年 1月 29日 21:44

impossible!

>>>>>
....问题主要在于无法确认沿用他们的方法，投入10x以上资源训练，会不会出现能力更上一层楼的模型，还是要找另外的训练范式。

Caravel · 帖子由 **Caravel** » 2025年 1月 30日 00:14

fantasist 写了： 2025年 1月 29日 16:54 看来版上没几个人了解serious的大模型厂家如何训练、打榜，我来科普一下吧。
静态benchmark数据集不用说，一批新数据出来，很快就overfit了，分数仅供参考。lmsys arena之类的动态榜单的盲评计算ELO，没有固定的数据集，相对是公信力最高的。虽然还是能有针对性地优化，但模型泛化能力不够绝对挤不进top。
动态榜单的参加方式一般是各厂家自己搭好API access，把模型挂在arena上（知名的open source可能有社区帮忙打榜，是另一回事了）。厂家能看到prompt history，只是不知道跟谁比、谁赢了、对手生成了啥、哪些对话是有效的等信息，overfit难度更高，这是arena分数更有价值的原因。可惜arena也不是完美的，用户输入与实际应用prompt的分布不同，回答长短、格式都会影响用户评价，导致bias。
有了prompt history，想提高ELO比自己想象模型需要什么能力而去造evaluation数据集容易太多。离top差距较大的时候，就用顶级模型打标，做好SFT，能有效提高ELO。现在想当top，纯SFT已无法接近天花板，需要逻辑推理能力。而越接近chatgpt，蒸馏能带来的提升越小，更需要依赖自己的数据工作和reasoning训练方法。

DS的工作非常impressive，不管它有几万张H100，比起卡最多的几个巨头肯定是差一个以上的数量级。这次创新主要在Infra上，用更低的成本实现接近o1的能力。问题主要在于无法确认沿用他们的方法，投入10x以上资源训练，会不会出现能力更上一层楼的模型，还是要找另外的训练范式。

为什么deepseek-V3没太多声浪，而R1出来很轰动呢？值得一提的是，SFT打标很straightforward，而RL不一样。open source的RL framework基本都不work，distributed training跑的时候动不动crash、数值都不见得对。技术路线也有PPO和DPO和它们的很多变种。openai、anthropic、deepmind肯定都是踩过reasoning各种坑的，但他们不会细说进production的具体技术路线是啥。自己踩雷，需要数据、算法与infra结合快速迭代，每一篇论文基本对应一个新系统，难度指数级升高。比如openai论文提出PRM，deepmind论文说用MCTS实现inference time scaling law，而DS说他们试了都不work。DS还说GRPO好用、RL不用打标数据而靠self play，就问你敢不敢跟？谁是狼人你只有自己一轮轮验了才知道，所以reasoning模型没有像sft的LLM烂大街。

赞，能不能推荐几个可信度比较高的榜单？

rtyu · 帖子由 **rtyu** » 2025年 1月 30日 00:29

fantasist 写了： 2025年 1月 29日 16:54 看来版上没几个人了解serious的大模型厂家如何训练、打榜，我来科普一下吧。
静态benchmark数据集不用说，一批新数据出来，很快就overfit了，分数仅供参考。lmsys arena之类的动态榜单的盲评计算ELO，没有固定的数据集，相对是公信力最高的。虽然还是能有针对性地优化，但模型泛化能力不够绝对挤不进top。
动态榜单的参加方式一般是各厂家自己搭好API access，把模型挂在arena上（知名的open source可能有社区帮忙打榜，是另一回事了）。厂家能看到prompt history，只是不知道跟谁比、谁赢了、对手生成了啥、哪些对话是有效的等信息，overfit难度更高，这是arena分数更有价值的原因。可惜arena也不是完美的，用户输入与实际应用prompt的分布不同，回答长短、格式都会影响用户评价，导致bias。
有了prompt history，想提高ELO比自己想象模型需要什么能力而去造evaluation数据集容易太多。离top差距较大的时候，就用顶级模型打标，做好SFT，能有效提高ELO。现在想当top，纯SFT已无法接近天花板，需要逻辑推理能力。而越接近chatgpt，蒸馏能带来的提升越小，更需要依赖自己的数据工作和reasoning训练方法。

DS的工作非常impressive，不管它有几万张H100，比起卡最多的几个巨头肯定是差一个以上的数量级。这次创新主要在Infra上，用更低的成本实现接近o1的能力。问题主要在于无法确认沿用他们的方法，投入10x以上资源训练，会不会出现能力更上一层楼的模型，还是要找另外的训练范式。

为什么deepseek-V3没太多声浪，而R1出来很轰动呢？值得一提的是，SFT打标很straightforward，而RL不一样。open source的RL framework基本都不work，distributed training跑的时候动不动crash、数值都不见得对。技术路线也有PPO和DPO和它们的很多变种。openai、anthropic、deepmind肯定都是踩过reasoning各种坑的，但他们不会细说进production的具体技术路线是啥。自己踩雷，需要数据、算法与infra结合快速迭代，每一篇论文基本对应一个新系统，难度指数级升高。比如openai论文提出PRM，deepmind论文说用MCTS实现inference time scaling law，而DS说他们试了都不work。DS还说GRPO好用、RL不用打标数据而靠self play，就问你敢不敢跟？谁是狼人你只有自己一轮轮验了才知道，所以reasoning模型没有像sft的LLM烂大街。

是不是DeepSeek从很多小的技术细节上运用匠人精神有所优化和提高，这些小的改进综合在一起效果惊人，并不是只是依赖知识蒸馏？以下是DeepSeek自己的解释：

那DeepSeek是如何用非常经济的方法得到较大的模型的呢？

深度求索（DeepSeek）在构建较大模型时，采用了多种经济高效的方法来优化训练过程、降低计算成本，并提升模型性能。以下是一些关键策略和技术：

---

1. 高效的模型架构设计
轻量级架构：使用经过优化的模型架构（如Transformer的变体），在保持性能的同时减少参数量和计算量。
模块化设计：通过模块化设计，允许模型在不同任务中共享部分参数，从而减少重复计算。

---

2. 数据高效利用
数据增强：通过数据增强技术生成更多的训练样本，提高数据利用率。
主动学习：选择对模型训练最有价值的样本进行标注，减少标注成本。
合成数据：使用合成数据或伪标签扩充训练集，降低对真实标注数据的依赖。

---

3. 分布式训练与混合精度计算
分布式训练：将训练任务分布到多个GPU或节点上，加速训练过程并降低单点计算压力。
混合精度计算：使用混合精度（FP16/FP32）训练，减少内存占用并提高计算效率。

---

4. 知识蒸馏与迁移学习
知识蒸馏：通过训练一个较大的教师模型，将其知识迁移到较小的学生模型上，从而在保持性能的同时降低计算成本。
迁移学习：利用预训练模型（如BERT、GPT等）作为起点，通过微调适应特定任务，减少从头训练的计算开销。

---

5. 模型压缩与量化
剪枝：去除模型中冗余的参数或神经元，减少模型大小和计算量。
量化：将模型参数从高精度（如FP32）转换为低精度（如INT8），降低存储和计算需求。
低秩分解：将大矩阵分解为多个小矩阵，减少参数量和计算复杂度。

---

6. 高效的优化算法
自适应优化器：使用AdamW、LAMB等自适应优化器，加速模型收敛并减少训练时间。
学习率调度：动态调整学习率，避免训练过程中的震荡和不稳定。

---

7. 预训练与微调
大规模预训练：在通用任务上进行大规模预训练，学习通用的语言表示。
任务微调：在特定任务上对预训练模型进行微调，减少训练时间和计算资源。

---

8. 硬件与软件优化
硬件加速：利用GPU、TPU等硬件加速器，提升训练和推理速度。
软件优化：使用高效的深度学习框架（如PyTorch、TensorFlow）和库（如DeepSpeed、Megatron），优化计算和内存管理。

---

9. 持续学习与模型更新
增量学习：通过增量学习技术，使模型能够在新数据上持续更新，而无需从头训练。
模型版本控制：管理不同版本的模型，确保在更新模型时能够高效地复用已有资源。

---

10. 开源与社区贡献
开源模型：通过开源模型和工具，吸引社区贡献，加速模型优化和改进。
共享资源：利用社区共享的预训练模型和数据集，减少重复劳动和资源浪费。

---

总结
深度求索通过高效的模型设计、数据利用、分布式训练、知识蒸馏、模型压缩、优化算法、预训练与微调等多种方法，以经济高效的方式构建较大的模型。这些策略不仅降低了计算成本，还提升了模型的性能和泛化能力。如果你有具体的需求或场景，可以进一步探讨如何应用这些方法。

fantasist · 帖子由 **fantasist** » 2025年 1月 30日 00:41

Caravel 写了： 2025年 1月 30日 00:14 赞，能不能推荐几个可信度比较高的榜单？

能看的榜不多，业界基本只看lmsys arena，对话分很多种category已经挺能代表模型的智能和真实场景下的能力了。lmsys能成为最有公信力的平台，主要原因有两个：它是Berkeley搞的，师生水平高；而且比较中立，不单独卖数据给厂家而造成不公平竞争。
tool use可以看看BFCL，也是Berkeley搞的。社区活跃度远不如lmsys，可能因为用静态数据集，不知名的模型刷榜相对容易。出了三版测试数据集，工作还是挺solid的，希望趁今年agent特别热门，能得到更多关注。
多模态有人搞类似的arena，不过似乎还不成气候。可能因为字节之类的公司直接包装到自家产品里了，拿流量推广比刷榜有用。

fantasist · 帖子由 **fantasist** » 2025年 1月 30日 00:50

rtyu 写了： 2025年 1月 30日 00:29 是不是DeepSeek从很多小的技术细节上运用匠人精神有所优化和提高，这些小的改进综合在一起效果惊人，并不是只是依赖知识蒸馏？以下是DeepSeek自己的解释：

那DeepSeek是如何用非常经济的方法得到较大的模型的呢？

深度求索（DeepSeek）在构建较大模型时，采用了多种经济高效的方法来优化训练过程、降低计算成本，并提升模型性能。以下是一些关键策略和技术：

---

1. 高效的模型架构设计
轻量级架构：使用经过优化的模型架构（如Transformer的变体），在保持性能的同时减少参数量和计算量。
模块化设计：通过模块化设计，允许模型在不同任务中共享部分参数，从而减少重复计算。

---

2. 数据高效利用
数据增强：通过数据增强技术生成更多的训练样本，提高数据利用率。
主动学习：选择对模型训练最有价值的样本进行标注，减少标注成本。
合成数据：使用合成数据或伪标签扩充训练集，降低对真实标注数据的依赖。

---

3. 分布式训练与混合精度计算
分布式训练：将训练任务分布到多个GPU或节点上，加速训练过程并降低单点计算压力。
混合精度计算：使用混合精度（FP16/FP32）训练，减少内存占用并提高计算效率。

---

4. 知识蒸馏与迁移学习
知识蒸馏：通过训练一个较大的教师模型，将其知识迁移到较小的学生模型上，从而在保持性能的同时降低计算成本。
迁移学习：利用预训练模型（如BERT、GPT等）作为起点，通过微调适应特定任务，减少从头训练的计算开销。

---

5. 模型压缩与量化
剪枝：去除模型中冗余的参数或神经元，减少模型大小和计算量。
量化：将模型参数从高精度（如FP32）转换为低精度（如INT8），降低存储和计算需求。
低秩分解：将大矩阵分解为多个小矩阵，减少参数量和计算复杂度。

---

6. 高效的优化算法
自适应优化器：使用AdamW、LAMB等自适应优化器，加速模型收敛并减少训练时间。
学习率调度：动态调整学习率，避免训练过程中的震荡和不稳定。

---

7. 预训练与微调
大规模预训练：在通用任务上进行大规模预训练，学习通用的语言表示。
任务微调：在特定任务上对预训练模型进行微调，减少训练时间和计算资源。

---

8. 硬件与软件优化
硬件加速：利用GPU、TPU等硬件加速器，提升训练和推理速度。
软件优化：使用高效的深度学习框架（如PyTorch、TensorFlow）和库（如DeepSpeed、Megatron），优化计算和内存管理。

---

9. 持续学习与模型更新
增量学习：通过增量学习技术，使模型能够在新数据上持续更新，而无需从头训练。
模型版本控制：管理不同版本的模型，确保在更新模型时能够高效地复用已有资源。

---

10. 开源与社区贡献
开源模型：通过开源模型和工具，吸引社区贡献，加速模型优化和改进。
共享资源：利用社区共享的预训练模型和数据集，减少重复劳动和资源浪费。

---

总结
深度求索通过高效的模型设计、数据利用、分布式训练、知识蒸馏、模型压缩、优化算法、预训练与微调等多种方法，以经济高效的方式构建较大的模型。这些策略不仅降低了计算成本，还提升了模型的性能和泛化能力。如果你有具体的需求或场景，可以进一步探讨如何应用这些方法。

这篇AI总结纯粹在bullshit。要想知道具体有什么改进，得去看V3和R1两篇论文原文（有空的话还可以学习下MLA和GRPO），和业内人士写的分析文章。
知识蒸馏大家都在做，R1能撼动QQQ，真本事明显是在惊人的infra optimization效果上。那些创新点是不是“小”改进，不同的人会有不同的opinion。

hahan · 帖子由 **hahan** » 2025年 1月 30日 21:13

fantasist 写了： 2025年 1月 30日 00:50 这篇AI总结纯粹在bullshit。要想知道具体有什么改进，得去看V3和R1两篇论文原文（有空的话还可以学习下MLA和GRPO），和业内人士写的分析文章。
知识蒸馏大家都在做，R1能撼动QQQ，真本事明显是在惊人的infra optimization效果上。那些创新点是不是“小”改进，不同的人会有不同的opinion。

我看了别人的论文总结
Technique 挺多的
包括moe的tweak
这个现在有点像炼金

新未名空间

对benchmark持怀疑态度

#1 对benchmark持怀疑态度

#2 Re: 对benchmark持怀疑态度

#3 Re: 对benchmark持怀疑态度

#4 Re: 对benchmark持怀疑态度

#5 Re: 对benchmark持怀疑态度

#6 Re: 对benchmark持怀疑态度

#7 Re: 对benchmark持怀疑态度

#8 Re: 对benchmark持怀疑态度

#9 Re: 对benchmark持怀疑态度

#10 Re: 对benchmark持怀疑态度

#11 Re: 对benchmark持怀疑态度

#12 Re: 对benchmark持怀疑态度

#13 Re: 对benchmark持怀疑态度

#14 Re: 对benchmark持怀疑态度

#15 Re: 对benchmark持怀疑态度

#16 Re: 对benchmark持怀疑态度

#17 Re: 对benchmark持怀疑态度

#18 Re: 对benchmark持怀疑态度

#19 Re: 对benchmark持怀疑态度

#20 Re: 对benchmark持怀疑态度