对benchmark持怀疑态度

版主: hci

wdong(万事休)楼主
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#1 对benchmark持怀疑态度

帖子 wdong(万事休)楼主 »

专门针对benchmark调,和训练通用智能根本就是两回事。我觉得中国人是在overfit benchmark。即使现在不是,马上也就是了。
libaliu(里八六)
著名写手
著名写手
帖子互动: 15
帖子: 226
注册时间: 2022年 12月 29日 16:48

#2 Re: 对benchmark持怀疑态度

帖子 libaliu(里八六) »

行业心照不宣的秘密了。有些投机取巧的公司和个人为了在排行榜领先,直接针对benchmark的数据来训练。这样就造成有些模型排名领先,但是实际使用不行想象。所以自己真的使用时,还是要根据自己的use case多比较几家。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 562
帖子: 24614
注册时间: 2022年 7月 24日 17:21

#3 Re: 对benchmark持怀疑态度

帖子 Caravel »

wdong 写了: 2025年 1月 28日 21:07 专门针对benchmark调,和训练通用智能根本就是两回事。我觉得中国人是在overfit benchmark。即使现在不是,马上也就是了。
现在benchmark的数据不是公开的吧
libaliu(里八六)
著名写手
著名写手
帖子互动: 15
帖子: 226
注册时间: 2022年 12月 29日 16:48

#4 Re: 对benchmark持怀疑态度

帖子 libaliu(里八六) »

Caravel 写了: 2025年 1月 28日 22:02 现在benchmark的数据不是公开的吧
benchmark有很多,数据有公开的,不公开的,半公开的(训练数据公开,Evaluation不公开)
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 562
帖子: 24614
注册时间: 2022年 7月 24日 17:21

#5 Re: 对benchmark持怀疑态度

帖子 Caravel »

libaliu 写了: 2025年 1月 28日 21:15 行业心照不宣的秘密了。有些投机取巧的公司和个人为了在排行榜领先,直接针对benchmark的数据来训练。这样就造成有些模型排名领先,但是实际使用不行想象。所以自己真的使用时,还是要根据自己的use case多比较几家。
Ds这样完全开源的应该属于不错的,如果不行,用户自己一用就露馅了,kimi后来发布的那些,很有可能有刷版的。
justChat
职业作家
职业作家
帖子互动: 109
帖子: 764
注册时间: 2023年 10月 19日 16:33

#6 Re: 对benchmark持怀疑态度

帖子 justChat »

即使是真的,也比openai高尚太多了。
openai拿着frontierMath's ground truth训练,然后frontierMath对外宣称,ground truth保密。

"We made a mistake in not being more transparent": OpenAI secretly accessed benchmark data, raising questions about the AI model's supposedly "high scores" — after Sam Altm

wdong 写了: 2025年 1月 28日 21:07 专门针对benchmark调,和训练通用智能根本就是两回事。我觉得中国人是在overfit benchmark。即使现在不是,马上也就是了。
x1 图片
赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 3771
帖子: 42547
注册时间: 2022年 9月 6日 12:50

#7 Re: 对benchmark持怀疑态度

帖子 赖美豪中(my pronouns: ha/ha) »

不公开也可以猜个八九不离十,这玩意就和leetcode一个意思
libaliu 写了: 2025年 1月 29日 10:22 benchmark有很多,数据有公开的,不公开的,半公开的(训练数据公开,Evaluation不公开)
If printing money would end poverty, printing diplomas would end stupidity.
赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 3771
帖子: 42547
注册时间: 2022年 9月 6日 12:50

#8 Re: 对benchmark持怀疑态度

帖子 赖美豪中(my pronouns: ha/ha) »

你们对开源还是一脑门子江湖,llm的开源没有意义,ok,他给你的是trained model, 真的开源是要开源Pre-training model and processes
Caravel 写了: 2025年 1月 29日 11:17 Ds这样完全开源的应该属于不错的,如果不行,用户自己一用就露馅了,kimi后来发布的那些,很有可能有刷版的。
If printing money would end poverty, printing diplomas would end stupidity.
头像
jiml
著名点评
著名点评
帖子互动: 364
帖子: 3359
注册时间: 2023年 2月 22日 22:50

#9 Re: 对benchmark持怀疑态度

帖子 jiml »

wdong 写了: 2025年 1月 28日 21:07 专门针对benchmark调,和训练通用智能根本就是两回事。我觉得中国人是在overfit benchmark。即使现在不是,马上也就是了。
在尚未公开的新benchmark上测试,deepseek也是领先,
参见对scale AI亚历山大的采访
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13255
注册时间: 2022年 7月 26日 00:35

#10 Re: 对benchmark持怀疑态度

帖子 TheMatrix »

wdong 写了: 2025年 1月 28日 21:07 专门针对benchmark调,和训练通用智能根本就是两回事。我觉得中国人是在overfit benchmark。即使现在不是,马上也就是了。
对数据蒸馏的态度存在争议。

首先它不属于overfitting,用蒸馏出来的数据训练,和用原始数据训练,效果一样好,也就是具有同样的泛化能力。所以这不属于overfitting。

但是蒸馏的数据要不要给原始数据以版权?这个是值得争议的。我认为肯定要给以某种形式的版权。

另外,原始数据的训练和蒸馏数据的训练,规模不一样,架构肯定也有很多不同。所以用蒸馏数据训练的模型,可能做不了原始数据的训练。也就是做不了创新。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 562
帖子: 24614
注册时间: 2022年 7月 24日 17:21

#11 Re: 对benchmark持怀疑态度

帖子 Caravel »

赖美豪中 写了: 2025年 1月 29日 11:33 不公开也可以猜个八九不离十,这玩意就和leetcode一个意思
leet code会告诉你错在哪里,如果这个测试就给你一个总分,你怎么猜?
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 831
帖子: 18053
注册时间: 2022年 7月 23日 23:48

#12 Re: 对benchmark持怀疑态度

帖子 hahan »

呵呵
美国业界还处在denial 阶段
还真以为llm是啥高科技了
x1 图片
急急如丧家之犬
忙忙似漏网之鱼
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 831
帖子: 18053
注册时间: 2022年 7月 23日 23:48

#13 Re: 对benchmark持怀疑态度

帖子 hahan »

justChat 写了: 2025年 1月 29日 11:31 即使是真的,也比openai高尚太多了。
openai拿着frontierMath's ground truth训练,然后frontierMath对外宣称,ground truth保密。

"We made a mistake in not being more transparent": OpenAI secretly accessed benchmark data, raising questions about the AI model's supposedly "high scores" — after Sam Altm
属实
OpenAI偷看考题的rumor已经很久了
急急如丧家之犬
忙忙似漏网之鱼
fantasist
见习点评
见习点评
帖子互动: 170
帖子: 1445
注册时间: 2022年 7月 24日 19:52

#14 Re: 对benchmark持怀疑态度

帖子 fantasist »

看来版上没几个人了解serious的大模型厂家如何训练、打榜,我来科普一下吧。
静态benchmark数据集不用说,一批新数据出来,很快就overfit了,分数仅供参考。lmsys arena之类的动态榜单的盲评计算ELO,没有固定的数据集,相对是公信力最高的。虽然还是能有针对性地优化,但模型泛化能力不够绝对挤不进top。
动态榜单的参加方式一般是各厂家自己搭好API access,把模型挂在arena上(知名的open source可能有社区帮忙打榜,是另一回事了)。厂家能看到prompt history,只是不知道跟谁比、谁赢了、对手生成了啥、哪些对话是有效的等信息,overfit难度更高,这是arena分数更有价值的原因。可惜arena也不是完美的,用户输入与实际应用prompt的分布不同,回答长短、格式都会影响用户评价,导致bias。
有了prompt history,想提高ELO比自己想象模型需要什么能力而去造evaluation数据集容易太多。离top差距较大的时候,就用顶级模型打标,做好SFT,能有效提高ELO。现在想当top,纯SFT已无法接近天花板,需要逻辑推理能力。而越接近chatgpt,蒸馏能带来的提升越小,更需要依赖自己的数据工作和reasoning训练方法。

DS的工作非常impressive,不管它有几万张H100,比起卡最多的几个巨头肯定是差一个以上的数量级。这次创新主要在Infra上,用更低的成本实现接近o1的能力。问题主要在于无法确认沿用他们的方法,投入10x以上资源训练,会不会出现能力更上一层楼的模型,还是要找另外的训练范式。

为什么deepseek-V3没太多声浪,而R1出来很轰动呢?值得一提的是,SFT打标很straightforward,而RL不一样。open source的RL framework基本都不work,distributed training跑的时候动不动crash、数值都不见得对。技术路线也有PPO和DPO和它们的很多变种。openai、anthropic、deepmind肯定都是踩过reasoning各种坑的,但他们不会细说进production的具体技术路线是啥。自己踩雷,需要数据、算法与infra结合快速迭代,每一篇论文基本对应一个新系统,难度指数级升高。比如openai论文提出PRM,deepmind论文说用MCTS实现inference time scaling law,而DS说他们试了都不work。DS还说GRPO好用、RL不用打标数据而靠self play,就问你敢不敢跟?谁是狼人你只有自己一轮轮验了才知道,所以reasoning模型没有像sft的LLM烂大街。

+1.00 积分 [版主 hci 发放的奖励]
x4 图片
笑谈2008
职业作家
职业作家
帖子互动: 34
帖子: 457
注册时间: 2022年 7月 25日 22:38

#15 Re: 对benchmark持怀疑态度

帖子 笑谈2008 »

impossible!

>>>>>
....问题主要在于无法确认沿用他们的方法,投入10x以上资源训练,会不会出现能力更上一层楼的模型,还是要找另外的训练范式。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 562
帖子: 24614
注册时间: 2022年 7月 24日 17:21

#16 Re: 对benchmark持怀疑态度

帖子 Caravel »

fantasist 写了: 2025年 1月 29日 16:54 看来版上没几个人了解serious的大模型厂家如何训练、打榜,我来科普一下吧。
静态benchmark数据集不用说,一批新数据出来,很快就overfit了,分数仅供参考。lmsys arena之类的动态榜单的盲评计算ELO,没有固定的数据集,相对是公信力最高的。虽然还是能有针对性地优化,但模型泛化能力不够绝对挤不进top。
动态榜单的参加方式一般是各厂家自己搭好API access,把模型挂在arena上(知名的open source可能有社区帮忙打榜,是另一回事了)。厂家能看到prompt history,只是不知道跟谁比、谁赢了、对手生成了啥、哪些对话是有效的等信息,overfit难度更高,这是arena分数更有价值的原因。可惜arena也不是完美的,用户输入与实际应用prompt的分布不同,回答长短、格式都会影响用户评价,导致bias。
有了prompt history,想提高ELO比自己想象模型需要什么能力而去造evaluation数据集容易太多。离top差距较大的时候,就用顶级模型打标,做好SFT,能有效提高ELO。现在想当top,纯SFT已无法接近天花板,需要逻辑推理能力。而越接近chatgpt,蒸馏能带来的提升越小,更需要依赖自己的数据工作和reasoning训练方法。

DS的工作非常impressive,不管它有几万张H100,比起卡最多的几个巨头肯定是差一个以上的数量级。这次创新主要在Infra上,用更低的成本实现接近o1的能力。问题主要在于无法确认沿用他们的方法,投入10x以上资源训练,会不会出现能力更上一层楼的模型,还是要找另外的训练范式。

为什么deepseek-V3没太多声浪,而R1出来很轰动呢?值得一提的是,SFT打标很straightforward,而RL不一样。open source的RL framework基本都不work,distributed training跑的时候动不动crash、数值都不见得对。技术路线也有PPO和DPO和它们的很多变种。openai、anthropic、deepmind肯定都是踩过reasoning各种坑的,但他们不会细说进production的具体技术路线是啥。自己踩雷,需要数据、算法与infra结合快速迭代,每一篇论文基本对应一个新系统,难度指数级升高。比如openai论文提出PRM,deepmind论文说用MCTS实现inference time scaling law,而DS说他们试了都不work。DS还说GRPO好用、RL不用打标数据而靠self play,就问你敢不敢跟?谁是狼人你只有自己一轮轮验了才知道,所以reasoning模型没有像sft的LLM烂大街。
赞,能不能推荐几个可信度比较高的榜单?
rtyu
见习写手
见习写手
帖子互动: 9
帖子: 94
注册时间: 2022年 9月 9日 01:24

#17 Re: 对benchmark持怀疑态度

帖子 rtyu »

fantasist 写了: 2025年 1月 29日 16:54 看来版上没几个人了解serious的大模型厂家如何训练、打榜,我来科普一下吧。
静态benchmark数据集不用说,一批新数据出来,很快就overfit了,分数仅供参考。lmsys arena之类的动态榜单的盲评计算ELO,没有固定的数据集,相对是公信力最高的。虽然还是能有针对性地优化,但模型泛化能力不够绝对挤不进top。
动态榜单的参加方式一般是各厂家自己搭好API access,把模型挂在arena上(知名的open source可能有社区帮忙打榜,是另一回事了)。厂家能看到prompt history,只是不知道跟谁比、谁赢了、对手生成了啥、哪些对话是有效的等信息,overfit难度更高,这是arena分数更有价值的原因。可惜arena也不是完美的,用户输入与实际应用prompt的分布不同,回答长短、格式都会影响用户评价,导致bias。
有了prompt history,想提高ELO比自己想象模型需要什么能力而去造evaluation数据集容易太多。离top差距较大的时候,就用顶级模型打标,做好SFT,能有效提高ELO。现在想当top,纯SFT已无法接近天花板,需要逻辑推理能力。而越接近chatgpt,蒸馏能带来的提升越小,更需要依赖自己的数据工作和reasoning训练方法。

DS的工作非常impressive,不管它有几万张H100,比起卡最多的几个巨头肯定是差一个以上的数量级。这次创新主要在Infra上,用更低的成本实现接近o1的能力。问题主要在于无法确认沿用他们的方法,投入10x以上资源训练,会不会出现能力更上一层楼的模型,还是要找另外的训练范式。

为什么deepseek-V3没太多声浪,而R1出来很轰动呢?值得一提的是,SFT打标很straightforward,而RL不一样。open source的RL framework基本都不work,distributed training跑的时候动不动crash、数值都不见得对。技术路线也有PPO和DPO和它们的很多变种。openai、anthropic、deepmind肯定都是踩过reasoning各种坑的,但他们不会细说进production的具体技术路线是啥。自己踩雷,需要数据、算法与infra结合快速迭代,每一篇论文基本对应一个新系统,难度指数级升高。比如openai论文提出PRM,deepmind论文说用MCTS实现inference time scaling law,而DS说他们试了都不work。DS还说GRPO好用、RL不用打标数据而靠self play,就问你敢不敢跟?谁是狼人你只有自己一轮轮验了才知道,所以reasoning模型没有像sft的LLM烂大街。

是不是DeepSeek从很多小的技术细节上运用匠人精神有所优化和提高,这些小的改进综合在一起效果惊人,并不是只是依赖知识蒸馏? 以下是DeepSeek自己的解释:

那DeepSeek是如何用非常经济的方法得到较大的模型的呢?

深度求索(DeepSeek)在构建较大模型时,采用了多种经济高效的方法来优化训练过程、降低计算成本,并提升模型性能。以下是一些关键策略和技术:

---

1. 高效的模型架构设计
轻量级架构:使用经过优化的模型架构(如Transformer的变体),在保持性能的同时减少参数量和计算量。
模块化设计:通过模块化设计,允许模型在不同任务中共享部分参数,从而减少重复计算。

---

2. 数据高效利用
数据增强:通过数据增强技术生成更多的训练样本,提高数据利用率。
主动学习:选择对模型训练最有价值的样本进行标注,减少标注成本。
合成数据:使用合成数据或伪标签扩充训练集,降低对真实标注数据的依赖。

---

3. 分布式训练与混合精度计算
分布式训练:将训练任务分布到多个GPU或节点上,加速训练过程并降低单点计算压力。
混合精度计算:使用混合精度(FP16/FP32)训练,减少内存占用并提高计算效率。

---

4. 知识蒸馏与迁移学习
知识蒸馏:通过训练一个较大的教师模型,将其知识迁移到较小的学生模型上,从而在保持性能的同时降低计算成本。
迁移学习:利用预训练模型(如BERT、GPT等)作为起点,通过微调适应特定任务,减少从头训练的计算开销。

---

5. 模型压缩与量化
剪枝:去除模型中冗余的参数或神经元,减少模型大小和计算量。
量化:将模型参数从高精度(如FP32)转换为低精度(如INT8),降低存储和计算需求。
低秩分解:将大矩阵分解为多个小矩阵,减少参数量和计算复杂度。

---

6. 高效的优化算法
自适应优化器:使用AdamW、LAMB等自适应优化器,加速模型收敛并减少训练时间。
学习率调度:动态调整学习率,避免训练过程中的震荡和不稳定。

---

7. 预训练与微调
大规模预训练:在通用任务上进行大规模预训练,学习通用的语言表示。
任务微调:在特定任务上对预训练模型进行微调,减少训练时间和计算资源。

---

8. 硬件与软件优化
硬件加速:利用GPU、TPU等硬件加速器,提升训练和推理速度。
软件优化:使用高效的深度学习框架(如PyTorch、TensorFlow)和库(如DeepSpeed、Megatron),优化计算和内存管理。

---

9. 持续学习与模型更新
增量学习:通过增量学习技术,使模型能够在新数据上持续更新,而无需从头训练。
模型版本控制:管理不同版本的模型,确保在更新模型时能够高效地复用已有资源。

---

10. 开源与社区贡献
开源模型:通过开源模型和工具,吸引社区贡献,加速模型优化和改进。
共享资源:利用社区共享的预训练模型和数据集,减少重复劳动和资源浪费。

---

总结
深度求索通过高效的模型设计、数据利用、分布式训练、知识蒸馏、模型压缩、优化算法、预训练与微调等多种方法,以经济高效的方式构建较大的模型。这些策略不仅降低了计算成本,还提升了模型的性能和泛化能力。如果你有具体的需求或场景,可以进一步探讨如何应用这些方法。
fantasist
见习点评
见习点评
帖子互动: 170
帖子: 1445
注册时间: 2022年 7月 24日 19:52

#18 Re: 对benchmark持怀疑态度

帖子 fantasist »

Caravel 写了: 2025年 1月 30日 00:14 赞,能不能推荐几个可信度比较高的榜单?
能看的榜不多,业界基本只看lmsys arena,对话分很多种category已经挺能代表模型的智能和真实场景下的能力了。lmsys能成为最有公信力的平台,主要原因有两个:它是Berkeley搞的,师生水平高;而且比较中立,不单独卖数据给厂家而造成不公平竞争。
tool use可以看看BFCL,也是Berkeley搞的。社区活跃度远不如lmsys,可能因为用静态数据集,不知名的模型刷榜相对容易。出了三版测试数据集,工作还是挺solid的,希望趁今年agent特别热门,能得到更多关注。
多模态有人搞类似的arena,不过似乎还不成气候。可能因为字节之类的公司直接包装到自家产品里了,拿流量推广比刷榜有用。
x1 图片
fantasist
见习点评
见习点评
帖子互动: 170
帖子: 1445
注册时间: 2022年 7月 24日 19:52

#19 Re: 对benchmark持怀疑态度

帖子 fantasist »

rtyu 写了: 2025年 1月 30日 00:29 是不是DeepSeek从很多小的技术细节上运用匠人精神有所优化和提高,这些小的改进综合在一起效果惊人,并不是只是依赖知识蒸馏? 以下是DeepSeek自己的解释:

那DeepSeek是如何用非常经济的方法得到较大的模型的呢?

深度求索(DeepSeek)在构建较大模型时,采用了多种经济高效的方法来优化训练过程、降低计算成本,并提升模型性能。以下是一些关键策略和技术:

---

1. 高效的模型架构设计
轻量级架构:使用经过优化的模型架构(如Transformer的变体),在保持性能的同时减少参数量和计算量。
模块化设计:通过模块化设计,允许模型在不同任务中共享部分参数,从而减少重复计算。

---

2. 数据高效利用
数据增强:通过数据增强技术生成更多的训练样本,提高数据利用率。
主动学习:选择对模型训练最有价值的样本进行标注,减少标注成本。
合成数据:使用合成数据或伪标签扩充训练集,降低对真实标注数据的依赖。

---

3. 分布式训练与混合精度计算
分布式训练:将训练任务分布到多个GPU或节点上,加速训练过程并降低单点计算压力。
混合精度计算:使用混合精度(FP16/FP32)训练,减少内存占用并提高计算效率。

---

4. 知识蒸馏与迁移学习
知识蒸馏:通过训练一个较大的教师模型,将其知识迁移到较小的学生模型上,从而在保持性能的同时降低计算成本。
迁移学习:利用预训练模型(如BERT、GPT等)作为起点,通过微调适应特定任务,减少从头训练的计算开销。

---

5. 模型压缩与量化
剪枝:去除模型中冗余的参数或神经元,减少模型大小和计算量。
量化:将模型参数从高精度(如FP32)转换为低精度(如INT8),降低存储和计算需求。
低秩分解:将大矩阵分解为多个小矩阵,减少参数量和计算复杂度。

---

6. 高效的优化算法
自适应优化器:使用AdamW、LAMB等自适应优化器,加速模型收敛并减少训练时间。
学习率调度:动态调整学习率,避免训练过程中的震荡和不稳定。

---

7. 预训练与微调
大规模预训练:在通用任务上进行大规模预训练,学习通用的语言表示。
任务微调:在特定任务上对预训练模型进行微调,减少训练时间和计算资源。

---

8. 硬件与软件优化
硬件加速:利用GPU、TPU等硬件加速器,提升训练和推理速度。
软件优化:使用高效的深度学习框架(如PyTorch、TensorFlow)和库(如DeepSpeed、Megatron),优化计算和内存管理。

---

9. 持续学习与模型更新
增量学习:通过增量学习技术,使模型能够在新数据上持续更新,而无需从头训练。
模型版本控制:管理不同版本的模型,确保在更新模型时能够高效地复用已有资源。

---

10. 开源与社区贡献
开源模型:通过开源模型和工具,吸引社区贡献,加速模型优化和改进。
共享资源:利用社区共享的预训练模型和数据集,减少重复劳动和资源浪费。

---

总结
深度求索通过高效的模型设计、数据利用、分布式训练、知识蒸馏、模型压缩、优化算法、预训练与微调等多种方法,以经济高效的方式构建较大的模型。这些策略不仅降低了计算成本,还提升了模型的性能和泛化能力。如果你有具体的需求或场景,可以进一步探讨如何应用这些方法。
这篇AI总结纯粹在bullshit。要想知道具体有什么改进,得去看V3和R1两篇论文原文(有空的话还可以学习下MLA和GRPO),和业内人士写的分析文章。
知识蒸馏大家都在做,R1能撼动QQQ,真本事明显是在惊人的infra optimization效果上。那些创新点是不是“小”改进,不同的人会有不同的opinion。
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 831
帖子: 18053
注册时间: 2022年 7月 23日 23:48

#20 Re: 对benchmark持怀疑态度

帖子 hahan »

fantasist 写了: 2025年 1月 30日 00:50 这篇AI总结纯粹在bullshit。要想知道具体有什么改进,得去看V3和R1两篇论文原文(有空的话还可以学习下MLA和GRPO),和业内人士写的分析文章。
知识蒸馏大家都在做,R1能撼动QQQ,真本事明显是在惊人的infra optimization效果上。那些创新点是不是“小”改进,不同的人会有不同的opinion。
我看了别人的论文总结
Technique 挺多的
包括moe的tweak
这个现在有点像炼金
急急如丧家之犬
忙忙似漏网之鱼
回复

回到 “葵花宝典(Programming)”