对benchmark持怀疑态度
版主: hci
#2 Re: 对benchmark持怀疑态度
行业心照不宣的秘密了。有些投机取巧的公司和个人为了在排行榜领先,直接针对benchmark的数据来训练。这样就造成有些模型排名领先,但是实际使用不行想象。所以自己真的使用时,还是要根据自己的use case多比较几家。
-
- 论坛元老
Caravel 的博客 - 帖子互动: 562
- 帖子: 24614
- 注册时间: 2022年 7月 24日 17:21
-
- 论坛元老
Caravel 的博客 - 帖子互动: 562
- 帖子: 24614
- 注册时间: 2022年 7月 24日 17:21
#5 Re: 对benchmark持怀疑态度
Ds这样完全开源的应该属于不错的,如果不行,用户自己一用就露馅了,kimi后来发布的那些,很有可能有刷版的。libaliu 写了: 2025年 1月 28日 21:15 行业心照不宣的秘密了。有些投机取巧的公司和个人为了在排行榜领先,直接针对benchmark的数据来训练。这样就造成有些模型排名领先,但是实际使用不行想象。所以自己真的使用时,还是要根据自己的use case多比较几家。
#6 Re: 对benchmark持怀疑态度
即使是真的,也比openai高尚太多了。
openai拿着frontierMath's ground truth训练,然后frontierMath对外宣称,ground truth保密。
"We made a mistake in not being more transparent": OpenAI secretly accessed benchmark data, raising questions about the AI model's supposedly "high scores" — after Sam Altm
openai拿着frontierMath's ground truth训练,然后frontierMath对外宣称,ground truth保密。
"We made a mistake in not being more transparent": OpenAI secretly accessed benchmark data, raising questions about the AI model's supposedly "high scores" — after Sam Altm
x1

#7 Re: 对benchmark持怀疑态度
不公开也可以猜个八九不离十,这玩意就和leetcode一个意思
If printing money would end poverty, printing diplomas would end stupidity.
#8 Re: 对benchmark持怀疑态度
你们对开源还是一脑门子江湖,llm的开源没有意义,ok,他给你的是trained model, 真的开源是要开源Pre-training model and processes
If printing money would end poverty, printing diplomas would end stupidity.
-
- 论坛支柱
2024年度优秀版主
TheMatrix 的博客 - 帖子互动: 264
- 帖子: 13255
- 注册时间: 2022年 7月 26日 00:35
#10 Re: 对benchmark持怀疑态度
对数据蒸馏的态度存在争议。
首先它不属于overfitting,用蒸馏出来的数据训练,和用原始数据训练,效果一样好,也就是具有同样的泛化能力。所以这不属于overfitting。
但是蒸馏的数据要不要给原始数据以版权?这个是值得争议的。我认为肯定要给以某种形式的版权。
另外,原始数据的训练和蒸馏数据的训练,规模不一样,架构肯定也有很多不同。所以用蒸馏数据训练的模型,可能做不了原始数据的训练。也就是做不了创新。
-
- 论坛元老
Caravel 的博客 - 帖子互动: 562
- 帖子: 24614
- 注册时间: 2022年 7月 24日 17:21
#13 Re: 对benchmark持怀疑态度
属实justChat 写了: 2025年 1月 29日 11:31 即使是真的,也比openai高尚太多了。
openai拿着frontierMath's ground truth训练,然后frontierMath对外宣称,ground truth保密。
"We made a mistake in not being more transparent": OpenAI secretly accessed benchmark data, raising questions about the AI model's supposedly "high scores" — after Sam Altm
OpenAI偷看考题的rumor已经很久了
急急如丧家之犬
忙忙似漏网之鱼
忙忙似漏网之鱼
#14 Re: 对benchmark持怀疑态度
看来版上没几个人了解serious的大模型厂家如何训练、打榜,我来科普一下吧。
静态benchmark数据集不用说,一批新数据出来,很快就overfit了,分数仅供参考。lmsys arena之类的动态榜单的盲评计算ELO,没有固定的数据集,相对是公信力最高的。虽然还是能有针对性地优化,但模型泛化能力不够绝对挤不进top。
动态榜单的参加方式一般是各厂家自己搭好API access,把模型挂在arena上(知名的open source可能有社区帮忙打榜,是另一回事了)。厂家能看到prompt history,只是不知道跟谁比、谁赢了、对手生成了啥、哪些对话是有效的等信息,overfit难度更高,这是arena分数更有价值的原因。可惜arena也不是完美的,用户输入与实际应用prompt的分布不同,回答长短、格式都会影响用户评价,导致bias。
有了prompt history,想提高ELO比自己想象模型需要什么能力而去造evaluation数据集容易太多。离top差距较大的时候,就用顶级模型打标,做好SFT,能有效提高ELO。现在想当top,纯SFT已无法接近天花板,需要逻辑推理能力。而越接近chatgpt,蒸馏能带来的提升越小,更需要依赖自己的数据工作和reasoning训练方法。
DS的工作非常impressive,不管它有几万张H100,比起卡最多的几个巨头肯定是差一个以上的数量级。这次创新主要在Infra上,用更低的成本实现接近o1的能力。问题主要在于无法确认沿用他们的方法,投入10x以上资源训练,会不会出现能力更上一层楼的模型,还是要找另外的训练范式。
为什么deepseek-V3没太多声浪,而R1出来很轰动呢?值得一提的是,SFT打标很straightforward,而RL不一样。open source的RL framework基本都不work,distributed training跑的时候动不动crash、数值都不见得对。技术路线也有PPO和DPO和它们的很多变种。openai、anthropic、deepmind肯定都是踩过reasoning各种坑的,但他们不会细说进production的具体技术路线是啥。自己踩雷,需要数据、算法与infra结合快速迭代,每一篇论文基本对应一个新系统,难度指数级升高。比如openai论文提出PRM,deepmind论文说用MCTS实现inference time scaling law,而DS说他们试了都不work。DS还说GRPO好用、RL不用打标数据而靠self play,就问你敢不敢跟?谁是狼人你只有自己一轮轮验了才知道,所以reasoning模型没有像sft的LLM烂大街。
静态benchmark数据集不用说,一批新数据出来,很快就overfit了,分数仅供参考。lmsys arena之类的动态榜单的盲评计算ELO,没有固定的数据集,相对是公信力最高的。虽然还是能有针对性地优化,但模型泛化能力不够绝对挤不进top。
动态榜单的参加方式一般是各厂家自己搭好API access,把模型挂在arena上(知名的open source可能有社区帮忙打榜,是另一回事了)。厂家能看到prompt history,只是不知道跟谁比、谁赢了、对手生成了啥、哪些对话是有效的等信息,overfit难度更高,这是arena分数更有价值的原因。可惜arena也不是完美的,用户输入与实际应用prompt的分布不同,回答长短、格式都会影响用户评价,导致bias。
有了prompt history,想提高ELO比自己想象模型需要什么能力而去造evaluation数据集容易太多。离top差距较大的时候,就用顶级模型打标,做好SFT,能有效提高ELO。现在想当top,纯SFT已无法接近天花板,需要逻辑推理能力。而越接近chatgpt,蒸馏能带来的提升越小,更需要依赖自己的数据工作和reasoning训练方法。
DS的工作非常impressive,不管它有几万张H100,比起卡最多的几个巨头肯定是差一个以上的数量级。这次创新主要在Infra上,用更低的成本实现接近o1的能力。问题主要在于无法确认沿用他们的方法,投入10x以上资源训练,会不会出现能力更上一层楼的模型,还是要找另外的训练范式。
为什么deepseek-V3没太多声浪,而R1出来很轰动呢?值得一提的是,SFT打标很straightforward,而RL不一样。open source的RL framework基本都不work,distributed training跑的时候动不动crash、数值都不见得对。技术路线也有PPO和DPO和它们的很多变种。openai、anthropic、deepmind肯定都是踩过reasoning各种坑的,但他们不会细说进production的具体技术路线是啥。自己踩雷,需要数据、算法与infra结合快速迭代,每一篇论文基本对应一个新系统,难度指数级升高。比如openai论文提出PRM,deepmind论文说用MCTS实现inference time scaling law,而DS说他们试了都不work。DS还说GRPO好用、RL不用打标数据而靠self play,就问你敢不敢跟?谁是狼人你只有自己一轮轮验了才知道,所以reasoning模型没有像sft的LLM烂大街。
+1.00 积分 [版主 hci 发放的奖励]
x4

#15 Re: 对benchmark持怀疑态度
impossible!
>>>>>
....问题主要在于无法确认沿用他们的方法,投入10x以上资源训练,会不会出现能力更上一层楼的模型,还是要找另外的训练范式。
>>>>>
....问题主要在于无法确认沿用他们的方法,投入10x以上资源训练,会不会出现能力更上一层楼的模型,还是要找另外的训练范式。
-
- 论坛元老
Caravel 的博客 - 帖子互动: 562
- 帖子: 24614
- 注册时间: 2022年 7月 24日 17:21
#16 Re: 对benchmark持怀疑态度
赞,能不能推荐几个可信度比较高的榜单?fantasist 写了: 2025年 1月 29日 16:54 看来版上没几个人了解serious的大模型厂家如何训练、打榜,我来科普一下吧。
静态benchmark数据集不用说,一批新数据出来,很快就overfit了,分数仅供参考。lmsys arena之类的动态榜单的盲评计算ELO,没有固定的数据集,相对是公信力最高的。虽然还是能有针对性地优化,但模型泛化能力不够绝对挤不进top。
动态榜单的参加方式一般是各厂家自己搭好API access,把模型挂在arena上(知名的open source可能有社区帮忙打榜,是另一回事了)。厂家能看到prompt history,只是不知道跟谁比、谁赢了、对手生成了啥、哪些对话是有效的等信息,overfit难度更高,这是arena分数更有价值的原因。可惜arena也不是完美的,用户输入与实际应用prompt的分布不同,回答长短、格式都会影响用户评价,导致bias。
有了prompt history,想提高ELO比自己想象模型需要什么能力而去造evaluation数据集容易太多。离top差距较大的时候,就用顶级模型打标,做好SFT,能有效提高ELO。现在想当top,纯SFT已无法接近天花板,需要逻辑推理能力。而越接近chatgpt,蒸馏能带来的提升越小,更需要依赖自己的数据工作和reasoning训练方法。
DS的工作非常impressive,不管它有几万张H100,比起卡最多的几个巨头肯定是差一个以上的数量级。这次创新主要在Infra上,用更低的成本实现接近o1的能力。问题主要在于无法确认沿用他们的方法,投入10x以上资源训练,会不会出现能力更上一层楼的模型,还是要找另外的训练范式。
为什么deepseek-V3没太多声浪,而R1出来很轰动呢?值得一提的是,SFT打标很straightforward,而RL不一样。open source的RL framework基本都不work,distributed training跑的时候动不动crash、数值都不见得对。技术路线也有PPO和DPO和它们的很多变种。openai、anthropic、deepmind肯定都是踩过reasoning各种坑的,但他们不会细说进production的具体技术路线是啥。自己踩雷,需要数据、算法与infra结合快速迭代,每一篇论文基本对应一个新系统,难度指数级升高。比如openai论文提出PRM,deepmind论文说用MCTS实现inference time scaling law,而DS说他们试了都不work。DS还说GRPO好用、RL不用打标数据而靠self play,就问你敢不敢跟?谁是狼人你只有自己一轮轮验了才知道,所以reasoning模型没有像sft的LLM烂大街。
#17 Re: 对benchmark持怀疑态度
fantasist 写了: 2025年 1月 29日 16:54 看来版上没几个人了解serious的大模型厂家如何训练、打榜,我来科普一下吧。
静态benchmark数据集不用说,一批新数据出来,很快就overfit了,分数仅供参考。lmsys arena之类的动态榜单的盲评计算ELO,没有固定的数据集,相对是公信力最高的。虽然还是能有针对性地优化,但模型泛化能力不够绝对挤不进top。
动态榜单的参加方式一般是各厂家自己搭好API access,把模型挂在arena上(知名的open source可能有社区帮忙打榜,是另一回事了)。厂家能看到prompt history,只是不知道跟谁比、谁赢了、对手生成了啥、哪些对话是有效的等信息,overfit难度更高,这是arena分数更有价值的原因。可惜arena也不是完美的,用户输入与实际应用prompt的分布不同,回答长短、格式都会影响用户评价,导致bias。
有了prompt history,想提高ELO比自己想象模型需要什么能力而去造evaluation数据集容易太多。离top差距较大的时候,就用顶级模型打标,做好SFT,能有效提高ELO。现在想当top,纯SFT已无法接近天花板,需要逻辑推理能力。而越接近chatgpt,蒸馏能带来的提升越小,更需要依赖自己的数据工作和reasoning训练方法。
DS的工作非常impressive,不管它有几万张H100,比起卡最多的几个巨头肯定是差一个以上的数量级。这次创新主要在Infra上,用更低的成本实现接近o1的能力。问题主要在于无法确认沿用他们的方法,投入10x以上资源训练,会不会出现能力更上一层楼的模型,还是要找另外的训练范式。
为什么deepseek-V3没太多声浪,而R1出来很轰动呢?值得一提的是,SFT打标很straightforward,而RL不一样。open source的RL framework基本都不work,distributed training跑的时候动不动crash、数值都不见得对。技术路线也有PPO和DPO和它们的很多变种。openai、anthropic、deepmind肯定都是踩过reasoning各种坑的,但他们不会细说进production的具体技术路线是啥。自己踩雷,需要数据、算法与infra结合快速迭代,每一篇论文基本对应一个新系统,难度指数级升高。比如openai论文提出PRM,deepmind论文说用MCTS实现inference time scaling law,而DS说他们试了都不work。DS还说GRPO好用、RL不用打标数据而靠self play,就问你敢不敢跟?谁是狼人你只有自己一轮轮验了才知道,所以reasoning模型没有像sft的LLM烂大街。
是不是DeepSeek从很多小的技术细节上运用匠人精神有所优化和提高,这些小的改进综合在一起效果惊人,并不是只是依赖知识蒸馏? 以下是DeepSeek自己的解释:
那DeepSeek是如何用非常经济的方法得到较大的模型的呢?
深度求索(DeepSeek)在构建较大模型时,采用了多种经济高效的方法来优化训练过程、降低计算成本,并提升模型性能。以下是一些关键策略和技术:
---
1. 高效的模型架构设计
轻量级架构:使用经过优化的模型架构(如Transformer的变体),在保持性能的同时减少参数量和计算量。
模块化设计:通过模块化设计,允许模型在不同任务中共享部分参数,从而减少重复计算。
---
2. 数据高效利用
数据增强:通过数据增强技术生成更多的训练样本,提高数据利用率。
主动学习:选择对模型训练最有价值的样本进行标注,减少标注成本。
合成数据:使用合成数据或伪标签扩充训练集,降低对真实标注数据的依赖。
---
3. 分布式训练与混合精度计算
分布式训练:将训练任务分布到多个GPU或节点上,加速训练过程并降低单点计算压力。
混合精度计算:使用混合精度(FP16/FP32)训练,减少内存占用并提高计算效率。
---
4. 知识蒸馏与迁移学习
知识蒸馏:通过训练一个较大的教师模型,将其知识迁移到较小的学生模型上,从而在保持性能的同时降低计算成本。
迁移学习:利用预训练模型(如BERT、GPT等)作为起点,通过微调适应特定任务,减少从头训练的计算开销。
---
5. 模型压缩与量化
剪枝:去除模型中冗余的参数或神经元,减少模型大小和计算量。
量化:将模型参数从高精度(如FP32)转换为低精度(如INT8),降低存储和计算需求。
低秩分解:将大矩阵分解为多个小矩阵,减少参数量和计算复杂度。
---
6. 高效的优化算法
自适应优化器:使用AdamW、LAMB等自适应优化器,加速模型收敛并减少训练时间。
学习率调度:动态调整学习率,避免训练过程中的震荡和不稳定。
---
7. 预训练与微调
大规模预训练:在通用任务上进行大规模预训练,学习通用的语言表示。
任务微调:在特定任务上对预训练模型进行微调,减少训练时间和计算资源。
---
8. 硬件与软件优化
硬件加速:利用GPU、TPU等硬件加速器,提升训练和推理速度。
软件优化:使用高效的深度学习框架(如PyTorch、TensorFlow)和库(如DeepSpeed、Megatron),优化计算和内存管理。
---
9. 持续学习与模型更新
增量学习:通过增量学习技术,使模型能够在新数据上持续更新,而无需从头训练。
模型版本控制:管理不同版本的模型,确保在更新模型时能够高效地复用已有资源。
---
10. 开源与社区贡献
开源模型:通过开源模型和工具,吸引社区贡献,加速模型优化和改进。
共享资源:利用社区共享的预训练模型和数据集,减少重复劳动和资源浪费。
---
总结
深度求索通过高效的模型设计、数据利用、分布式训练、知识蒸馏、模型压缩、优化算法、预训练与微调等多种方法,以经济高效的方式构建较大的模型。这些策略不仅降低了计算成本,还提升了模型的性能和泛化能力。如果你有具体的需求或场景,可以进一步探讨如何应用这些方法。
#18 Re: 对benchmark持怀疑态度
能看的榜不多,业界基本只看lmsys arena,对话分很多种category已经挺能代表模型的智能和真实场景下的能力了。lmsys能成为最有公信力的平台,主要原因有两个:它是Berkeley搞的,师生水平高;而且比较中立,不单独卖数据给厂家而造成不公平竞争。
tool use可以看看BFCL,也是Berkeley搞的。社区活跃度远不如lmsys,可能因为用静态数据集,不知名的模型刷榜相对容易。出了三版测试数据集,工作还是挺solid的,希望趁今年agent特别热门,能得到更多关注。
多模态有人搞类似的arena,不过似乎还不成气候。可能因为字节之类的公司直接包装到自家产品里了,拿流量推广比刷榜有用。
x1

#19 Re: 对benchmark持怀疑态度
这篇AI总结纯粹在bullshit。要想知道具体有什么改进,得去看V3和R1两篇论文原文(有空的话还可以学习下MLA和GRPO),和业内人士写的分析文章。rtyu 写了: 2025年 1月 30日 00:29 是不是DeepSeek从很多小的技术细节上运用匠人精神有所优化和提高,这些小的改进综合在一起效果惊人,并不是只是依赖知识蒸馏? 以下是DeepSeek自己的解释:
那DeepSeek是如何用非常经济的方法得到较大的模型的呢?
深度求索(DeepSeek)在构建较大模型时,采用了多种经济高效的方法来优化训练过程、降低计算成本,并提升模型性能。以下是一些关键策略和技术:
---
1. 高效的模型架构设计
轻量级架构:使用经过优化的模型架构(如Transformer的变体),在保持性能的同时减少参数量和计算量。
模块化设计:通过模块化设计,允许模型在不同任务中共享部分参数,从而减少重复计算。
---
2. 数据高效利用
数据增强:通过数据增强技术生成更多的训练样本,提高数据利用率。
主动学习:选择对模型训练最有价值的样本进行标注,减少标注成本。
合成数据:使用合成数据或伪标签扩充训练集,降低对真实标注数据的依赖。
---
3. 分布式训练与混合精度计算
分布式训练:将训练任务分布到多个GPU或节点上,加速训练过程并降低单点计算压力。
混合精度计算:使用混合精度(FP16/FP32)训练,减少内存占用并提高计算效率。
---
4. 知识蒸馏与迁移学习
知识蒸馏:通过训练一个较大的教师模型,将其知识迁移到较小的学生模型上,从而在保持性能的同时降低计算成本。
迁移学习:利用预训练模型(如BERT、GPT等)作为起点,通过微调适应特定任务,减少从头训练的计算开销。
---
5. 模型压缩与量化
剪枝:去除模型中冗余的参数或神经元,减少模型大小和计算量。
量化:将模型参数从高精度(如FP32)转换为低精度(如INT8),降低存储和计算需求。
低秩分解:将大矩阵分解为多个小矩阵,减少参数量和计算复杂度。
---
6. 高效的优化算法
自适应优化器:使用AdamW、LAMB等自适应优化器,加速模型收敛并减少训练时间。
学习率调度:动态调整学习率,避免训练过程中的震荡和不稳定。
---
7. 预训练与微调
大规模预训练:在通用任务上进行大规模预训练,学习通用的语言表示。
任务微调:在特定任务上对预训练模型进行微调,减少训练时间和计算资源。
---
8. 硬件与软件优化
硬件加速:利用GPU、TPU等硬件加速器,提升训练和推理速度。
软件优化:使用高效的深度学习框架(如PyTorch、TensorFlow)和库(如DeepSpeed、Megatron),优化计算和内存管理。
---
9. 持续学习与模型更新
增量学习:通过增量学习技术,使模型能够在新数据上持续更新,而无需从头训练。
模型版本控制:管理不同版本的模型,确保在更新模型时能够高效地复用已有资源。
---
10. 开源与社区贡献
开源模型:通过开源模型和工具,吸引社区贡献,加速模型优化和改进。
共享资源:利用社区共享的预训练模型和数据集,减少重复劳动和资源浪费。
---
总结
深度求索通过高效的模型设计、数据利用、分布式训练、知识蒸馏、模型压缩、优化算法、预训练与微调等多种方法,以经济高效的方式构建较大的模型。这些策略不仅降低了计算成本,还提升了模型的性能和泛化能力。如果你有具体的需求或场景,可以进一步探讨如何应用这些方法。
知识蒸馏大家都在做,R1能撼动QQQ,真本事明显是在惊人的infra optimization效果上。那些创新点是不是“小”改进,不同的人会有不同的opinion。
#20 Re: 对benchmark持怀疑态度
我看了别人的论文总结fantasist 写了: 2025年 1月 30日 00:50 这篇AI总结纯粹在bullshit。要想知道具体有什么改进,得去看V3和R1两篇论文原文(有空的话还可以学习下MLA和GRPO),和业内人士写的分析文章。
知识蒸馏大家都在做,R1能撼动QQQ,真本事明显是在惊人的infra optimization效果上。那些创新点是不是“小”改进,不同的人会有不同的opinion。
Technique 挺多的
包括moe的tweak
这个现在有点像炼金
急急如丧家之犬
忙忙似漏网之鱼
忙忙似漏网之鱼