（转载）迄今最好的介绍deepseek所谓“蒸馏”，以及可能超越OpenAI的地方

HouseMD

Fnhdx 写了： 2025年 2月 1日 13:55 有一点不懂，25万个问题就可以训练一个大模型？那我直接人工标注25万个问题不是更好？

要大胆想象，何须25万，光25个问题就可以了

princeton · 帖子由 **princeton（wow）** » 2025年 2月 1日 16:48

saibaster 写了： 2025年 2月 1日 13:58 公开能得到的数据已经是天量了。
我自己的训练都能搞到整个wikipedia 和 twitter的
很多卖数据的公司也就是给你做些数据清洗和标注而已。
OpenAI 训练的数据很多也是自己到处扒下来的。
但 Google 和 OpenAI 自己就在局里，怎么可能卖数据。

公开能得到的数据已经是天量了, 那也要去获取吧？DS怎么去获取？难道他们早就把这些数据下载到他们自己的数据中心了？

saibaster

这里有个最容易免费得到的例子

https://huggingface.co/datasets/legacy- ... /wikipedia

princeton 写了： 2025年 2月 1日 16:48 公开能得到的数据已经是天量了, 那也要去获取吧？DS怎么去获取？难道他们早就把这些数据下载到他们自己的数据中心了？

取诸怀抱 · 帖子由 **取诸怀抱** » 2025年 2月 2日 02:22

https://github.com/deepseek-ai/DeepSeek ... ek_R1.pdf
概要
本文介绍了DeepSeek团队开发的第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过大规模强化学习（RL）训练，未经过监督微调（SFT），展现出强大的推理能力，但在可读性和语言混杂方面存在问题。为解决这些问题，DeepSeek-R1引入了冷启动数据和多阶段训练流程，最终在推理任务上达到与OpenAI-o1-1217相当的性能。此外，团队还通过蒸馏技术将DeepSeek-R1的推理能力转移到较小的密集模型中，开源了多个基于Qwen和Llama的蒸馏模型，这些模型在推理基准测试中表现优异。研究还探讨了通过蒸馏和强化学习提升小型模型推理能力的可能性，并指出了未来研究的方向，包括提升模型的通用能力、解决语言混杂问题、优化提示工程以及提高软件工程任务的性能。

新未名空间

（转载）迄今最好的介绍deepseek所谓“蒸馏”，以及可能超越OpenAI的地方

#21 Re: （转载）迄今最好的介绍deepseek所谓“蒸馏”，以及可能超越OpenAI的地方

#22 Re: （转载）迄今最好的介绍deepseek所谓“蒸馏”，以及可能超越OpenAI的地方

#23 Re: （转载）迄今最好的介绍deepseek所谓“蒸馏”，以及可能超越OpenAI的地方

#24 Re: （转载）迄今最好的介绍deepseek所谓“蒸馏”，以及可能超越OpenAI的地方