分页: 2 / 2

#21 Re: (转载)迄今最好的介绍deepseek所谓“蒸馏”,以及可能超越OpenAI的地方

发表于 : 2025年 2月 1日 14:10
HouseMD
Fnhdx 写了: 2025年 2月 1日 13:55 有一点不懂,25万个问题就可以训练一个大模型?那我直接人工标注25万个问题不是更好?
要大胆想象,何须25万,光25个问题就可以了 :lol:

#22 Re: (转载)迄今最好的介绍deepseek所谓“蒸馏”,以及可能超越OpenAI的地方

发表于 : 2025年 2月 1日 16:48
princeton
saibaster 写了: 2025年 2月 1日 13:58 公开能得到的数据已经是天量了。
我自己的训练都能搞到整个wikipedia 和 twitter的
很多卖数据的公司也就是给你做些数据清洗和标注而已。
OpenAI 训练的数据很多也是自己到处扒下来的。
但 Google 和 OpenAI 自己就在局里,怎么可能卖数据。
公开能得到的数据已经是天量了, 那也要去获取吧?DS怎么去获取?难道他们早就把这些数据下载到他们自己的数据中心了?

#23 Re: (转载)迄今最好的介绍deepseek所谓“蒸馏”,以及可能超越OpenAI的地方

发表于 : 2025年 2月 1日 18:23
saibaster
这里有个最容易免费得到的例子

https://huggingface.co/datasets/legacy- ... /wikipedia

princeton 写了: 2025年 2月 1日 16:48 公开能得到的数据已经是天量了, 那也要去获取吧?DS怎么去获取?难道他们早就把这些数据下载到他们自己的数据中心了?

#24 Re: (转载)迄今最好的介绍deepseek所谓“蒸馏”,以及可能超越OpenAI的地方

发表于 : 2025年 2月 2日 02:22
取诸怀抱
https://github.com/deepseek-ai/DeepSeek ... ek_R1.pdf
概要
本文介绍了DeepSeek团队开发的第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过大规模强化学习(RL)训练,未经过监督微调(SFT),展现出强大的推理能力,但在可读性和语言混杂方面存在问题。为解决这些问题,DeepSeek-R1引入了冷启动数据和多阶段训练流程,最终在推理任务上达到与OpenAI-o1-1217相当的性能。此外,团队还通过蒸馏技术将DeepSeek-R1的推理能力转移到较小的密集模型中,开源了多个基于Qwen和Llama的蒸馏模型,这些模型在推理基准测试中表现优异。研究还探讨了通过蒸馏和强化学习提升小型模型推理能力的可能性,并指出了未来研究的方向,包括提升模型的通用能力、解决语言混杂问题、优化提示工程以及提高软件工程任务的性能。