(转载)迄今最好的介绍deepseek所谓“蒸馏”,以及可能超越OpenAI的地方

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

头像
HouseMD(黄皮川黑)
著名点评
著名点评
帖子互动: 614
帖子: 4253
注册时间: 2022年 7月 28日 14:44

#21 Re: (转载)迄今最好的介绍deepseek所谓“蒸馏”,以及可能超越OpenAI的地方

帖子 HouseMD(黄皮川黑) »

Fnhdx 写了: 2025年 2月 1日 13:55 有一点不懂,25万个问题就可以训练一个大模型?那我直接人工标注25万个问题不是更好?
要大胆想象,何须25万,光25个问题就可以了 :lol:
图片

标签/Tags:
princeton(wow)
知名人士
知名人士
帖子互动: 3
帖子: 56
注册时间: 2022年 10月 15日 17:20

#22 Re: (转载)迄今最好的介绍deepseek所谓“蒸馏”,以及可能超越OpenAI的地方

帖子 princeton(wow) »

saibaster 写了: 2025年 2月 1日 13:58 公开能得到的数据已经是天量了。
我自己的训练都能搞到整个wikipedia 和 twitter的
很多卖数据的公司也就是给你做些数据清洗和标注而已。
OpenAI 训练的数据很多也是自己到处扒下来的。
但 Google 和 OpenAI 自己就在局里,怎么可能卖数据。
公开能得到的数据已经是天量了, 那也要去获取吧?DS怎么去获取?难道他们早就把这些数据下载到他们自己的数据中心了?
头像
saibaster(神的眷者)
论坛点评
论坛点评
帖子互动: 244
帖子: 2667
注册时间: 2023年 7月 11日 00:43

#23 Re: (转载)迄今最好的介绍deepseek所谓“蒸馏”,以及可能超越OpenAI的地方

帖子 saibaster(神的眷者) »

这里有个最容易免费得到的例子

https://huggingface.co/datasets/legacy- ... /wikipedia

princeton 写了: 2025年 2月 1日 16:48 公开能得到的数据已经是天量了, 那也要去获取吧?DS怎么去获取?难道他们早就把这些数据下载到他们自己的数据中心了?
取诸怀抱
著名写手
著名写手
帖子互动: 6
帖子: 265
注册时间: 2022年 7月 23日 02:46

#24 Re: (转载)迄今最好的介绍deepseek所谓“蒸馏”,以及可能超越OpenAI的地方

帖子 取诸怀抱 »

https://github.com/deepseek-ai/DeepSeek ... ek_R1.pdf
概要
本文介绍了DeepSeek团队开发的第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通过大规模强化学习(RL)训练,未经过监督微调(SFT),展现出强大的推理能力,但在可读性和语言混杂方面存在问题。为解决这些问题,DeepSeek-R1引入了冷启动数据和多阶段训练流程,最终在推理任务上达到与OpenAI-o1-1217相当的性能。此外,团队还通过蒸馏技术将DeepSeek-R1的推理能力转移到较小的密集模型中,开源了多个基于Qwen和Llama的蒸馏模型,这些模型在推理基准测试中表现优异。研究还探讨了通过蒸馏和强化学习提升小型模型推理能力的可能性,并指出了未来研究的方向,包括提升模型的通用能力、解决语言混杂问题、优化提示工程以及提高软件工程任务的性能。
放浪形骸
回复

回到 “STEM”