DeepSeek 训练成本低的真相

ShuiNi

ElonMusk 写了： 2025年 1月 29日 13:00 你的理解是错的。算法本身决定了对数据量的需求，openai的算法，即使用同样蒸馏后的数据，也无法达到目前的水平。

问题的核心不是“openai的算法，即使用同样蒸馏后的数据，能否达到目前的水平”，而是DeepSeek的算法如果不用别的大语言模型的数据，训练达到现有的水平需要的成本到底是多少。

drifter · 帖子由 **drifter** » 2025年 1月 29日 13:50

ShuiNi 写了： 2025年 1月 29日 13:47 问题的核心不是“openai的算法，即使用同样蒸馏后的数据，能否达到目前的水平”，而是DeepSeek的算法如果不用别的大语言模型的数据，训练达到现有的水平需要的成本到底是多少。

问题核心是潘多拉盒子已经打开了大家都可以根据ds的数据再加工
没人关心从零开始的成本了

maxthon · 帖子由 **maxthon** » 2025年 1月 29日 13:52

其实测试这个挺简单的，只要看它后续更新如何，问他与实时信息相关的东西，如果deepseek只敢做微调，而不是持续训练的话，说明它的数据来源是有问题的。

ShuiNi 写了： 2025年 1月 29日 13:47 问题的核心不是“openai的算法，即使用同样蒸馏后的数据，能否达到目前的水平”，而是DeepSeek的算法如果不用别的大语言模型的数据，训练达到现有的水平需要的成本到底是多少。

maxthon · 帖子由 **maxthon** » 2025年 1月 29日 13:55

这是错误的，没有从零开始能力，大模型持续更新下去就会过拟合，泛化能力变差。
只有在某一些更新慢的领域，它才有生存价值。

drifter 写了： 2025年 1月 29日 13:50 问题核心是潘多拉盒子已经打开了大家都可以根据ds的数据再加工
没人关心从零开始的成本了

drifter · 帖子由 **drifter** » 2025年 1月 29日 13:58

maxthon 写了： 2025年 1月 29日 13:55 这是错误的，没有从零开始能力，大模型持续更新下去就会过拟合，泛化能力变差。
只有在某一些更新慢的领域，它才有生存价值。

小startup 以ds为基础针对各种具体场景训练基础不需要多少更新具体场景从0开始数据少成本低

红烛歌楼 · 帖子由 **红烛歌楼** » 2025年 1月 29日 14:03

ShuiNi 写了： 2025年 1月 29日 12:40 就是精馏（distillation）其他大语言模型，尤其是ChatGPT的数据，掺一些原始数据，然后达到 ChatGPT 的水平，说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金，和低品位金矿1：1混合之后去炼金，这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。

原来是这样啊？那么你也可以搜罗chatGPT的成品数据，接近chatGPD，也发布一个，比如：ShuiniGPT,让大家开开眼，你也顺便赚许多银子多好？
当然你可以在大家拿发布，或者袄大利牙，或者英国等国发布，你就成了那国的英雄，再赚一波名人

多好？

cokecoke

其他软件公司如果给DS套个壳卖给客户可行么？比如CRM之流，那可是躺着赚钱啊

drifter · 帖子由 **drifter** » 2025年 1月 29日 14:56

cokecoke 写了： 2025年 1月 29日 14:49 其他软件公司如果给DS套个壳卖给客户可行么？比如CRM之流，那可是躺着赚钱啊

MIT license 想干嘛都可以除非法官干预

cellcycle1 · 帖子由 **cellcycle1** » 2025年 1月 29日 15:26

ShuiNi 写了： 2025年 1月 29日 12:40 就是精馏（distillation）其他大语言模型，尤其是ChatGPT的数据，掺一些原始数据，然后达到 ChatGPT 的水平，说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金，和低品位金矿1：1混合之后去炼金，这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。

据说合法，，，

tfusion · 帖子由 **tfusion** » 2025年 1月 29日 15:43

cellcycle1 写了： 2025年 1月 29日 15:26 据说合法，，，

没有商业前途

人家ChatGPT给你掐了，你就还得自己训练那些数据，没有训练好的给你蒸馏了。一样要花大钱

cellcycle1 · 帖子由 **cellcycle1** » 2025年 1月 29日 15:46

tfusion 写了： 2025年 1月 29日 15:43 没有商业前途

人家ChatGPT给你掐了，你就还得自己训练那些数据，没有训练好的给你蒸馏了。一样要花大钱

互相连着的网遍布是，，能彻底掐了？难吧，会影响自己的服务吧？

比如 vpn 啥的，（俺就知道个这个

）

drifter · 帖子由 **drifter** » 2025年 1月 29日 15:47

tfusion 写了： 2025年 1月 29日 15:43 没有商业前途

人家ChatGPT给你掐了，你就还得自己训练那些数据，没有训练好的给你蒸馏了。一样要花大钱

就好比电脑bootstrap或者BIOS 这些基础不用从零开始而且也不需要太多更新
掐了也没用除非来了个外星人数据包要从零开始

justChat · 帖子由 **justChat** » 2025年 1月 29日 16:36

看了一圈，这个网站知道蒸馏什么意思的，两只手能数过来。

10年的老文章了，又不难。版上那么多数学家。
https://arxiv.org/pdf/1503.02531

bigballz 写了： 2025年 1月 29日 12:46 你丫对ai 理解基本属于文盲级别

纯粹扯尼玛几把蛋

chatgpt 有几把自己的数据吗?

The same OpenAI who allegedly stole content from publications is accusing another AI company of stealing content?

Hilfiger · 帖子由 **Hilfiger** » 2025年 1月 29日 17:17

justChat 写了： 2025年 1月 29日 16:36 看了一圈，这个网站知道蒸馏什么意思的，两只手能数过来。

10年的老文章了，又不难。版上那么多数学家。
https://arxiv.org/pdf/1503.02531

有点像统计上的meta analysis，只不过是对model来做的。按道理不应该效果超过最好的model，除非用了什么新的信息让DS的model能根据不同情况改变权重来选最合适的模型。

fulvshou

justChat 写了： 2025年 1月 29日 16:36 看了一圈，这个网站知道蒸馏什么意思的，两只手能数过来。

10年的老文章了，又不难。版上那么多数学家。
https://arxiv.org/pdf/1503.02531

舒适这些小三偏偏爱望文生义加自己脑补

maxthon · 帖子由 **maxthon** » 2025年 1月 29日 17:36

并不是这样，蒸馏的小模型在训练上是用大模型的概率分布为目标的，但是验证时用真实标签为目标，在特定情况下可以做到结果比大模型要好。
所以，蒸馏的小模型上限并不是大模型。

Hilfiger 写了： 2025年 1月 29日 17:17 有点像统计上的meta analysis，只不过是对model来做的。按道理不应该效果超过最好的model，除非用了什么新的信息让DS的model能根据不同情况改变权重来选最合适的模型。

Otis · 帖子由 **Otis** » 2025年 1月 29日 17:37

不是AI领域的，听上去似乎常规的AI训练是基于大量复杂的数据提取平均结果，但如果先把复杂的数据模型通过compression 变成简单模型，再用于AI训练可以实现更快更好的效果。
不管DS是如何生成的，只从理论上讨论，确实是可以通过层层提取采用被简化优化的数据使训练达到同样的结果。

红烛歌楼 · 帖子由 **红烛歌楼** » 2025年 1月 29日 18:01

Smartguy 写了： 2025年 1月 29日 12:47 1 月 29 日消息，DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。

虽然确切原因未知，但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。

据路透社此前报道，当地时间 1 月 28 日，意大利隐私监管机构 Garante 表示，正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。

Garante 称，希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据，以及是否存储在中国”。

Garante 在一份声明中称，DeepSeek 及其关联公司有 20 天时间作出答复。

好奇那chatGPT就没收集个人数据？当然chatGPT这类app也只是对客观已经存在的信息进行收集处理，然后显示给客户。至于将来会出现什么高新科技的产品，估计也只能一问三不知，让它设计一个最新高能粒子物理试验，估计也只是呵呵

island · 帖子由 **island** » 2025年 1月 29日 18:22

DS的目前的主要价值有三（按重要顺序排列）

1）把美帝吓一激灵。

2）警告大厂们得过且过指定不行了。

3）昭告天下目前的软硬件和算法有极大的优化空间（很多大厂知道但没有动力做优化更谈不上极致的优化）。

maxthon 写了： 2025年 1月 29日 13:55 这是错误的，没有从零开始能力，大模型持续更新下去就会过拟合，泛化能力变差。
只有在某一些更新慢的领域，它才有生存价值。

Mongolian02 · 帖子由 **Mongolian02** » 2025年 1月 29日 21:26

我参与过支国人工智能训练，他们用人海战术，用大学生和兼职人员人工提问题一个问题如果ai 不能回答算成功，给10元到20元不等。

新未名空间

DeepSeek 训练成本低的真相

#21 Re: DeepSeek 训练成本低的真相

#22 Re: DeepSeek 训练成本低的真相

#23 Re: DeepSeek 训练成本低的真相

#24 Re: DeepSeek 训练成本低的真相

#25 Re: DeepSeek 训练成本低的真相

#26 Re: DeepSeek 训练成本低的真相

#27 Re: DeepSeek 训练成本低的真相

#28 Re: DeepSeek 训练成本低的真相

#29 Re: DeepSeek 训练成本低的真相

#30 Re: DeepSeek 训练成本低的真相

#31 Re: DeepSeek 训练成本低的真相

#32 Re: DeepSeek 训练成本低的真相

#33 Re: DeepSeek 训练成本低的真相

#34 Re: DeepSeek 训练成本低的真相

#35 Re: DeepSeek 训练成本低的真相

#36 Re: DeepSeek 训练成本低的真相

#37 Re: DeepSeek 训练成本低的真相

#38 Re: DeepSeek 训练成本低的真相

#39 Re: DeepSeek 训练成本低的真相

#40 Re: DeepSeek 训练成本低的真相