问题的核心不是“openai的算法,即使用同样蒸馏后的数据,能否达到目前的水平”,而是DeepSeek的算法如果不用别的大语言模型的数据,训练达到现有的水平需要的成本到底是多少。
DeepSeek 训练成本低的真相
版主: 牛河梁, alexwlt1024
#21 Re: DeepSeek 训练成本低的真相
x2

标签/Tags:
#22 Re: DeepSeek 训练成本低的真相
问题核心是潘多拉盒子已经打开了 大家都可以根据ds的数据再加工ShuiNi 写了: 2025年 1月 29日 13:47 问题的核心不是“openai的算法,即使用同样蒸馏后的数据,能否达到目前的水平”,而是DeepSeek的算法如果不用别的大语言模型的数据,训练达到现有的水平需要的成本到底是多少。
没人关心从零开始的成本了
#23 Re: DeepSeek 训练成本低的真相
其实测试这个挺简单的,只要看它后续更新如何,问他与实时信息相关的东西,如果deepseek只敢做微调,而不是持续训练的话,说明它的数据来源是有问题的。
ShuiNi 写了: 2025年 1月 29日 13:47 问题的核心不是“openai的算法,即使用同样蒸馏后的数据,能否达到目前的水平”,而是DeepSeek的算法如果不用别的大语言模型的数据,训练达到现有的水平需要的成本到底是多少。
#26 Re: DeepSeek 训练成本低的真相
原来是这样啊?那么你也可以搜罗chatGPT的成品数据,接近chatGPD,也发布一个,比如:ShuiniGPT,让大家开开眼,你也顺便赚许多银子多好?ShuiNi 写了: 2025年 1月 29日 12:40 就是精馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
当然你可以在大家拿发布,或者袄大利牙,或者英国等国发布,你就成了那国的英雄,再赚一波名人
x1

此网站Yesterday 写了: ↑
(得了癌症)复发也可以治,治愈本来就不应该是目标。
得了癌症治疗的目标本来就是不应该治愈,那是啥?还复发也可以治?什么鬼?别说复发,就说第一次被诊断出xxCa.,多少人当场崩溃?还复发可以治?我几个亲戚都是复发了人完了,怎么不治了?推诿回家等S呢?
(得了癌症)复发也可以治,治愈本来就不应该是目标。
得了癌症治疗的目标本来就是不应该治愈,那是啥?还复发也可以治?什么鬼?别说复发,就说第一次被诊断出xxCa.,多少人当场崩溃?还复发可以治?我几个亲戚都是复发了人完了,怎么不治了?推诿回家等S呢?
-
- 论坛元老
cellcycle1 的博客 - 帖子互动: 845
- 帖子: 62903
- 注册时间: 2022年 7月 24日 15:59
#29 Re: DeepSeek 训练成本低的真相
据说合法,,,ShuiNi 写了: 2025年 1月 29日 12:40 就是精馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。

-
- 论坛元老
cellcycle1 的博客 - 帖子互动: 845
- 帖子: 62903
- 注册时间: 2022年 7月 24日 15:59
#33 Re: DeepSeek 训练成本低的真相
看了一圈,这个网站知道蒸馏什么意思的,两只手能数过来。
10年的老文章了,又不难。版上那么多数学家。
https://arxiv.org/pdf/1503.02531
10年的老文章了,又不难。版上那么多数学家。
https://arxiv.org/pdf/1503.02531
bigballz 写了: 2025年 1月 29日 12:46 你丫对ai 理解基本属于文盲级别
纯粹扯尼玛几把蛋
chatgpt 有几把自己的数据吗?
The same OpenAI who allegedly stole content from publications is accusing another AI company of stealing content?![]()
x1

#34 Re: DeepSeek 训练成本低的真相
有点像统计上的meta analysis,只不过是对model来做的。按道理不应该效果超过最好的model,除非用了什么新的信息让DS的model能根据不同情况改变权重来选最合适的模型。justChat 写了: 2025年 1月 29日 16:36 看了一圈,这个网站知道蒸馏什么意思的,两只手能数过来。
10年的老文章了,又不难。版上那么多数学家。
https://arxiv.org/pdf/1503.02531
#35 Re: DeepSeek 训练成本低的真相
舒适这些小三偏偏爱望文生义 加自己脑补justChat 写了: 2025年 1月 29日 16:36 看了一圈,这个网站知道蒸馏什么意思的,两只手能数过来。
10年的老文章了,又不难。版上那么多数学家。
https://arxiv.org/pdf/1503.02531
我是腐驴受 家住恒河边
腐是腐驴的腐呀
受是腐驴受的受
腐是腐驴的腐呀
受是腐驴受的受
#36 Re: DeepSeek 训练成本低的真相
并不是这样,蒸馏的小模型在训练上是用大模型的概率分布为目标的,但是验证时用真实标签为目标,在特定情况下可以做到结果比大模型要好。
所以,蒸馏的小模型上限并不是大模型。
所以,蒸馏的小模型上限并不是大模型。
Hilfiger 写了: 2025年 1月 29日 17:17 有点像统计上的meta analysis,只不过是对model来做的。按道理不应该效果超过最好的model,除非用了什么新的信息让DS的model能根据不同情况改变权重来选最合适的模型。
#37 Re: DeepSeek 训练成本低的真相
不是AI领域的,听上去似乎常规的AI训练是基于大量复杂的数据提取平均结果,但如果先把复杂的数据模型通过compression 变成简单模型,再用于AI训练可以实现更快更好的效果。
不管DS是如何生成的,只从理论上讨论,确实是可以通过层层提取采用被简化优化的数据使训练达到同样的结果。
不管DS是如何生成的,只从理论上讨论,确实是可以通过层层提取采用被简化优化的数据使训练达到同样的结果。
#38 Re: DeepSeek 训练成本低的真相
好奇那chatGPT就没收集个人数据?当然chatGPT这类app也只是对客观已经存在的信息进行收集处理,然后显示给客户。至于将来会出现什么高新科技的产品,估计也只能一问三不知,让它设计一个最新高能粒子物理试验,估计也只是呵呵Smartguy 写了: 2025年 1月 29日 12:47 1 月 29 日消息,DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。
虽然确切原因未知,但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。
据路透社此前报道,当地时间 1 月 28 日,意大利隐私监管机构 Garante 表示,正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。
Garante 称,希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据,以及是否存储在中国”。
Garante 在一份声明中称,DeepSeek 及其关联公司有 20 天时间作出答复。
此网站Yesterday 写了: ↑
(得了癌症)复发也可以治,治愈本来就不应该是目标。
得了癌症治疗的目标本来就是不应该治愈,那是啥?还复发也可以治?什么鬼?别说复发,就说第一次被诊断出xxCa.,多少人当场崩溃?还复发可以治?我几个亲戚都是复发了人完了,怎么不治了?推诿回家等S呢?
(得了癌症)复发也可以治,治愈本来就不应该是目标。
得了癌症治疗的目标本来就是不应该治愈,那是啥?还复发也可以治?什么鬼?别说复发,就说第一次被诊断出xxCa.,多少人当场崩溃?还复发可以治?我几个亲戚都是复发了人完了,怎么不治了?推诿回家等S呢?
#39 Re: DeepSeek 训练成本低的真相
DS的目前的主要价值有三(按重要顺序排列)
1)把美帝吓一激灵。
2)警告大厂们得过且过指定不行了。
3)昭告天下目前的软硬件和算法有极大的优化空间(很多大厂知道但没有动力做优化更谈不上极致的优化)。
1)把美帝吓一激灵。
2)警告大厂们得过且过指定不行了。
3)昭告天下目前的软硬件和算法有极大的优化空间(很多大厂知道但没有动力做优化更谈不上极致的优化)。
x1
x1

