DeepSeek 训练成本低的真相

股市相关讨论

版主: 牛河梁alexwlt1024

ShuiNi(水泥)楼主
见习点评
见习点评
帖子互动: 341
帖子: 1808
注册时间: 2024年 4月 10日 14:22

#21 Re: DeepSeek 训练成本低的真相

帖子 ShuiNi(水泥)楼主 »

ElonMusk 写了: 2025年 1月 29日 13:00 你的理解是错的。算法本身决定了对数据量的需求,openai的算法,即使用同样蒸馏后的数据,也无法达到目前的水平。
问题的核心不是“openai的算法,即使用同样蒸馏后的数据,能否达到目前的水平”,而是DeepSeek的算法如果不用别的大语言模型的数据,训练达到现有的水平需要的成本到底是多少。
x2 图片

标签/Tags:
drifter
论坛精英
论坛精英
帖子互动: 396
帖子: 6858
注册时间: 2022年 9月 1日 04:17

#22 Re: DeepSeek 训练成本低的真相

帖子 drifter »

ShuiNi 写了: 2025年 1月 29日 13:47 问题的核心不是“openai的算法,即使用同样蒸馏后的数据,能否达到目前的水平”,而是DeepSeek的算法如果不用别的大语言模型的数据,训练达到现有的水平需要的成本到底是多少。
问题核心是潘多拉盒子已经打开了 大家都可以根据ds的数据再加工
没人关心从零开始的成本了
maxthon
正式写手
正式写手
帖子互动: 19
帖子: 196
注册时间: 2022年 8月 24日 07:57

#23 Re: DeepSeek 训练成本低的真相

帖子 maxthon »

其实测试这个挺简单的,只要看它后续更新如何,问他与实时信息相关的东西,如果deepseek只敢做微调,而不是持续训练的话,说明它的数据来源是有问题的。
ShuiNi 写了: 2025年 1月 29日 13:47 问题的核心不是“openai的算法,即使用同样蒸馏后的数据,能否达到目前的水平”,而是DeepSeek的算法如果不用别的大语言模型的数据,训练达到现有的水平需要的成本到底是多少。
maxthon
正式写手
正式写手
帖子互动: 19
帖子: 196
注册时间: 2022年 8月 24日 07:57

#24 Re: DeepSeek 训练成本低的真相

帖子 maxthon »

这是错误的,没有从零开始能力,大模型持续更新下去就会过拟合,泛化能力变差。
只有在某一些更新慢的领域,它才有生存价值。
drifter 写了: 2025年 1月 29日 13:50 问题核心是潘多拉盒子已经打开了 大家都可以根据ds的数据再加工
没人关心从零开始的成本了
drifter
论坛精英
论坛精英
帖子互动: 396
帖子: 6858
注册时间: 2022年 9月 1日 04:17

#25 Re: DeepSeek 训练成本低的真相

帖子 drifter »

maxthon 写了: 2025年 1月 29日 13:55 这是错误的,没有从零开始能力,大模型持续更新下去就会过拟合,泛化能力变差。
只有在某一些更新慢的领域,它才有生存价值。
小startup 以ds为基础 针对各种具体场景训练 基础不需要多少更新 具体场景从0开始 数据少 成本低
红烛歌楼
见习点评
见习点评
帖子互动: 90
帖子: 2006
注册时间: 2024年 9月 18日 21:29

#26 Re: DeepSeek 训练成本低的真相

帖子 红烛歌楼 »

ShuiNi 写了: 2025年 1月 29日 12:40 就是精馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
原来是这样啊?那么你也可以搜罗chatGPT的成品数据,接近chatGPD,也发布一个,比如:ShuiniGPT,让大家开开眼,你也顺便赚许多银子多好?
当然你可以在大家拿发布,或者袄大利牙,或者英国等国发布,你就成了那国的英雄,再赚一波名人💰多好?
x1 图片
此网站Yesterday 写了: ↑
(得了癌症)复发也可以治,治愈本来就不应该是目标。
得了癌症治疗的目标本来就是不应该治愈,那是啥?还复发也可以治?什么鬼?别说复发,就说第一次被诊断出xxCa.,多少人当场崩溃?还复发可以治?我几个亲戚都是复发了人完了,怎么不治了?推诿回家等S呢?
cokecoke(bbscoke)
论坛精英
论坛精英
帖子互动: 310
帖子: 7849
注册时间: 2022年 9月 9日 15:41

#27 Re: DeepSeek 训练成本低的真相

帖子 cokecoke(bbscoke) »

其他软件公司如果给DS套个壳卖给客户可行么?比如CRM之流,那可是躺着赚钱啊
x1 图片
drifter
论坛精英
论坛精英
帖子互动: 396
帖子: 6858
注册时间: 2022年 9月 1日 04:17

#28 Re: DeepSeek 训练成本低的真相

帖子 drifter »

cokecoke 写了: 2025年 1月 29日 14:49 其他软件公司如果给DS套个壳卖给客户可行么?比如CRM之流,那可是躺着赚钱啊
MIT license 想干嘛都可以 除非法官干预
cellcycle1
论坛元老
论坛元老
cellcycle1 的博客
帖子互动: 845
帖子: 62903
注册时间: 2022年 7月 24日 15:59

#29 Re: DeepSeek 训练成本低的真相

帖子 cellcycle1 »

ShuiNi 写了: 2025年 1月 29日 12:40 就是精馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
据说合法,,, :(
头像
tfusion
论坛支柱
论坛支柱
帖子互动: 677
帖子: 9001
注册时间: 2022年 7月 25日 15:42

#30 Re: DeepSeek 训练成本低的真相

帖子 tfusion »

cellcycle1 写了: 2025年 1月 29日 15:26 据说合法,,, :(
没有商业前途

人家ChatGPT给你掐了,你就还得自己训练那些数据,没有训练好的给你蒸馏了。一样要花大钱
cellcycle1
论坛元老
论坛元老
cellcycle1 的博客
帖子互动: 845
帖子: 62903
注册时间: 2022年 7月 24日 15:59

#31 Re: DeepSeek 训练成本低的真相

帖子 cellcycle1 »

tfusion 写了: 2025年 1月 29日 15:43 没有商业前途

人家ChatGPT给你掐了,你就还得自己训练那些数据,没有训练好的给你蒸馏了。一样要花大钱
互相连着的网遍布是,,能彻底掐了?难吧,会影响自己的 服务吧?

比如 vpn 啥的, (俺就知道个这个 :)
drifter
论坛精英
论坛精英
帖子互动: 396
帖子: 6858
注册时间: 2022年 9月 1日 04:17

#32 Re: DeepSeek 训练成本低的真相

帖子 drifter »

tfusion 写了: 2025年 1月 29日 15:43 没有商业前途

人家ChatGPT给你掐了,你就还得自己训练那些数据,没有训练好的给你蒸馏了。一样要花大钱
就好比电脑bootstrap或者BIOS 这些基础不用从零开始 而且也不需要太多更新
掐了也没用 除非来了个外星人数据包 要从零开始
justChat
职业作家
职业作家
帖子互动: 106
帖子: 709
注册时间: 2023年 10月 19日 16:33

#33 Re: DeepSeek 训练成本低的真相

帖子 justChat »

看了一圈,这个网站知道蒸馏什么意思的,两只手能数过来。

10年的老文章了,又不难。版上那么多数学家。
https://arxiv.org/pdf/1503.02531
bigballz 写了: 2025年 1月 29日 12:46 你丫对ai 理解基本属于文盲级别

纯粹扯尼玛几把蛋

chatgpt 有几把自己的数据吗?

The same OpenAI who allegedly stole content from publications is accusing another AI company of stealing content? 😂
x1 图片
Hilfiger
知名作家
知名作家
帖子互动: 79
帖子: 1197
注册时间: 2022年 7月 26日 09:12

#34 Re: DeepSeek 训练成本低的真相

帖子 Hilfiger »

justChat 写了: 2025年 1月 29日 16:36 看了一圈,这个网站知道蒸馏什么意思的,两只手能数过来。

10年的老文章了,又不难。版上那么多数学家。
https://arxiv.org/pdf/1503.02531
有点像统计上的meta analysis,只不过是对model来做的。按道理不应该效果超过最好的model,除非用了什么新的信息让DS的model能根据不同情况改变权重来选最合适的模型。
fulvshou(腐驴受)
论坛元老
论坛元老
帖子互动: 540
帖子: 24704
注册时间: 2022年 8月 26日 20:30

#35 Re: DeepSeek 训练成本低的真相

帖子 fulvshou(腐驴受) »

justChat 写了: 2025年 1月 29日 16:36 看了一圈,这个网站知道蒸馏什么意思的,两只手能数过来。

10年的老文章了,又不难。版上那么多数学家。
https://arxiv.org/pdf/1503.02531
舒适这些小三偏偏爱望文生义 加自己脑补
我是腐驴受 家住恒河边
腐是腐驴的腐呀
受是腐驴受的受
maxthon
正式写手
正式写手
帖子互动: 19
帖子: 196
注册时间: 2022年 8月 24日 07:57

#36 Re: DeepSeek 训练成本低的真相

帖子 maxthon »

并不是这样,蒸馏的小模型在训练上是用大模型的概率分布为目标的,但是验证时用真实标签为目标,在特定情况下可以做到结果比大模型要好。
所以,蒸馏的小模型上限并不是大模型。
Hilfiger 写了: 2025年 1月 29日 17:17 有点像统计上的meta analysis,只不过是对model来做的。按道理不应该效果超过最好的model,除非用了什么新的信息让DS的model能根据不同情况改变权重来选最合适的模型。
Otis
著名写手
著名写手
帖子互动: 24
帖子: 210
注册时间: 2023年 7月 9日 17:03

#37 Re: DeepSeek 训练成本低的真相

帖子 Otis »

不是AI领域的,听上去似乎常规的AI训练是基于大量复杂的数据提取平均结果,但如果先把复杂的数据模型通过compression 变成简单模型,再用于AI训练可以实现更快更好的效果。
不管DS是如何生成的,只从理论上讨论,确实是可以通过层层提取采用被简化优化的数据使训练达到同样的结果。
红烛歌楼
见习点评
见习点评
帖子互动: 90
帖子: 2006
注册时间: 2024年 9月 18日 21:29

#38 Re: DeepSeek 训练成本低的真相

帖子 红烛歌楼 »

Smartguy 写了: 2025年 1月 29日 12:47 1 月 29 日消息,DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。

虽然确切原因未知,但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。

据路透社此前报道,当地时间 1 月 28 日,意大利隐私监管机构 Garante 表示,正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。

Garante 称,希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据,以及是否存储在中国”。

Garante 在一份声明中称,DeepSeek 及其关联公司有 20 天时间作出答复。
好奇那chatGPT就没收集个人数据?当然chatGPT这类app也只是对客观已经存在的信息进行收集处理,然后显示给客户。至于将来会出现什么高新科技的产品,估计也只能一问三不知,让它设计一个最新高能粒子物理试验,估计也只是呵呵
此网站Yesterday 写了: ↑
(得了癌症)复发也可以治,治愈本来就不应该是目标。
得了癌症治疗的目标本来就是不应该治愈,那是啥?还复发也可以治?什么鬼?别说复发,就说第一次被诊断出xxCa.,多少人当场崩溃?还复发可以治?我几个亲戚都是复发了人完了,怎么不治了?推诿回家等S呢?
island
知名作家
知名作家
帖子互动: 52
帖子: 838
注册时间: 2022年 9月 3日 23:14

#39 Re: DeepSeek 训练成本低的真相

帖子 island »

DS的目前的主要价值有三(按重要顺序排列)

1)把美帝吓一激灵。

2)警告大厂们得过且过指定不行了。

3)昭告天下目前的软硬件和算法有极大的优化空间(很多大厂知道但没有动力做优化更谈不上极致的优化)。

maxthon 写了: 2025年 1月 29日 13:55 这是错误的,没有从零开始能力,大模型持续更新下去就会过拟合,泛化能力变差。
只有在某一些更新慢的领域,它才有生存价值。
x1 图片 x1 图片
Mongolian02
见习点评
见习点评
帖子互动: 70
帖子: 1720
注册时间: 2022年 8月 31日 20:35

#40 Re: DeepSeek 训练成本低的真相

帖子 Mongolian02 »

我参与过支国人工智能训练,他们用人海战术,用大学生和兼职人员人工提问题一个问题如果ai 不能回答算成功,给10元到20元不等。
x2 图片
回复

回到 “股海弄潮(Stock)”