DeepSeek 训练成本低的真相

股市相关讨论

版主: 牛河梁alexwlt1024

头像
YL7983(A Yuan)
论坛点评
论坛点评
帖子互动: 263
帖子: 3140
注册时间: 2022年 10月 12日 13:43

#41 Re: DeepSeek 训练成本低的真相

帖子 YL7983(A Yuan) »

Mongolian02 写了: 2025年 1月 29日 21:26 我参与过支国人工智能训练,他们用人海战术,用大学生和兼职人员人工提问题一个问题如果ai 不能回答算成功,给10元到20元不等。
背答案?
Double squeeze

标签/Tags:
头像
YL7983(A Yuan)
论坛点评
论坛点评
帖子互动: 263
帖子: 3140
注册时间: 2022年 10月 12日 13:43

#42 Re: DeepSeek 训练成本低的真相

帖子 YL7983(A Yuan) »

还是说这个成本没有算进去?
Double squeeze
头像
liufanghe
论坛点评
论坛点评
帖子互动: 185
帖子: 2080
注册时间: 2022年 9月 18日 22:37

#43 Re: DeepSeek 训练成本低的真相

帖子 liufanghe »

非IT专业,只是对AI有兴趣
看到当初介绍深度求索介绍时最感兴趣的就是
感觉丫的把算力发挥到了极限,
但没明白她是怎么做到的
看到这个,觉得好像有可能

来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。

在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。

变相绕过了硬件对通信速度的限制。

懂行的说说是这么回事吗
“Information is power. But like all power, there are those who want to keep it for themselves.” ― Aaron Swartz

在新水木看到的有哲理的回答
月收入 1 万是个什么样的水平?拿的人能接受,看的人说 “活不下去” 的水平。
可怜的美华。上半辈子折腾美国签证,下半辈子折腾中国签证。
头像
Pegasi
知名作家
知名作家
帖子互动: 69
帖子: 1213
注册时间: 2022年 10月 22日 12:50

#44 Re: DeepSeek 训练成本低的真相

帖子 Pegasi »

ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。 :lol:

图片
道理是没错,但是DeepSeek把OpenAI给Jailbreak了然后开源出来了,这个打击太大了,留给OpenAI的只有实现AGI了

啥也别说,赶紧下载就完了,每个月交给chatGPT的订阅费都省了
maxthon
正式写手
正式写手
帖子互动: 19
帖子: 196
注册时间: 2022年 8月 24日 07:57

#45 Re: DeepSeek 训练成本低的真相

帖子 maxthon »

这是不可能的,如果这样做就可以提升10倍,那meta的自研芯片也可以做到,nvda的业务就黄了。
deepseek的给出的数据不能完全相信。
liufanghe 写了: 2025年 1月 29日 21:39 非IT专业,只是对AI有兴趣
看到当初介绍深度求索介绍时最感兴趣的就是
感觉丫的把算力发挥到了极限,
但没明白她是怎么做到的
看到这个,觉得好像有可能

来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。

在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。

变相绕过了硬件对通信速度的限制。

懂行的说说是这么回事吗
头像
noktard
见习点评
见习点评
帖子互动: 244
帖子: 1792
注册时间: 2022年 7月 29日 22:12

#46 Re: DeepSeek 训练成本低的真相

帖子 noktard »

五个米不低了
头像
saibaster(神的眷者)
论坛点评
论坛点评
帖子互动: 244
帖子: 2665
注册时间: 2023年 7月 11日 00:43

#47 Re: DeepSeek 训练成本低的真相

帖子 saibaster(神的眷者) »

文盲老蛆对于蒸馏是什么毫无概念
整个技术名词来显摆


ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。 :lol:

图片
x1 图片
caudillo
正式写手
正式写手
帖子互动: 17
帖子: 162
注册时间: 2023年 6月 28日 11:51

#48 Re: DeepSeek 训练成本低的真相

帖子 caudillo »

ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。 :lol:

图片
差不多
应该也公布处了GPU hour外的cost,比如他们用了多少openai,llama的token来training,
sjtuvincent(环球商务客)
论坛元老
论坛元老
sjtuvincent 的博客
帖子互动: 738
帖子: 34880
注册时间: 2022年 10月 16日 10:31

#49 Re: DeepSeek 训练成本低的真相

帖子 sjtuvincent(环球商务客) »

牛河梁 写了: 2025年 1月 29日 12:41 名白人。
你和楼主都是糊涂人
数字游民信仰AI教!知足绝不驻足,玩勿丧志,数字游民宅在风景里,哪里都不完美都不宜久留
头像
牛河梁(别问我是谁)
论坛元老
论坛元老
2023年度十大优秀网友
2024年度优秀版主
牛河梁 的博客
帖子互动: 1394
帖子: 25673
注册时间: 2022年 11月 17日 21:21
联系:

#50 Re: DeepSeek 训练成本低的真相

帖子 牛河梁(别问我是谁) »

sjtuvincent 写了: 2025年 1月 30日 12:00 你和楼主都是糊涂人
老牛只对AGI感兴趣
bsmile(laobiao)
知名作家
知名作家
帖子互动: 32
帖子: 1228
注册时间: 2022年 8月 8日 21:32

#51 Re: DeepSeek 训练成本低的真相

帖子 bsmile(laobiao) »

ElonMusk 写了: 2025年 1月 29日 13:00 你的理解是错的。算法本身决定了对数据量的需求,openai的算法,即使用同样蒸馏后的数据,也无法达到目前的水平。
没错,这才是关键,至少计算流程本身是要经过的,所以,就算是同样的训练数据,必然openai比DS要慢,因为现在openai就远远慢于DS
头像
liufanghe
论坛点评
论坛点评
帖子互动: 185
帖子: 2080
注册时间: 2022年 9月 18日 22:37

#52 Re: DeepSeek 训练成本低的真相

帖子 liufanghe »

maxthon 写了: 2025年 1月 30日 08:04 这是不可能的,如果这样做就可以提升10倍,那meta的自研芯片也可以做到,nvda的业务就黄了。
deepseek的给出的数据不能完全相信。
Sparsity 是这个吗,如果是那更是AI发展的突破
人本来就不需要所有的信息都分析就能得到结果
现在AI也可以做到了

https://search.app/a49Qdnp8ywGUoPGo6
Apple researchers reveal the secret sauce behind DeepSeek AI | ZDNET https://search.app/a49Qdnp8ywGUoPGo6
“Information is power. But like all power, there are those who want to keep it for themselves.” ― Aaron Swartz

在新水木看到的有哲理的回答
月收入 1 万是个什么样的水平?拿的人能接受,看的人说 “活不下去” 的水平。
可怜的美华。上半辈子折腾美国签证,下半辈子折腾中国签证。
Narcotics07
论坛精英
论坛精英
帖子互动: 340
帖子: 6925
注册时间: 2022年 7月 23日 21:58

#53 Re: DeepSeek 训练成本低的真相

帖子 Narcotics07 »

Smartguy 写了: 2025年 1月 29日 12:47 1 月 29 日消息,DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。

虽然确切原因未知,但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。

据路透社此前报道,当地时间 1 月 28 日,意大利隐私监管机构 Garante 表示,正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。

Garante 称,希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据,以及是否存储在中国”。

Garante 在一份声明中称,DeepSeek 及其关联公司有 20 天时间作出答复。
Garante 跟open AI 要了么?
rumenan
见习写手
见习写手
帖子互动: 24
帖子: 95
注册时间: 2022年 10月 27日 20:00

#54 Re: DeepSeek 训练成本低的真相

帖子 rumenan »

中国人2000年前就知道靠围堵是不行嘀。。。
Smartguy 写了: 2025年 1月 29日 12:47 1 月 29 日消息,DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。

虽然确切原因未知,但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。

据路透社此前报道,当地时间 1 月 28 日,意大利隐私监管机构 Garante 表示,正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。

Garante 称,希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据,以及是否存储在中国”。

Garante 在一份声明中称,DeepSeek 及其关联公司有 20 天时间作出答复。
rumenan
见习写手
见习写手
帖子互动: 24
帖子: 95
注册时间: 2022年 10月 27日 20:00

#55 Re: DeepSeek 训练成本低的真相

帖子 rumenan »

是一个有名的白人吗?
牛河梁 写了: 2025年 1月 29日 12:41 名白人。
fhnan
论坛支柱
论坛支柱
2024年度优秀版主
帖子互动: 497
帖子: 11424
注册时间: 2022年 7月 29日 00:50

#56 Re: DeepSeek 训练成本低的真相

帖子 fhnan »

ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。 :lol:

图片
deepseek是怎么拿练好的纯金的?
买买提纪检委书记 sex版版主
头像
liufanghe
论坛点评
论坛点评
帖子互动: 185
帖子: 2080
注册时间: 2022年 9月 18日 22:37

#57 Re: DeepSeek 训练成本低的真相

帖子 liufanghe »

目前看到对DeepSeek真实水平最全面客观的分析(图)
新闻来源: 傅里叶的猫/基本常识 2025-01-31

https://www.6parknews.com/newspark/view ... nid=708359

感觉这篇文章很不错,很长
“Information is power. But like all power, there are those who want to keep it for themselves.” ― Aaron Swartz

在新水木看到的有哲理的回答
月收入 1 万是个什么样的水平?拿的人能接受,看的人说 “活不下去” 的水平。
可怜的美华。上半辈子折腾美国签证,下半辈子折腾中国签证。
GuGuo(ping)
知名人士
知名人士
帖子互动: 3
帖子: 52
注册时间: 2024年 5月 12日 15:29

#58 Re: DeepSeek 训练成本低的真相

帖子 GuGuo(ping) »

ShuiNi 写了: 2025年 1月 29日 12:53 ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来的,原始数据属于谁可以有争议,ChatGPT 该不该无偿使用可以有争议,但人家好歹是从金矿石里面炼金,跟 DeepSeek 直接拿黄金成品炼金有本质区别。
这个比方是不对的,ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来,但是 是100% 真实的数据
ChatGPT 用户拿到的数据,是AI 的输出,这个数据的质量,也就是你比方的纯度,不见得有现实世界的纯度高,
机器产生的 label, 大多数情况下低于人工的 label 的准确度。

机器产生数据,理论上优点在于它的低 cost,无限性,和无限覆盖性,因为可以产生任意输入的输出
但问题是 Open AI不可能有高速 API 给用户无限,无费用的使用,
fhnan
论坛支柱
论坛支柱
2024年度优秀版主
帖子互动: 497
帖子: 11424
注册时间: 2022年 7月 29日 00:50

#59 Re: DeepSeek 训练成本低的真相

帖子 fhnan »

GuGuo 写了: 2025年 1月 31日 14:37 这个比方是不对的,ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来,但是 是100% 真实的数据
ChatGPT 用户拿到的数据,是AI 的输出,这个数据的质量,也就是你比方的纯度,不见得有现实世界的纯度高,
机器产生的 label, 大多数情况下低于人工的 label 的准确度。

机器产生数据,理论上优点在于它的低 cost,无限性,和无限覆盖性,因为可以产生任意输入的输出
但问题是 Open AI不可能有高速 API 给用户无限,无费用的使用,
有些人就是对自己不懂的问题靠想象也能扯出一大坨。
买买提纪检委书记 sex版版主
no4everlove(有灵魂的塑料花花)
见习作家
见习作家
帖子互动: 22
帖子: 342
注册时间: 2024年 6月 27日 13:23

#60 Re: DeepSeek 训练成本低的真相

帖子 no4everlove(有灵魂的塑料花花) »

ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。 :lol:

图片
画的真好 嘻嘻 钓鱼 和 螳螂捕蝉黄雀在后 的意境都有了!
我只喜欢有趣的灵魂。
回复

回到 “股海弄潮(Stock)”