背答案?
DeepSeek 训练成本低的真相
版主: 牛河梁, alexwlt1024
#43 Re: DeepSeek 训练成本低的真相
非IT专业,只是对AI有兴趣
看到当初介绍深度求索介绍时最感兴趣的就是
感觉丫的把算力发挥到了极限,
但没明白她是怎么做到的
看到这个,觉得好像有可能
来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。
在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。
变相绕过了硬件对通信速度的限制。
懂行的说说是这么回事吗
看到当初介绍深度求索介绍时最感兴趣的就是
感觉丫的把算力发挥到了极限,
但没明白她是怎么做到的
看到这个,觉得好像有可能
来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。
在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。
变相绕过了硬件对通信速度的限制。
懂行的说说是这么回事吗
“Information is power. But like all power, there are those who want to keep it for themselves.” ― Aaron Swartz
在新水木看到的有哲理的回答
月收入 1 万是个什么样的水平?拿的人能接受,看的人说 “活不下去” 的水平。
可怜的美华。上半辈子折腾美国签证,下半辈子折腾中国签证。
在新水木看到的有哲理的回答
月收入 1 万是个什么样的水平?拿的人能接受,看的人说 “活不下去” 的水平。
可怜的美华。上半辈子折腾美国签证,下半辈子折腾中国签证。
#44 Re: DeepSeek 训练成本低的真相
道理是没错,但是DeepSeek把OpenAI给Jailbreak了然后开源出来了,这个打击太大了,留给OpenAI的只有实现AGI了ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。![]()
![]()
啥也别说,赶紧下载就完了,每个月交给chatGPT的订阅费都省了
#45 Re: DeepSeek 训练成本低的真相
这是不可能的,如果这样做就可以提升10倍,那meta的自研芯片也可以做到,nvda的业务就黄了。
deepseek的给出的数据不能完全相信。
deepseek的给出的数据不能完全相信。
liufanghe 写了: 2025年 1月 29日 21:39 非IT专业,只是对AI有兴趣
看到当初介绍深度求索介绍时最感兴趣的就是
感觉丫的把算力发挥到了极限,
但没明白她是怎么做到的
看到这个,觉得好像有可能
来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。
在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。
变相绕过了硬件对通信速度的限制。
懂行的说说是这么回事吗
#47 Re: DeepSeek 训练成本低的真相
文盲老蛆对于蒸馏是什么毫无概念
整个技术名词来显摆
整个技术名词来显摆
ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。![]()
![]()
x1

#48 Re: DeepSeek 训练成本低的真相
差不多ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。![]()
![]()
应该也公布处了GPU hour外的cost,比如他们用了多少openai,llama的token来training,
-
- 论坛元老
sjtuvincent 的博客 - 帖子互动: 738
- 帖子: 34880
- 注册时间: 2022年 10月 16日 10:31
#52 Re: DeepSeek 训练成本低的真相
Sparsity 是这个吗,如果是那更是AI发展的突破maxthon 写了: 2025年 1月 30日 08:04 这是不可能的,如果这样做就可以提升10倍,那meta的自研芯片也可以做到,nvda的业务就黄了。
deepseek的给出的数据不能完全相信。
人本来就不需要所有的信息都分析就能得到结果
现在AI也可以做到了
https://search.app/a49Qdnp8ywGUoPGo6
Apple researchers reveal the secret sauce behind DeepSeek AI | ZDNET https://search.app/a49Qdnp8ywGUoPGo6
“Information is power. But like all power, there are those who want to keep it for themselves.” ― Aaron Swartz
在新水木看到的有哲理的回答
月收入 1 万是个什么样的水平?拿的人能接受,看的人说 “活不下去” 的水平。
可怜的美华。上半辈子折腾美国签证,下半辈子折腾中国签证。
在新水木看到的有哲理的回答
月收入 1 万是个什么样的水平?拿的人能接受,看的人说 “活不下去” 的水平。
可怜的美华。上半辈子折腾美国签证,下半辈子折腾中国签证。
#53 Re: DeepSeek 训练成本低的真相
Garante 跟open AI 要了么?Smartguy 写了: 2025年 1月 29日 12:47 1 月 29 日消息,DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。
虽然确切原因未知,但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。
据路透社此前报道,当地时间 1 月 28 日,意大利隐私监管机构 Garante 表示,正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。
Garante 称,希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据,以及是否存储在中国”。
Garante 在一份声明中称,DeepSeek 及其关联公司有 20 天时间作出答复。
#54 Re: DeepSeek 训练成本低的真相
中国人2000年前就知道靠围堵是不行嘀。。。
Smartguy 写了: 2025年 1月 29日 12:47 1 月 29 日消息,DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。
虽然确切原因未知,但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。
据路透社此前报道,当地时间 1 月 28 日,意大利隐私监管机构 Garante 表示,正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。
Garante 称,希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据,以及是否存储在中国”。
Garante 在一份声明中称,DeepSeek 及其关联公司有 20 天时间作出答复。
#56 Re: DeepSeek 训练成本低的真相
deepseek是怎么拿练好的纯金的?ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。![]()
![]()
买买提纪检委书记 sex版版主
#57 Re: DeepSeek 训练成本低的真相
目前看到对DeepSeek真实水平最全面客观的分析(图)
新闻来源: 傅里叶的猫/基本常识 2025-01-31
https://www.6parknews.com/newspark/view ... nid=708359
感觉这篇文章很不错,很长
新闻来源: 傅里叶的猫/基本常识 2025-01-31
https://www.6parknews.com/newspark/view ... nid=708359
感觉这篇文章很不错,很长
“Information is power. But like all power, there are those who want to keep it for themselves.” ― Aaron Swartz
在新水木看到的有哲理的回答
月收入 1 万是个什么样的水平?拿的人能接受,看的人说 “活不下去” 的水平。
可怜的美华。上半辈子折腾美国签证,下半辈子折腾中国签证。
在新水木看到的有哲理的回答
月收入 1 万是个什么样的水平?拿的人能接受,看的人说 “活不下去” 的水平。
可怜的美华。上半辈子折腾美国签证,下半辈子折腾中国签证。
#58 Re: DeepSeek 训练成本低的真相
这个比方是不对的,ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来,但是 是100% 真实的数据ShuiNi 写了: 2025年 1月 29日 12:53 ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来的,原始数据属于谁可以有争议,ChatGPT 该不该无偿使用可以有争议,但人家好歹是从金矿石里面炼金,跟 DeepSeek 直接拿黄金成品炼金有本质区别。
ChatGPT 用户拿到的数据,是AI 的输出,这个数据的质量,也就是你比方的纯度,不见得有现实世界的纯度高,
机器产生的 label, 大多数情况下低于人工的 label 的准确度。
机器产生数据,理论上优点在于它的低 cost,无限性,和无限覆盖性,因为可以产生任意输入的输出
但问题是 Open AI不可能有高速 API 给用户无限,无费用的使用,
#59 Re: DeepSeek 训练成本低的真相
有些人就是对自己不懂的问题靠想象也能扯出一大坨。GuGuo 写了: 2025年 1月 31日 14:37 这个比方是不对的,ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来,但是 是100% 真实的数据
ChatGPT 用户拿到的数据,是AI 的输出,这个数据的质量,也就是你比方的纯度,不见得有现实世界的纯度高,
机器产生的 label, 大多数情况下低于人工的 label 的准确度。
机器产生数据,理论上优点在于它的低 cost,无限性,和无限覆盖性,因为可以产生任意输入的输出
但问题是 Open AI不可能有高速 API 给用户无限,无费用的使用,
买买提纪检委书记 sex版版主
#60 Re: DeepSeek 训练成本低的真相
画的真好 嘻嘻 钓鱼 和 螳螂捕蝉黄雀在后 的意境都有了!ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。![]()
![]()
我只喜欢有趣的灵魂。