#41 Re: DeepSeek 训练成本低的真相
发表于 : 2025年 1月 29日 21:29
背答案?
背答案?
道理是没错,但是DeepSeek把OpenAI给Jailbreak了然后开源出来了,这个打击太大了,留给OpenAI的只有实现AGI了ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。![]()
![]()
liufanghe 写了: 2025年 1月 29日 21:39 非IT专业,只是对AI有兴趣
看到当初介绍深度求索介绍时最感兴趣的就是
感觉丫的把算力发挥到了极限,
但没明白她是怎么做到的
看到这个,觉得好像有可能
来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。
在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。
变相绕过了硬件对通信速度的限制。
懂行的说说是这么回事吗
ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。![]()
![]()
差不多ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。![]()
![]()
老牛只对AGI感兴趣
没错,这才是关键,至少计算流程本身是要经过的,所以,就算是同样的训练数据,必然openai比DS要慢,因为现在openai就远远慢于DS
Sparsity 是这个吗,如果是那更是AI发展的突破maxthon 写了: 2025年 1月 30日 08:04 这是不可能的,如果这样做就可以提升10倍,那meta的自研芯片也可以做到,nvda的业务就黄了。
deepseek的给出的数据不能完全相信。
Garante 跟open AI 要了么?Smartguy 写了: 2025年 1月 29日 12:47 1 月 29 日消息,DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。
虽然确切原因未知,但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。
据路透社此前报道,当地时间 1 月 28 日,意大利隐私监管机构 Garante 表示,正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。
Garante 称,希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据,以及是否存储在中国”。
Garante 在一份声明中称,DeepSeek 及其关联公司有 20 天时间作出答复。
Smartguy 写了: 2025年 1月 29日 12:47 1 月 29 日消息,DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。
虽然确切原因未知,但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。
据路透社此前报道,当地时间 1 月 28 日,意大利隐私监管机构 Garante 表示,正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。
Garante 称,希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据,以及是否存储在中国”。
Garante 在一份声明中称,DeepSeek 及其关联公司有 20 天时间作出答复。
deepseek是怎么拿练好的纯金的?ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。![]()
![]()
这个比方是不对的,ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来,但是 是100% 真实的数据ShuiNi 写了: 2025年 1月 29日 12:53 ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来的,原始数据属于谁可以有争议,ChatGPT 该不该无偿使用可以有争议,但人家好歹是从金矿石里面炼金,跟 DeepSeek 直接拿黄金成品炼金有本质区别。
有些人就是对自己不懂的问题靠想象也能扯出一大坨。GuGuo 写了: 2025年 1月 31日 14:37 这个比方是不对的,ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来,但是 是100% 真实的数据
ChatGPT 用户拿到的数据,是AI 的输出,这个数据的质量,也就是你比方的纯度,不见得有现实世界的纯度高,
机器产生的 label, 大多数情况下低于人工的 label 的准确度。
机器产生数据,理论上优点在于它的低 cost,无限性,和无限覆盖性,因为可以产生任意输入的输出
但问题是 Open AI不可能有高速 API 给用户无限,无费用的使用,
画的真好 嘻嘻 钓鱼 和 螳螂捕蝉黄雀在后 的意境都有了!ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。
这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。![]()
![]()