新未名空间

Mongolian02 写了： 2025年 1月 29日 21:26 我参与过支国人工智能训练，他们用人海战术，用大学生和兼职人员人工提问题一个问题如果ai 不能回答算成功，给10元到20元不等。

背答案？

还是说这个成本没有算进去？

非IT专业，只是对AI有兴趣
看到当初介绍深度求索介绍时最感兴趣的就是
感觉丫的把算力发挥到了极限，
但没明白她是怎么做到的
看到这个，觉得好像有可能

来自Mirae Asset Securities Research（韩国未来资产证券）的分析称，V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。

在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务。

变相绕过了硬件对通信速度的限制。

懂行的说说是这么回事吗

ShuiNi 写了： 2025年 1月 29日 12:40 就是蒸馏（distillation）其他大语言模型，尤其是ChatGPT的数据，掺一些原始数据，然后达到 ChatGPT 的水平，说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金，和低品位金矿1：1混合之后去炼金，这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了，搞了个炼矿的概念，对非业内人士还是不够直接。还是下图通俗易懂。

道理是没错，但是DeepSeek把OpenAI给Jailbreak了然后开源出来了，这个打击太大了，留给OpenAI的只有实现AGI了

啥也别说，赶紧下载就完了，每个月交给chatGPT的订阅费都省了

这是不可能的，如果这样做就可以提升10倍，那meta的自研芯片也可以做到，nvda的业务就黄了。
deepseek的给出的数据不能完全相信。

liufanghe 写了： 2025年 1月 29日 21:39 非IT专业，只是对AI有兴趣
看到当初介绍深度求索介绍时最感兴趣的就是
感觉丫的把算力发挥到了极限，
但没明白她是怎么做到的
看到这个，觉得好像有可能

来自Mirae Asset Securities Research（韩国未来资产证券）的分析称，V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。

在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的20个修改成负责服务器间的通信，而不是计算任务。

变相绕过了硬件对通信速度的限制。

懂行的说说是这么回事吗

五个米不低了

文盲老蛆对于蒸馏是什么毫无概念
整个技术名词来显摆

ShuiNi 写了： 2025年 1月 29日 12:40 就是蒸馏（distillation）其他大语言模型，尤其是ChatGPT的数据，掺一些原始数据，然后达到 ChatGPT 的水平，说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金，和低品位金矿1：1混合之后去炼金，这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了，搞了个炼矿的概念，对非业内人士还是不够直接。还是下图通俗易懂。

ShuiNi 写了： 2025年 1月 29日 12:40 就是蒸馏（distillation）其他大语言模型，尤其是ChatGPT的数据，掺一些原始数据，然后达到 ChatGPT 的水平，说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金，和低品位金矿1：1混合之后去炼金，这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了，搞了个炼矿的概念，对非业内人士还是不够直接。还是下图通俗易懂。

差不多
应该也公布处了GPU hour外的cost，比如他们用了多少openai，llama的token来training,

牛河梁写了： 2025年 1月 29日 12:41 名白人。

你和楼主都是糊涂人

sjtuvincent 写了： 2025年 1月 30日 12:00 你和楼主都是糊涂人

老牛只对AGI感兴趣

ElonMusk 写了： 2025年 1月 29日 13:00 你的理解是错的。算法本身决定了对数据量的需求，openai的算法，即使用同样蒸馏后的数据，也无法达到目前的水平。

没错，这才是关键，至少计算流程本身是要经过的，所以，就算是同样的训练数据，必然openai比DS要慢，因为现在openai就远远慢于DS

maxthon 写了： 2025年 1月 30日 08:04 这是不可能的，如果这样做就可以提升10倍，那meta的自研芯片也可以做到，nvda的业务就黄了。
deepseek的给出的数据不能完全相信。

Sparsity 是这个吗，如果是那更是AI发展的突破
人本来就不需要所有的信息都分析就能得到结果
现在AI也可以做到了

https://search.app/a49Qdnp8ywGUoPGo6
Apple researchers reveal the secret sauce behind DeepSeek AI | ZDNET https://search.app/a49Qdnp8ywGUoPGo6

Smartguy 写了： 2025年 1月 29日 12:47 1 月 29 日消息，DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。

虽然确切原因未知，但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。

据路透社此前报道，当地时间 1 月 28 日，意大利隐私监管机构 Garante 表示，正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。

Garante 称，希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据，以及是否存储在中国”。

Garante 在一份声明中称，DeepSeek 及其关联公司有 20 天时间作出答复。

Garante 跟open AI 要了么？

中国人2000年前就知道靠围堵是不行嘀。。。

Smartguy 写了： 2025年 1月 29日 12:47 1 月 29 日消息，DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。

虽然确切原因未知，但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。

据路透社此前报道，当地时间 1 月 28 日，意大利隐私监管机构 Garante 表示，正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。

Garante 称，希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据，以及是否存储在中国”。

Garante 在一份声明中称，DeepSeek 及其关联公司有 20 天时间作出答复。

是一个有名的白人吗？

牛河梁写了： 2025年 1月 29日 12:41 名白人。

ShuiNi 写了： 2025年 1月 29日 12:40 就是蒸馏（distillation）其他大语言模型，尤其是ChatGPT的数据，掺一些原始数据，然后达到 ChatGPT 的水平，说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金，和低品位金矿1：1混合之后去炼金，这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了，搞了个炼矿的概念，对非业内人士还是不够直接。还是下图通俗易懂。

deepseek是怎么拿练好的纯金的？

目前看到对DeepSeek真实水平最全面客观的分析(图)
新闻来源: 傅里叶的猫/基本常识 2025-01-31

https://www.6parknews.com/newspark/view ... nid=708359

感觉这篇文章很不错，很长

ShuiNi 写了： 2025年 1月 29日 12:53 ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来的，原始数据属于谁可以有争议，ChatGPT 该不该无偿使用可以有争议，但人家好歹是从金矿石里面炼金，跟 DeepSeek 直接拿黄金成品炼金有本质区别。

这个比方是不对的，ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来，但是是100% 真实的数据
ChatGPT 用户拿到的数据，是AI 的输出，这个数据的质量，也就是你比方的纯度，不见得有现实世界的纯度高，
机器产生的 label, 大多数情况下低于人工的 label 的准确度。

机器产生数据，理论上优点在于它的低 cost，无限性，和无限覆盖性，因为可以产生任意输入的输出
但问题是 Open AI不可能有高速 API 给用户无限，无费用的使用，

GuGuo 写了： 2025年 1月 31日 14:37 这个比方是不对的，ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来，但是是100% 真实的数据
ChatGPT 用户拿到的数据，是AI 的输出，这个数据的质量，也就是你比方的纯度，不见得有现实世界的纯度高，
机器产生的 label, 大多数情况下低于人工的 label 的准确度。

机器产生数据，理论上优点在于它的低 cost，无限性，和无限覆盖性，因为可以产生任意输入的输出
但问题是 Open AI不可能有高速 API 给用户无限，无费用的使用，

有些人就是对自己不懂的问题靠想象也能扯出一大坨。

ShuiNi 写了： 2025年 1月 29日 12:40 就是蒸馏（distillation）其他大语言模型，尤其是ChatGPT的数据，掺一些原始数据，然后达到 ChatGPT 的水平，说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金，和低品位金矿1：1混合之后去炼金，这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了，搞了个炼矿的概念，对非业内人士还是不够直接。还是下图通俗易懂。

画的真好嘻嘻钓鱼和螳螂捕蝉黄雀在后的意境都有了！

新未名空间

DeepSeek 训练成本低的真相

#41 Re: DeepSeek 训练成本低的真相

#42 Re: DeepSeek 训练成本低的真相

#43 Re: DeepSeek 训练成本低的真相

#44 Re: DeepSeek 训练成本低的真相

#45 Re: DeepSeek 训练成本低的真相

#46 Re: DeepSeek 训练成本低的真相

#47 Re: DeepSeek 训练成本低的真相

#48 Re: DeepSeek 训练成本低的真相

#49 Re: DeepSeek 训练成本低的真相

#50 Re: DeepSeek 训练成本低的真相

#51 Re: DeepSeek 训练成本低的真相

#52 Re: DeepSeek 训练成本低的真相

#53 Re: DeepSeek 训练成本低的真相

#54 Re: DeepSeek 训练成本低的真相

#55 Re: DeepSeek 训练成本低的真相

#56 Re: DeepSeek 训练成本低的真相

#57 Re: DeepSeek 训练成本低的真相

#58 Re: DeepSeek 训练成本低的真相

#59 Re: DeepSeek 训练成本低的真相

#60 Re: DeepSeek 训练成本低的真相