分页: 3 / 4

#41 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 29日 21:29
YL7983
Mongolian02 写了: 2025年 1月 29日 21:26 我参与过支国人工智能训练,他们用人海战术,用大学生和兼职人员人工提问题一个问题如果ai 不能回答算成功,给10元到20元不等。
背答案?

#42 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 29日 21:30
YL7983
还是说这个成本没有算进去?

#43 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 29日 21:39
liufanghe
非IT专业,只是对AI有兴趣
看到当初介绍深度求索介绍时最感兴趣的就是
感觉丫的把算力发挥到了极限,
但没明白她是怎么做到的
看到这个,觉得好像有可能

来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。

在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。

变相绕过了硬件对通信速度的限制。

懂行的说说是这么回事吗

#44 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 29日 22:41
Pegasi
ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。 :lol:

图片
道理是没错,但是DeepSeek把OpenAI给Jailbreak了然后开源出来了,这个打击太大了,留给OpenAI的只有实现AGI了

啥也别说,赶紧下载就完了,每个月交给chatGPT的订阅费都省了

#45 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 30日 08:04
maxthon
这是不可能的,如果这样做就可以提升10倍,那meta的自研芯片也可以做到,nvda的业务就黄了。
deepseek的给出的数据不能完全相信。
liufanghe 写了: 2025年 1月 29日 21:39 非IT专业,只是对AI有兴趣
看到当初介绍深度求索介绍时最感兴趣的就是
感觉丫的把算力发挥到了极限,
但没明白她是怎么做到的
看到这个,觉得好像有可能

来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。

在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。

变相绕过了硬件对通信速度的限制。

懂行的说说是这么回事吗

#46 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 30日 10:23
noktard
五个米不低了

#47 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 30日 10:24
saibaster
文盲老蛆对于蒸馏是什么毫无概念
整个技术名词来显摆


ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。 :lol:

图片

#48 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 30日 11:01
caudillo
ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。 :lol:

图片
差不多
应该也公布处了GPU hour外的cost,比如他们用了多少openai,llama的token来training,

#49 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 30日 12:00
sjtuvincent
牛河梁 写了: 2025年 1月 29日 12:41 名白人。
你和楼主都是糊涂人

#50 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 30日 12:01
牛河梁
sjtuvincent 写了: 2025年 1月 30日 12:00 你和楼主都是糊涂人
老牛只对AGI感兴趣

#51 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 30日 16:03
bsmile
ElonMusk 写了: 2025年 1月 29日 13:00 你的理解是错的。算法本身决定了对数据量的需求,openai的算法,即使用同样蒸馏后的数据,也无法达到目前的水平。
没错,这才是关键,至少计算流程本身是要经过的,所以,就算是同样的训练数据,必然openai比DS要慢,因为现在openai就远远慢于DS

#52 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 30日 22:30
liufanghe
maxthon 写了: 2025年 1月 30日 08:04 这是不可能的,如果这样做就可以提升10倍,那meta的自研芯片也可以做到,nvda的业务就黄了。
deepseek的给出的数据不能完全相信。
Sparsity 是这个吗,如果是那更是AI发展的突破
人本来就不需要所有的信息都分析就能得到结果
现在AI也可以做到了

https://search.app/a49Qdnp8ywGUoPGo6
Apple researchers reveal the secret sauce behind DeepSeek AI | ZDNET https://search.app/a49Qdnp8ywGUoPGo6

#53 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 30日 22:39
Narcotics07
Smartguy 写了: 2025年 1月 29日 12:47 1 月 29 日消息,DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。

虽然确切原因未知,但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。

据路透社此前报道,当地时间 1 月 28 日,意大利隐私监管机构 Garante 表示,正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。

Garante 称,希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据,以及是否存储在中国”。

Garante 在一份声明中称,DeepSeek 及其关联公司有 20 天时间作出答复。
Garante 跟open AI 要了么?

#54 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 31日 11:05
rumenan
中国人2000年前就知道靠围堵是不行嘀。。。
Smartguy 写了: 2025年 1月 29日 12:47 1 月 29 日消息,DeepSeek 应用已从意大利的 Google Play 和苹果 App Store 中下架。

虽然确切原因未知,但猜测可能与意大利隐私监管机构 Garante 此前对 DeepSeek 提出的数据隐私问题有关。

据路透社此前报道,当地时间 1 月 28 日,意大利隐私监管机构 Garante 表示,正要求中国人工智能公司 DeepSeek 提供关于个人数据使用问题的解释。

Garante 称,希望能了解 DeepSeek“收集了哪些个人数据、从哪些来源收集、用于什么目的、基于什么法律依据,以及是否存储在中国”。

Garante 在一份声明中称,DeepSeek 及其关联公司有 20 天时间作出答复。

#55 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 31日 11:07
rumenan
是一个有名的白人吗?
牛河梁 写了: 2025年 1月 29日 12:41 名白人。

#56 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 31日 11:10
fhnan
ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。 :lol:

图片
deepseek是怎么拿练好的纯金的?

#57 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 31日 11:54
liufanghe
目前看到对DeepSeek真实水平最全面客观的分析(图)
新闻来源: 傅里叶的猫/基本常识 2025-01-31

https://www.6parknews.com/newspark/view ... nid=708359

感觉这篇文章很不错,很长

#58 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 31日 14:37
GuGuo
ShuiNi 写了: 2025年 1月 29日 12:53 ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来的,原始数据属于谁可以有争议,ChatGPT 该不该无偿使用可以有争议,但人家好歹是从金矿石里面炼金,跟 DeepSeek 直接拿黄金成品炼金有本质区别。
这个比方是不对的,ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来,但是 是100% 真实的数据
ChatGPT 用户拿到的数据,是AI 的输出,这个数据的质量,也就是你比方的纯度,不见得有现实世界的纯度高,
机器产生的 label, 大多数情况下低于人工的 label 的准确度。

机器产生数据,理论上优点在于它的低 cost,无限性,和无限覆盖性,因为可以产生任意输入的输出
但问题是 Open AI不可能有高速 API 给用户无限,无费用的使用,

#59 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 31日 14:58
fhnan
GuGuo 写了: 2025年 1月 31日 14:37 这个比方是不对的,ChatGPT 的数据是从互联网上浩如烟海的数据中拿出来,但是 是100% 真实的数据
ChatGPT 用户拿到的数据,是AI 的输出,这个数据的质量,也就是你比方的纯度,不见得有现实世界的纯度高,
机器产生的 label, 大多数情况下低于人工的 label 的准确度。

机器产生数据,理论上优点在于它的低 cost,无限性,和无限覆盖性,因为可以产生任意输入的输出
但问题是 Open AI不可能有高速 API 给用户无限,无费用的使用,
有些人就是对自己不懂的问题靠想象也能扯出一大坨。

#60 Re: DeepSeek 训练成本低的真相

发表于 : 2025年 1月 31日 15:05
no4everlove
ShuiNi 写了: 2025年 1月 29日 12:40 就是蒸馏(distillation)其他大语言模型,尤其是ChatGPT的数据,掺一些原始数据,然后达到 ChatGPT 的水平,说自己训练成本低。

这相当于直接拿别人炼好的 99.99% 的纯金,和低品位金矿1:1混合之后去炼金,这样的炼金成本当然比从品位 0.0001% 的低品位金矿里炼黄金的成本要低得多。
----
我老还是太学术了,搞了个炼矿的概念,对非业内人士还是不够直接。还是下图通俗易懂。 :lol:

图片
画的真好 嘻嘻 钓鱼 和 螳螂捕蝉黄雀在后 的意境都有了!