deepseek 把GPU需求倒退会A100时代

jiml · 帖子由 **jiml楼主** » 2025年 2月 1日 01:29

deepseek对算力的要求大约是openAI的 1/16

deepseek让ai计算中心瞬间冗余出来15/16的算力，原来1片英伟达b200做的事，现在1片a100可以做到了

嗯，英伟达股票还得跌，跌回a100时代，或者跌至最高点的1/16，一股10刀乐。难怪啊，老黄一语不发，保持沉默

赖美豪中

如果主要靠蒸馏，gpu需求几乎为0，大部分interference都是用CPU或者asic

jiml 写了： 2025年 2月 1日 01:29 deepseek对算力的要求大约是openAI的 1/16

deepseek让ai计算中心瞬间冗余出来15/16的算力，原来1片英伟达b200做的事，现在1片a100可以做到了

嗯，英伟达股票还得跌，跌回a100时代，或者跌至最高点的1/16，一股10刀乐。难怪啊，老黄一语不发，保持沉默

robot2022 · 帖子由 **robot2022（R）** » 2025年 2月 1日 08:24

啥逻辑啊
以前n个小公司有需求，现在10n个有
话说Ds到底用了多少？不是他们有从新加坡买的吗

biggestballs

robot2022 写了： 2025年 2月 1日 08:24 啥逻辑啊
以前n个小公司有需求，现在10n个有
话说Ds到底用了多少？不是他们有从新加坡买的吗

就算需求增加，也不需要那么高端的芯片了，利润空间缩小

就好比伦敦飞纽约，协和式3小时到，普通飞机8小时，但协和式机票是普通飞机的3倍价格，你说一般人会怎么选？GPU很烧钱的，能省则省

robot2022 · 帖子由 **robot2022（R）** » 2025年 2月 1日 08:32

biggestballs 写了： 2025年 2月 1日 08:31 就算需求增加，也不需要那么高端的芯片了，利润空间缩小

就好比伦敦飞纽约，协和式3小时到，普通飞机8小时，但协和式机票是普通飞机的3倍价格，你说一般人会怎么选？GPU很烧钱的，能省则省

以前只能伦敦飞纽约
现在伦敦飞中国？

biggestballs

robot2022 写了： 2025年 2月 1日 08:32 以前只能伦敦飞纽约
现在伦敦飞中国？

说是要重返市场，不知道猴年马月

Dididada

robot2022 写了： 2025年 2月 1日 08:24 啥逻辑啊
以前n个小公司有需求，现在10n个有
话说Ds到底用了多少？不是他们有从新加坡买的吗

问题是这个DS有没有说实话？比如它到底用了多少GPU？它开发出来的成本只有不到6million 美刀？

据说它在2021年前就至少拥有10000块女大显卡了。

biggestballs

Dididada 写了： 2025年 2月 1日 08:47 问题是这个DS有没有说实话？比如它到底用了多少GPU？它开发出来的成本只有不到6million 美刀？

据说它在2021年前就至少拥有10000块女大显卡了。

给你们这些非科班的简单解释就是：是训练时的强化学习和蒸馏模型省的成本，且业界普遍接受了这一事实

用了多少GPU已经不重要了，你用它的算法你也能省，这个已经没有争议了

另外知识蒸馏不是DeepSeek原创的，2014年就被提出了，DeepSeek只是把它用到了最受益的场景下

mmking · 帖子由 **mmking（上水）** » 2025年 2月 1日 08:55

那倒不一定

以前gpu紧张，就像1980年用电脑一样，后来电脑普及了，大家会做更多的事儿

不过女大的好日子要开始变少了

jiml 写了： 2025年 2月 1日 01:29 deepseek对算力的要求大约是openAI的 1/16

deepseek让ai计算中心瞬间冗余出来15/16的算力，原来1片英伟达b200做的事，现在1片a100可以做到了

嗯，英伟达股票还得跌，跌回a100时代，或者跌至最高点的1/16，一股10刀乐。难怪啊，老黄一语不发，保持沉默

Dididada

biggestballs 写了： 2025年 2月 1日 08:53 给你们这些非科班的简单解释就是：是训练时的强化学习和蒸馏模型省的成本，且业界普遍接受了这一事实

用了多少GPU已经不重要了，你用它的算法你也能省，这个已经没有争议了

那为什么其他做AI的企业没有走DS这条路？不懂就问，谢谢解惑。

biggestballs

Dididada 写了： 2025年 2月 1日 08:56 那为什么其他做AI的企业没有走DS这条路？不懂就问，谢谢解惑。

现在不是可以走了吗，总要有第一个吃螃蟹的，只是碰巧这次是天朝

引述网络的直接回答：“DeepSeek的一项创新是开辟了从一个更大、更强大的模型中获取相对较少的数据样本（不到一百万个）来显著提高较小模型能力的思路。这一新思路可能引来大量初创公司的效仿。”

赖美豪中

当然都用啊，但是人家都是用自己的模型蒸馏，比如网页版o1-mini就是gpt4的蒸馏，只有区区8b参数，性能远低于4o，但是deepshit通过逆向工程去把市面上所有的开源蒸馏完了还蒸馏gpt，这是一个他娘的创举，lol

Dididada 写了： 2025年 2月 1日 08:56 那为什么其他做AI的企业没有走DS这条路？不懂就问，谢谢解惑。

Dididada

biggestballs 写了： 2025年 2月 1日 09:07 现在不是可以走了吗，总要有第一个吃螃蟹的，只是碰巧这次是天朝

引述网络的直接回答：“DeepSeek的一项创新是开辟了从一个更大、更强大的模型中获取相对较少的数据样本（不到一百万个）来显著提高较小模型能力的思路。这一新思路可能引来大量初创公司的效仿。”

我看有新闻说openai允许做研究的人这么做，但是不能用这种方法来开发竞争产品。那这是不是实际情况？如果是这样，那岂不是说DS很无耻？

Dididada

赖美豪中写了： 2025年 2月 1日 09:09 当然都用啊，但是人家都是用自己的模型蒸馏，比如网页版o1-mini就是gpt4的蒸馏，只有区区8b参数，性能远低于4o，但是deepshit通过逆向工程去把市面上所有的开源蒸馏完了还蒸馏gpt，这是一个他娘的创举，lol

所以DS就是光明正大的去偷，而且还大言不惭的说我就偷你的了，怎么着？你来咬我啊？

GAGAMA · 帖子由 **GAGAMA** » 2025年 2月 1日 09:16

我要是老黄我也不会反驳

这种假设应用需求不变，效率提高100倍，所以得出结论算力需求只要原来1/100的逻辑，在众多文科product managers里面确实比较流行

举个例子，曾今有一堆科学家根据人类技术发展速度，预测2000年起全世界就再也不会有饥荒

jiml 写了： 2025年 2月 1日 01:29 deepseek对算力的要求大约是openAI的 1/16

deepseek让ai计算中心瞬间冗余出来15/16的算力，原来1片英伟达b200做的事，现在1片a100可以做到了

嗯，英伟达股票还得跌，跌回a100时代，或者跌至最高点的1/16，一股10刀乐。难怪啊，老黄一语不发，保持沉默

赖美豪中

当然不是正大光明，Deepshit逆向工程显然违反了gpt的term. 只能说openai这个公司因为太小缺少合格的cybersecurity团队，反而是微软的azure团队发现了以后通知了openai

Dididada 写了： 2025年 2月 1日 09:14 所以DS就是光明正大的去偷，而且还大言不惭的说我就偷你的了，怎么着？你来咬我啊？

Dididada

赖美豪中写了： 2025年 2月 1日 09:17 当然不是正大光明，Deepshit逆向工程显然违反了gpt的term. 只能说openai这个公司因为太小缺少合格的cybersecurity团队，反而是微软的azure团队发现了以后通知了openai

那它吹嘘自己不到6million美刀就实现了模型开发的目的？就是为了做空女大？

赖美豪中

同胞的pua技术你懂的。

Dididada 写了： 2025年 2月 1日 09:25 那它吹嘘自己不到6million美刀就实现了模型开发的目的？就是为了做空女大？

lsheng · 帖子由 **lsheng** » 2025年 2月 1日 09:28

jiml 写了： 2025年 2月 1日 01:29 deepseek对算力的要求大约是openAI的 1/16

deepseek让ai计算中心瞬间冗余出来15/16的算力，原来1片英伟达b200做的事，现在1片a100可以做到了

嗯，英伟达股票还得跌，跌回a100时代，或者跌至最高点的1/16，一股10刀乐。难怪啊，老黄一语不发，保持沉默

可是一台h100就顶16台a100, 还是更省电，省钱。算力高，效率高永远更好。

maxthon · 帖子由 **maxthon** » 2025年 2月 1日 09:36

你一定是误解了deepseek只做了蒸馏，对算力的要求才低。如果没有openAI的大模型，deepseek就没法蒸馏。
而得到openAI的大模型，如果不靠偷，即使知道算法，没有nvda的GPU也是不行的。
nvda的股价不振是因为商务部估计会严格控制它的GPU出口，彻底封死中国市场，不是deepseek有什么划时代的突破。

jiml 写了： 2025年 2月 1日 01:29 deepseek对算力的要求大约是openAI的 1/16

deepseek让ai计算中心瞬间冗余出来15/16的算力，原来1片英伟达b200做的事，现在1片a100可以做到了

嗯，英伟达股票还得跌，跌回a100时代，或者跌至最高点的1/16，一股10刀乐。难怪啊，老黄一语不发，保持沉默

新未名空间

deepseek 把GPU需求倒退会A100时代

#1 deepseek 把GPU需求倒退会A100时代

#2 Re: deepseek 把GPU需求倒退会A100时代

#3 Re: deepseek 把GPU需求倒退会A100时代

#4 Re: deepseek 把GPU需求倒退会A100时代

#5 Re: deepseek 把GPU需求倒退会A100时代

#6 Re: deepseek 把GPU需求倒退会A100时代

#7 Re: deepseek 把GPU需求倒退会A100时代

#8 Re: deepseek 把GPU需求倒退会A100时代

#9 Re: deepseek 把GPU需求倒退会A100时代

#10 Re: deepseek 把GPU需求倒退会A100时代

#11 Re: deepseek 把GPU需求倒退会A100时代

#12 Re: deepseek 把GPU需求倒退会A100时代

#13 Re: deepseek 把GPU需求倒退会A100时代

#14 Re: deepseek 把GPU需求倒退会A100时代

#15 Re: deepseek 把GPU需求倒退会A100时代

#16 Re: deepseek 把GPU需求倒退会A100时代

#17 Re: deepseek 把GPU需求倒退会A100时代

#18 Re: deepseek 把GPU需求倒退会A100时代

#19 Re: deepseek 把GPU需求倒退会A100时代

#20 Re: deepseek 把GPU需求倒退会A100时代