完了,deepseek把GPU上的fp8的汇编代码开源了。

对应老买买提的军事天地,观点交锋比较激烈,反驳不留情面,请作好心理准备。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。


版主: Softfist

magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#121 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

Caravel 写了: 2025年 2月 26日 14:46 牛逼拉,来出来转两圈,你是openai还是Meta?
我是苦逼底層做芯片的,沒有大包裹,專門死磕ISA。
x1 图片
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 679
帖子: 27059
注册时间: 2022年 7月 24日 17:21

#122 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 Caravel »

huangchong 写了: 2025年 2月 26日 14:40 长期看,神经网络大块运算fp8 甚至fp4是趋势。

fp8相对于fp16,加速不是光两倍,因为需要从内存搬运和需要缓存的数据字节数本身也很重要。特别是缓存和寄存器。你存fp16就能比存fp32多缓存一倍的数据,白白的缓存就大了一倍。缓存很贵的,寄存器就更贵了。
fp16训练的,从fp8到fp4能不损失性能么?
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 679
帖子: 27059
注册时间: 2022年 7月 24日 17:21

#123 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 Caravel »

magagop 写了: 2025年 2月 26日 14:48 我是苦逼底層做芯片的,沒有大包裹,專門死磕ISA。
你看看你这种态度,

现在好不容易有机会得瑟一下

还要摆架子
x1 图片
头像
liufanghe
论坛点评
论坛点评
帖子互动: 231
帖子: 2577
注册时间: 2022年 9月 18日 22:37

#124 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 liufanghe »

wanmeishijie 写了: 2025年 2月 25日 23:25 其实美帝医药这么发达,炒作长生药更合理
美帝没啥希望了,
现在砍NIH,折腾FDA
到时生药要是也只会做PPT
真只能到火星给共产党挖矿了
“Information is power. But like all power, there are those who want to keep it for themselves.” ― Aaron Swartz

在新水木看到的有哲理的回答
月收入 1 万是个什么样的水平?拿的人能接受,看的人说 “活不下去” 的水平。
可怜的美华。上半辈子折腾美国签证,下半辈子折腾中国签证。
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#125 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

Caravel 写了: 2025年 2月 26日 14:49 你看看你这种态度,

现在好不容易有机会得瑟一下

还要摆架子
因為看不慣你們外行人瞎吹牛。
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#126 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

Caravel 写了: 2025年 2月 26日 14:48 fp16训练的,从fp8到fp4能不损失性能么?
FP4將是頂峰,用數量和速度彌補精度。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 679
帖子: 27059
注册时间: 2022年 7月 24日 17:21

#127 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 Caravel »

magagop 写了: 2025年 2月 26日 14:57 FP4將是頂峰,用數量和速度彌補精度。
你一个大模型输出的都是错的,快有什么用,我情愿等fp16输出对的
drifter
论坛精英
论坛精英
帖子互动: 457
帖子: 7454
注册时间: 2022年 9月 1日 04:17

#128 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 drifter »

做硬件的看见居然在软件优化一下性能提升这么大 肯定很郁闷
x1 图片
Mountainlion
论坛元老
论坛元老
帖子互动: 2080
帖子: 25233
注册时间: 2022年 12月 31日 16:11

#129 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 Mountainlion »

这个东西只是让d800快一点,离H100还差不少,有什么好吹的?
共产党就是赤裸裸黑手党
头像
jiml
自助冻结自助冻结
帖子互动: 483
帖子: 4300
注册时间: 2023年 2月 22日 22:50

#130 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 jiml »

huangchong 写了: 2025年 2月 26日 14:40 长期看,神经网络大块运算fp8 甚至fp4是趋势。

fp8相对于fp16,加速不是光两倍
错了,小学生常犯的错误
16的平方,8的平方,差几倍?四倍

fp8相对于fp16,算力加速四倍
头像
jiml
自助冻结自助冻结
帖子互动: 483
帖子: 4300
注册时间: 2023年 2月 22日 22:50

#131 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 jiml »

magagop 写了: 2025年 2月 26日 14:46 這才是正確答案,我覺得沒必要給這些硬件盲科普掃盲。FP8非常關鍵,FP4將會是頂峰,這就是結論,Rubin和RubinNext很可怕,跟不上就會掉隊。
你和他们一样的,不懂硬件
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#132 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

jiml 写了: 2025年 2月 26日 15:59 你和他们一样的,不懂硬件
我就是做這玩意的,你是做芯片的麼?
头像
jiml
自助冻结自助冻结
帖子互动: 483
帖子: 4300
注册时间: 2023年 2月 22日 22:50

#133 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 jiml »

magagop 写了: 2025年 2月 26日 16:06 我就是做這玩意的,你是做芯片的麼?
为何犯小学生错误,16平方是8平方的两倍?
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#134 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

jiml 写了: 2025年 2月 26日 16:09 为何犯小学生错误,16平方是8平方的两倍?
因為GPU運算的瓶頸不是計算單元,而是存儲器帶寬,或者HBM3和GDDR7的帶寬,把model weights搬運進SM的時間是計算的100倍以上,你說的根本可以忽略。
头像
newIdRobot(新器人)
论坛支柱
论坛支柱
帖子互动: 394
帖子: 12782
注册时间: 2022年 7月 21日 21:29

#135 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 newIdRobot(新器人) »

magagop 写了: 2025年 2月 26日 14:48 我是苦逼底層做芯片的,沒有大包裹,專門死磕ISA。
你在programming时不是说你是nvda的么?这2年泼天的富贵你没吃到?
头像
newIdRobot(新器人)
论坛支柱
论坛支柱
帖子互动: 394
帖子: 12782
注册时间: 2022年 7月 21日 21:29

#136 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 newIdRobot(新器人) »

big5 写了: 2025年 2月 26日 08:25 这个是什么汇编?
为啥跟我几十年前学的C语言那么像?
内联汇编。
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#137 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

newIdRobot 写了: 2025年 2月 26日 16:36 你在programming时不是说你是nvda的么?这2年泼天的富贵你没吃到?
我說我買NVDA股票,女大員工需要買自己公司股票麼?用用你的推理能力仔細想想?
forer(wooden)
正式写手
正式写手
帖子互动: 19
帖子: 179
注册时间: 2023年 9月 4日 00:41

#138 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 forer(wooden) »

Caravel 写了: 2025年 2月 26日 15:12 你一个大模型输出的都是错的,快有什么用,我情愿等fp16输出对的
fp16可以分割成几个fp8, 或是fp4 。这都不是问题。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 679
帖子: 27059
注册时间: 2022年 7月 24日 17:21

#139 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 Caravel »

forer 写了: 2025年 2月 26日 17:12 fp16可以分割成几个fp8, 或是fp4 。这都不是问题。
废话,要得就是减少精度,不然他们怎么省内存
forer(wooden)
正式写手
正式写手
帖子互动: 19
帖子: 179
注册时间: 2023年 9月 4日 00:41

#140 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 forer(wooden) »

mlforlife 写了: 2025年 2月 25日 23:16 好样的,让所有质疑闭嘴。

让美帝这帮草包三哥马内鸡看看,真正硬核的东西是什么样子,没有PPT,没有stand up, 就是刻苦的工作,就是智慧的光芒。

300行代码拍你脸上,自己领悟去吧。
吹的再牛,无非就是开源了某款nvda芯片内部寄存器配置方案,无论开不开源都需要nvda芯片才能跑,真正硬核的在芯片里。 :D :D :D
回复

回到 “军事天地(Military)”