完了，deepseek把GPU上的fp8的汇编代码开源了。

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:48

Caravel 写了： 2025年 2月 26日 14:46 牛逼拉，来出来转两圈，你是openai还是Meta？

我是苦逼底層做芯片的，沒有大包裹，專門死磕ISA。

Caravel · 帖子由 **Caravel** » 2025年 2月 26日 14:48

huangchong 写了： 2025年 2月 26日 14:40 长期看，神经网络大块运算fp8 甚至fp4是趋势。

fp8相对于fp16，加速不是光两倍，因为需要从内存搬运和需要缓存的数据字节数本身也很重要。特别是缓存和寄存器。你存fp16就能比存fp32多缓存一倍的数据，白白的缓存就大了一倍。缓存很贵的，寄存器就更贵了。

fp16训练的，从fp8到fp4能不损失性能么？

Caravel · 帖子由 **Caravel** » 2025年 2月 26日 14:49

magagop 写了： 2025年 2月 26日 14:48 我是苦逼底層做芯片的，沒有大包裹，專門死磕ISA。

你看看你这种态度，

现在好不容易有机会得瑟一下

还要摆架子

liufanghe · 帖子由 **liufanghe** » 2025年 2月 26日 14:53

wanmeishijie 写了： 2025年 2月 25日 23:25 其实美帝医药这么发达，炒作长生药更合理

美帝没啥希望了，
现在砍NIH，折腾FDA
到时生药要是也只会做PPT
真只能到火星给共产党挖矿了

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:53

Caravel 写了： 2025年 2月 26日 14:49 你看看你这种态度，

现在好不容易有机会得瑟一下

还要摆架子

因為看不慣你們外行人瞎吹牛。

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:57

Caravel 写了： 2025年 2月 26日 14:48 fp16训练的，从fp8到fp4能不损失性能么？

FP4將是頂峰，用數量和速度彌補精度。

Caravel · 帖子由 **Caravel** » 2025年 2月 26日 15:12

magagop 写了： 2025年 2月 26日 14:57 FP4將是頂峰，用數量和速度彌補精度。

你一个大模型输出的都是错的，快有什么用，我情愿等fp16输出对的

drifter · 帖子由 **drifter** » 2025年 2月 26日 15:17

做硬件的看见居然在软件优化一下性能提升这么大肯定很郁闷

Mountainlion · 帖子由 **Mountainlion** » 2025年 2月 26日 15:27

这个东西只是让d800快一点，离H100还差不少，有什么好吹的？

jiml · 帖子由 **jiml** » 2025年 2月 26日 15:58

huangchong 写了： 2025年 2月 26日 14:40 长期看，神经网络大块运算fp8 甚至fp4是趋势。

fp8相对于fp16，加速不是光两倍

错了，小学生常犯的错误
16的平方，8的平方，差几倍？四倍

fp8相对于fp16，算力加速四倍

jiml · 帖子由 **jiml** » 2025年 2月 26日 15:59

magagop 写了： 2025年 2月 26日 14:46 這才是正確答案，我覺得沒必要給這些硬件盲科普掃盲。FP8非常關鍵，FP4將會是頂峰，這就是結論，Rubin和RubinNext很可怕，跟不上就會掉隊。

你和他们一样的，不懂硬件

magagop · 帖子由 **magagop** » 2025年 2月 26日 16:06

jiml 写了： 2025年 2月 26日 15:59 你和他们一样的，不懂硬件

我就是做這玩意的，你是做芯片的麼？

jiml · 帖子由 **jiml** » 2025年 2月 26日 16:09

magagop 写了： 2025年 2月 26日 16:06 我就是做這玩意的，你是做芯片的麼？

为何犯小学生错误，16平方是8平方的两倍？

magagop · 帖子由 **magagop** » 2025年 2月 26日 16:14

jiml 写了： 2025年 2月 26日 16:09 为何犯小学生错误，16平方是8平方的两倍？

因為GPU運算的瓶頸不是計算單元，而是存儲器帶寬，或者HBM3和GDDR7的帶寬，把model weights搬運進SM的時間是計算的100倍以上，你說的根本可以忽略。

newIdRobot

magagop 写了： 2025年 2月 26日 14:48 我是苦逼底層做芯片的，沒有大包裹，專門死磕ISA。

你在programming时不是说你是nvda的么？这2年泼天的富贵你没吃到？

newIdRobot

big5 写了： 2025年 2月 26日 08:25 这个是什么汇编？
为啥跟我几十年前学的C语言那么像？

内联汇编。

magagop · 帖子由 **magagop** » 2025年 2月 26日 16:54

newIdRobot 写了： 2025年 2月 26日 16:36 你在programming时不是说你是nvda的么？这2年泼天的富贵你没吃到？

我說我買NVDA股票，女大員工需要買自己公司股票麼？用用你的推理能力仔細想想？

forer · 帖子由 **forer（wooden）** » 2025年 2月 26日 17:12

Caravel 写了： 2025年 2月 26日 15:12 你一个大模型输出的都是错的，快有什么用，我情愿等fp16输出对的

fp16可以分割成几个fp8, 或是fp4 。这都不是问题。

Caravel · 帖子由 **Caravel** » 2025年 2月 26日 17:16

forer 写了： 2025年 2月 26日 17:12 fp16可以分割成几个fp8, 或是fp4 。这都不是问题。

废话，要得就是减少精度，不然他们怎么省内存

forer · 帖子由 **forer（wooden）** » 2025年 2月 26日 17:20

mlforlife 写了： 2025年 2月 25日 23:16 好样的，让所有质疑闭嘴。

让美帝这帮草包三哥马内鸡看看，真正硬核的东西是什么样子，没有PPT，没有stand up，就是刻苦的工作，就是智慧的光芒。

300行代码拍你脸上，自己领悟去吧。

吹的再牛，无非就是开源了某款nvda芯片内部寄存器配置方案，无论开不开源都需要nvda芯片才能跑，真正硬核的在芯片里。

新未名空间

完了，deepseek把GPU上的fp8的汇编代码开源了。

#121 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#122 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#123 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#124 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#125 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#126 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#127 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#128 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#129 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#130 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#131 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#132 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#133 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#134 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#135 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#136 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#137 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#138 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#139 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#140 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。