分页: 7 / 9

#121 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 14:48
magagop
Caravel 写了: 2025年 2月 26日 14:46 牛逼拉,来出来转两圈,你是openai还是Meta?
我是苦逼底層做芯片的,沒有大包裹,專門死磕ISA。

#122 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 14:48
Caravel
huangchong 写了: 2025年 2月 26日 14:40 长期看,神经网络大块运算fp8 甚至fp4是趋势。

fp8相对于fp16,加速不是光两倍,因为需要从内存搬运和需要缓存的数据字节数本身也很重要。特别是缓存和寄存器。你存fp16就能比存fp32多缓存一倍的数据,白白的缓存就大了一倍。缓存很贵的,寄存器就更贵了。
fp16训练的,从fp8到fp4能不损失性能么?

#123 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 14:49
Caravel
magagop 写了: 2025年 2月 26日 14:48 我是苦逼底層做芯片的,沒有大包裹,專門死磕ISA。
你看看你这种态度,

现在好不容易有机会得瑟一下

还要摆架子

#124 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 14:53
liufanghe
wanmeishijie 写了: 2025年 2月 25日 23:25 其实美帝医药这么发达,炒作长生药更合理
美帝没啥希望了,
现在砍NIH,折腾FDA
到时生药要是也只会做PPT
真只能到火星给共产党挖矿了

#125 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 14:53
magagop
Caravel 写了: 2025年 2月 26日 14:49 你看看你这种态度,

现在好不容易有机会得瑟一下

还要摆架子
因為看不慣你們外行人瞎吹牛。

#126 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 14:57
magagop
Caravel 写了: 2025年 2月 26日 14:48 fp16训练的,从fp8到fp4能不损失性能么?
FP4將是頂峰,用數量和速度彌補精度。

#127 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 15:12
Caravel
magagop 写了: 2025年 2月 26日 14:57 FP4將是頂峰,用數量和速度彌補精度。
你一个大模型输出的都是错的,快有什么用,我情愿等fp16输出对的

#128 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 15:17
drifter
做硬件的看见居然在软件优化一下性能提升这么大 肯定很郁闷

#129 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 15:27
Mountainlion
这个东西只是让d800快一点,离H100还差不少,有什么好吹的?

#130 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 15:58
jiml
huangchong 写了: 2025年 2月 26日 14:40 长期看,神经网络大块运算fp8 甚至fp4是趋势。

fp8相对于fp16,加速不是光两倍
错了,小学生常犯的错误
16的平方,8的平方,差几倍?四倍

fp8相对于fp16,算力加速四倍

#131 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 15:59
jiml
magagop 写了: 2025年 2月 26日 14:46 這才是正確答案,我覺得沒必要給這些硬件盲科普掃盲。FP8非常關鍵,FP4將會是頂峰,這就是結論,Rubin和RubinNext很可怕,跟不上就會掉隊。
你和他们一样的,不懂硬件

#132 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 16:06
magagop
jiml 写了: 2025年 2月 26日 15:59 你和他们一样的,不懂硬件
我就是做這玩意的,你是做芯片的麼?

#133 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 16:09
jiml
magagop 写了: 2025年 2月 26日 16:06 我就是做這玩意的,你是做芯片的麼?
为何犯小学生错误,16平方是8平方的两倍?

#134 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 16:14
magagop
jiml 写了: 2025年 2月 26日 16:09 为何犯小学生错误,16平方是8平方的两倍?
因為GPU運算的瓶頸不是計算單元,而是存儲器帶寬,或者HBM3和GDDR7的帶寬,把model weights搬運進SM的時間是計算的100倍以上,你說的根本可以忽略。

#135 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 16:36
newIdRobot
magagop 写了: 2025年 2月 26日 14:48 我是苦逼底層做芯片的,沒有大包裹,專門死磕ISA。
你在programming时不是说你是nvda的么?这2年泼天的富贵你没吃到?

#136 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 16:40
newIdRobot
big5 写了: 2025年 2月 26日 08:25 这个是什么汇编?
为啥跟我几十年前学的C语言那么像?
内联汇编。

#137 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 16:54
magagop
newIdRobot 写了: 2025年 2月 26日 16:36 你在programming时不是说你是nvda的么?这2年泼天的富贵你没吃到?
我說我買NVDA股票,女大員工需要買自己公司股票麼?用用你的推理能力仔細想想?

#138 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 17:12
forer
Caravel 写了: 2025年 2月 26日 15:12 你一个大模型输出的都是错的,快有什么用,我情愿等fp16输出对的
fp16可以分割成几个fp8, 或是fp4 。这都不是问题。

#139 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 17:16
Caravel
forer 写了: 2025年 2月 26日 17:12 fp16可以分割成几个fp8, 或是fp4 。这都不是问题。
废话,要得就是减少精度,不然他们怎么省内存

#140 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

发表于 : 2025年 2月 26日 17:20
forer
mlforlife 写了: 2025年 2月 25日 23:16 好样的,让所有质疑闭嘴。

让美帝这帮草包三哥马内鸡看看,真正硬核的东西是什么样子,没有PPT,没有stand up, 就是刻苦的工作,就是智慧的光芒。

300行代码拍你脸上,自己领悟去吧。
吹的再牛,无非就是开源了某款nvda芯片内部寄存器配置方案,无论开不开源都需要nvda芯片才能跑,真正硬核的在芯片里。 :D :D :D