分页: 7 / 9
#121 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 14:48
由 magagop
Caravel 写了: 2025年 2月 26日 14:46
牛逼拉,来出来转两圈,你是openai还是Meta?
我是苦逼底層做芯片的,沒有大包裹,專門死磕ISA。
#122 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 14:48
由 Caravel
huangchong 写了: 2025年 2月 26日 14:40
长期看,神经网络大块运算fp8 甚至fp4是趋势。
fp8相对于fp16,加速不是光两倍,因为需要从内存搬运和需要缓存的数据字节数本身也很重要。特别是缓存和寄存器。你存fp16就能比存fp32多缓存一倍的数据,白白的缓存就大了一倍。缓存很贵的,寄存器就更贵了。
fp16训练的,从fp8到fp4能不损失性能么?
#123 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 14:49
由 Caravel
magagop 写了: 2025年 2月 26日 14:48
我是苦逼底層做芯片的,沒有大包裹,專門死磕ISA。
你看看你这种态度,
现在好不容易有机会得瑟一下
还要摆架子
#124 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 14:53
由 liufanghe
美帝没啥希望了,
现在砍NIH,折腾FDA
到时生药要是也只会做PPT
真只能到火星给共产党挖矿了
#125 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 14:53
由 magagop
Caravel 写了: 2025年 2月 26日 14:49
你看看你这种态度,
现在好不容易有机会得瑟一下
还要摆架子
因為看不慣你們外行人瞎吹牛。
#126 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 14:57
由 magagop
Caravel 写了: 2025年 2月 26日 14:48
fp16训练的,从fp8到fp4能不损失性能么?
FP4將是頂峰,用數量和速度彌補精度。
#127 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 15:12
由 Caravel
magagop 写了: 2025年 2月 26日 14:57
FP4將是頂峰,用數量和速度彌補精度。
你一个大模型输出的都是错的,快有什么用,我情愿等fp16输出对的
#128 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 15:17
由 drifter
做硬件的看见居然在软件优化一下性能提升这么大 肯定很郁闷
#129 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 15:27
由 Mountainlion
这个东西只是让d800快一点,离H100还差不少,有什么好吹的?
#130 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 15:58
由 jiml
huangchong 写了: 2025年 2月 26日 14:40
长期看,神经网络大块运算fp8 甚至fp4是趋势。
fp8相对于fp16,加速不是光两倍
错了,小学生常犯的错误
16的平方,8的平方,差几倍?四倍
fp8相对于fp16,算力加速四倍
#131 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 15:59
由 jiml
magagop 写了: 2025年 2月 26日 14:46
這才是正確答案,我覺得沒必要給這些硬件盲科普掃盲。FP8非常關鍵,FP4將會是頂峰,這就是結論,Rubin和RubinNext很可怕,跟不上就會掉隊。
你和他们一样的,不懂硬件
#132 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 16:06
由 magagop
jiml 写了: 2025年 2月 26日 15:59
你和他们一样的,不懂硬件
我就是做這玩意的,你是做芯片的麼?
#133 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 16:09
由 jiml
magagop 写了: 2025年 2月 26日 16:06
我就是做這玩意的,你是做芯片的麼?
为何犯小学生错误,16平方是8平方的两倍?
#134 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 16:14
由 magagop
jiml 写了: 2025年 2月 26日 16:09
为何犯小学生错误,16平方是8平方的两倍?
因為GPU運算的瓶頸不是計算單元,而是存儲器帶寬,或者HBM3和GDDR7的帶寬,把model weights搬運進SM的時間是計算的100倍以上,你說的根本可以忽略。
#135 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 16:36
由 newIdRobot
magagop 写了: 2025年 2月 26日 14:48
我是苦逼底層做芯片的,沒有大包裹,專門死磕ISA。
你在programming时不是说你是nvda的么?这2年泼天的富贵你没吃到?
#136 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 16:40
由 newIdRobot
big5 写了: 2025年 2月 26日 08:25
这个是什么汇编?
为啥跟我几十年前学的C语言那么像?
内联汇编。
#137 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 16:54
由 magagop
newIdRobot 写了: 2025年 2月 26日 16:36
你在programming时不是说你是nvda的么?这2年泼天的富贵你没吃到?
我說我買NVDA股票,女大員工需要買自己公司股票麼?用用你的推理能力仔細想想?
#138 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 17:12
由 forer
Caravel 写了: 2025年 2月 26日 15:12
你一个大模型输出的都是错的,快有什么用,我情愿等fp16输出对的
fp16可以分割成几个fp8, 或是fp4 。这都不是问题。
#139 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 17:16
由 Caravel
forer 写了: 2025年 2月 26日 17:12
fp16可以分割成几个fp8, 或是fp4 。这都不是问题。
废话,要得就是减少精度,不然他们怎么省内存
#140 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。
发表于 : 2025年 2月 26日 17:20
由 forer
mlforlife 写了: 2025年 2月 25日 23:16
好样的,让所有质疑闭嘴。
让美帝这帮草包三哥马内鸡看看,真正硬核的东西是什么样子,没有PPT,没有stand up, 就是刻苦的工作,就是智慧的光芒。
300行代码拍你脸上,自己领悟去吧。
吹的再牛,无非就是开源了某款nvda芯片内部寄存器配置方案,无论开不开源都需要nvda芯片才能跑,真正硬核的在芯片里。
