完了,deepseek把GPU上的fp8的汇编代码开源了。

对应老买买提的军事天地,观点交锋比较激烈,反驳不留情面,请作好心理准备。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。


版主: Softfist

回复
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#101 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

xexz 写了: 2025年 2月 26日 00:37 例如,cpu上的虚拟机,Basic,python,lua,luajit,java...

这个是GPU上的虚拟机,这个JIT他有一套自己的‘虚拟指令’,这些‘虚拟指令’背后,是一组GPU/NPU/CPU的硬件指令,各家的xPU的硬件指令只要实现了JIT的虚拟指令,用谁的xPU都没区别。

就像Basic,python,lua,luajit,java...在arm、龙芯指令集上照样跑一样。
這些東西Triton和JAX都有差不多的實現,不比DeepSeek差。GPU的JIT和runtime也不是新技術,Vulkan早就支持了:SPIR-V
x1 图片
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#102 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

sjtu 写了: 2025年 2月 26日 00:48 别扯了,现在各种pu哪有不支持jit的。

这个代码开源的核心是GEMM的汇编kernel。速度是nv官方CUTLASS的一到两倍。
也就说,可以少买一半GPU来干相同的事。

但这个只能支持hopper GPU,显然没有官方的兼容性好。

但是,我解读,这个对nv是利好,因为ptx只有nv支持。
其他家不可能去支持nv的ptx,这个跟英特尔的指令集一个道理。你优化不过它,而且人家想怎么改怎么改。
别忘了这个连a100都不支持。
上面的分析是正確答案,對NVDA反而是利好。紅藍廠不支持PTX,不能(法律原因)也不想支持PTX。GPU遠比普通人想像的複雜,兼容性很差,架構變化大,軟件不容易優化(相對於CPU)。我記得NVDA並沒有公開底層的ISA,比x86封閉多了。
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#103 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

xexz 写了: 2025年 2月 26日 02:04 没有java那么复杂,更像linux核心里的那个BPF,算是一个‘专用的’虚拟机。 :mrgreen: :mrgreen: :mrgreen:
我記得BPF不支持循環,這個支持麼?
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#104 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

drifter 写了: 2025年 2月 26日 02:17 其实可以算两个成果 一个是针对ai运算优化的虚拟机 一个是对接芯片的底层实现案例 两者结合跑起来性能还挺好

各个芯片厂搞个几周应该就可以照猫画虎 跑起来 这下就形成一个新的产业生态的
沒你想得那麼簡單,binary和assembly兼容很難的,參考zluda,只有強大如蘋果,才能同時拿到x86和arm的授權,搞Rosetta 2
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#105 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

supercnm 写了: 2025年 2月 26日 03:10 感觉主要是提供了一种思路,硬件公司Nvidia的软件部门太烂,有大量的空间可以优化

老黄现在应该做的是,赶紧对新的blackwell芯片做指令优化,或者把blackwell的指令做加密,不准别人优化
NVDA基本可以看成軟件公司,如果綠廠軟件部門太爛的話,紅藍廠軟件部門怎麼活?集體切腹謝罪麼?
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#106 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

Dachun 写了: 2025年 2月 26日 03:28 硬件技术已经不是业余人所能理解,所以产生了这些胡言乱语的东西。甚至可以说是造谣或者骗局。有些人是别有用心
同意你的說法,這裡真正做底層芯片的人太少了,因為錢少,只有傻子才會堅持。做軟件的根本不懂,還愛指點江山。
x1 图片
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#107 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

drifter 写了: 2025年 2月 26日 04:20 看能不能振臂一呼形成新的业界标准 对抗NVIDIA 这样堡垒就从帝国内部分裂了

当然美帝可以下令 不准intel AMD之类的厂商使用这种标准
OpenCL已經死了很多年,都不需要燒香了。紅廠已經倒戈,一心只做CUDA第二,幻想重現x86 copycat的輝煌。藍廠明年說不定就沒了,今年GPU部門可以集體推出去祭旗。
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#108 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

Caravel 写了: 2025年 2月 26日 05:08 fp8不像是正道

就和早期电脑上面的省内村的技巧一样
FP8為什麼不是正道?那FP4又是什麼?紅藍廠為什麼要跟,也推出FP8?
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#109 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

xexz 写了: 2025年 2月 26日 06:26 是指当下、现在的硬件平台支持情况,

将来amd、intel、华为、摩尔线程、寒武纪。。。都可以提供自己的‘硬件平台’来支持这个‘虚拟机jit’(就象把java虚拟机,从x86平台移植到arm平台),只是现在刚开源,他们还没来得及(有消息说彻底抛开gpu架构的专用硬件asic,今年上半年就会出现,gpu并非对张量运算特别优化的计算结构,这个效率提升就更大了)。

另外,即使你帝行政/立法不让amd,intel支持,

这不耽误什么事,没人和钱过不去。 :mrgreen: :mrgreen: :mrgreen:
你覺得開發Triton和JAX的人都是傻子弱智麼?憑什麼為了區區400行拋棄自己的架構?先去看看最新局勢再來發言。
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#110 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

xexz 写了: 2025年 2月 26日 08:25 不久的将来也许可以:
include <按摩店gpu.h>
include <挤牙膏gpu.h>
include <华为npu.h>
include <摩尔线程gpu.h>
include <寒武纪npu.h>

当然,事情远非这么简单,硬件厂家要提供他们各自硬件指令的汇编器,并且支持这个‘虚拟机’的实现。

关键是,并不需要硬件厂家提供兼容cuda的高级语言编译器,cuda是和nvgpu硬件深度绑定的闭源软件。
不需要將來,現在紅廠就支持,#include <hip/hip_runtime.h>

結果做了十年,也就現在這樣。
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#111 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

drifter 写了: 2025年 2月 26日 10:36 不是这个技术有啥牛逼的 而是这个虚拟机牛逼 有潜力成为业界标准 各家支持这个标准 底层可以各家不同汇编实现
這玩意早就有了,紅綠藍都用LLVM IR做自己的虛擬機,PyTorch Triton和Google JAX也不是白給的。DeepSeek這個絕對沒有可能成為虛擬機業內標準。
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#112 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

adylee 写了: 2025年 2月 26日 10:44 这个说法太外行了
这点汇编,
是适应于这个特定的硬件才能写的,
目的是发挥出这个硬件的最大的功效,
而不是说, 这个写法就是标准了,大家都要往上边靠。

这么说吧,假设现在女大把最新的最牛的gpu给ds,
ds还可以(因为他们有这个技术力量)写出基于这个新gpu的新的汇编指令,
使得gemm运算在新gpu上还能加速多少倍。
而不是说,这点写出来的代码是神是标准,大家造显卡要往这个上边来适应。
這也是正確答案,這400行絕無可能成為業內標準。
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#113 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

drifter 写了: 2025年 2月 26日 11:53 虚拟机夸张了 我觉得还是更接近当年MMX扩展之类的
錯,DeepSeek只不過重新寫了一個FP8的GEMM計算kernel而已,根本沒有硬件指令集擴展。
头像
verdelite
论坛元老
论坛元老
帖子互动: 1045
帖子: 24306
注册时间: 2022年 7月 21日 23:33

#114 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 verdelite »

magagop 写了: 2025年 2月 26日 13:57 沒你想得那麼簡單,binary和assembly兼容很難的,參考zluda,只有強大如蘋果,才能同時拿到x86和arm的授權,搞Rosetta 2
没人要别的厂商在binary指令上兼容女大。

他们说的是,兼容DS。这个完全可以和女大无关,只针对这个代码(其中硬件指令可以重新编码)做个新GPU。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 679
帖子: 27053
注册时间: 2022年 7月 24日 17:21

#115 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 Caravel »

magagop 写了: 2025年 2月 26日 14:08 FP8為什麼不是正道?那FP4又是什麼?紅藍廠為什麼要跟,也推出FP8?
越长精度越高,2倍的加速短期内是一个事情

长期不算什么

你现在编程需要管fp8,fp4,还不是直接fp64
头像
huangchong(净坛使者)
论坛元老
论坛元老
2023-24年度优秀版主
帖子互动: 4085
帖子: 60819
注册时间: 2022年 7月 22日 01:22

#116 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 huangchong(净坛使者) »

Caravel 写了: 2025年 2月 26日 14:33 越长精度越高,2倍的加速短期内是一个事情

长期不算什么

你现在编程需要管fp8,fp4,还不是直接fp64
长期看,神经网络大块运算fp8 甚至fp4是趋势。

fp8相对于fp16,加速不是光两倍,因为需要从内存搬运和需要缓存的数据字节数本身也很重要。特别是缓存和寄存器。你存fp16就能比存fp32多缓存一倍的数据,白白的缓存就大了一倍。缓存很贵的,寄存器就更贵了。
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#117 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

verdelite 写了: 2025年 2月 26日 14:31 没人要别的厂商在binary指令上兼容女大。

他们说的是,兼容DS。这个完全可以和女大无关,只针对这个代码(其中硬件指令可以重新编码)做个新GPU。
做新GPU更不可能了,紅藍廠已經大量投入Triton和JAX,能實現同樣的效果,憑什麼要重做GPU?憑什麼被中國公司(還不是芯片公司)牽著鼻子走?
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#118 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

Caravel 写了: 2025年 2月 26日 14:33 越长精度越高,2倍的加速短期内是一个事情

长期不算什么

你现在编程需要管fp8,fp4,还不是直接fp64
行了,一看你說的,就知道你是DL外行,我都懶得跟你解釋了。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 679
帖子: 27053
注册时间: 2022年 7月 24日 17:21

#119 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 Caravel »

magagop 写了: 2025年 2月 26日 14:43 行了,一看你說的,就知道你是DL外行,我都懶得跟你解釋了。
牛逼拉,来出来转两圈,你是openai还是Meta?
上次由 Caravel 在 2025年 2月 26日 14:46 修改。
magagop
论坛点评
论坛点评
帖子互动: 217
帖子: 3095
注册时间: 2024年 12月 5日 17:35

#120 Re: 完了,deepseek把GPU上的fp8的汇编代码开源了。

帖子 magagop »

huangchong 写了: 2025年 2月 26日 14:40 长期看,神经网络大块运算fp8 甚至fp4是趋势。

fp8相对于fp16,加速不是光两倍,因为需要从内存搬运和需要缓存的数据字节数本身也很重要。特别是缓存和寄存器。你存fp16就能比存fp32多缓存一倍的数据,白白的缓存就大了一倍。缓存很贵的,寄存器就更贵了。
這才是正確答案,我覺得沒必要給這些硬件盲科普掃盲。FP8非常關鍵,FP4將會是頂峰,這就是結論,Rubin和RubinNext很可怕,跟不上就會掉隊。
回复

回到 “军事天地(Military)”