完了，deepseek把GPU上的fp8的汇编代码开源了。

magagop · 帖子由 **magagop** » 2025年 2月 26日 13:49

xexz 写了： 2025年 2月 26日 00:37 例如，cpu上的虚拟机，Basic,python,lua,luajit,java...

这个是GPU上的虚拟机，这个JIT他有一套自己的‘虚拟指令’，这些‘虚拟指令’背后，是一组GPU/NPU/CPU的硬件指令，各家的xPU的硬件指令只要实现了JIT的虚拟指令，用谁的xPU都没区别。

就像Basic,python,lua,luajit,java...在arm、龙芯指令集上照样跑一样。

這些東西Triton和JAX都有差不多的實現，不比DeepSeek差。GPU的JIT和runtime也不是新技術，Vulkan早就支持了：SPIR-V

magagop · 帖子由 **magagop** » 2025年 2月 26日 13:53

sjtu 写了： 2025年 2月 26日 00:48 别扯了，现在各种pu哪有不支持jit的。

这个代码开源的核心是GEMM的汇编kernel。速度是nv官方CUTLASS的一到两倍。
也就说，可以少买一半GPU来干相同的事。

但这个只能支持hopper GPU，显然没有官方的兼容性好。

但是，我解读，这个对nv是利好，因为ptx只有nv支持。
其他家不可能去支持nv的ptx，这个跟英特尔的指令集一个道理。你优化不过它，而且人家想怎么改怎么改。
别忘了这个连a100都不支持。

上面的分析是正確答案，對NVDA反而是利好。紅藍廠不支持PTX，不能（法律原因）也不想支持PTX。GPU遠比普通人想像的複雜，兼容性很差，架構變化大，軟件不容易優化（相對於CPU）。我記得NVDA並沒有公開底層的ISA，比x86封閉多了。

magagop · 帖子由 **magagop** » 2025年 2月 26日 13:55

xexz 写了： 2025年 2月 26日 02:04 没有java那么复杂，更像linux核心里的那个BPF，算是一个‘专用的’虚拟机。

我記得BPF不支持循環，這個支持麼？

magagop · 帖子由 **magagop** » 2025年 2月 26日 13:57

drifter 写了： 2025年 2月 26日 02:17 其实可以算两个成果一个是针对ai运算优化的虚拟机一个是对接芯片的底层实现案例两者结合跑起来性能还挺好

各个芯片厂搞个几周应该就可以照猫画虎跑起来这下就形成一个新的产业生态的

沒你想得那麼簡單，binary和assembly兼容很難的，參考zluda，只有強大如蘋果，才能同時拿到x86和arm的授權，搞Rosetta 2

magagop · 帖子由 **magagop** » 2025年 2月 26日 13:59

supercnm 写了： 2025年 2月 26日 03:10 感觉主要是提供了一种思路，硬件公司Nvidia的软件部门太烂，有大量的空间可以优化

老黄现在应该做的是，赶紧对新的blackwell芯片做指令优化，或者把blackwell的指令做加密，不准别人优化

NVDA基本可以看成軟件公司，如果綠廠軟件部門太爛的話，紅藍廠軟件部門怎麼活？集體切腹謝罪麼？

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:01

Dachun 写了： 2025年 2月 26日 03:28 硬件技术已经不是业余人所能理解，所以产生了这些胡言乱语的东西。甚至可以说是造谣或者骗局。有些人是别有用心

同意你的說法，這裡真正做底層芯片的人太少了，因為錢少，只有傻子才會堅持。做軟件的根本不懂，還愛指點江山。

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:06

drifter 写了： 2025年 2月 26日 04:20 看能不能振臂一呼形成新的业界标准对抗NVIDIA 这样堡垒就从帝国内部分裂了

当然美帝可以下令不准intel AMD之类的厂商使用这种标准

OpenCL已經死了很多年，都不需要燒香了。紅廠已經倒戈，一心只做CUDA第二，幻想重現x86 copycat的輝煌。藍廠明年說不定就沒了，今年GPU部門可以集體推出去祭旗。

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:08

Caravel 写了： 2025年 2月 26日 05:08 fp8不像是正道

就和早期电脑上面的省内村的技巧一样

FP8為什麼不是正道？那FP4又是什麼？紅藍廠為什麼要跟，也推出FP8？

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:10

xexz 写了： 2025年 2月 26日 06:26 是指当下、现在的硬件平台支持情况，

将来amd、intel、华为、摩尔线程、寒武纪。。。都可以提供自己的‘硬件平台’来支持这个‘虚拟机jit’（就象把java虚拟机，从x86平台移植到arm平台），只是现在刚开源，他们还没来得及（有消息说彻底抛开gpu架构的专用硬件asic，今年上半年就会出现，gpu并非对张量运算特别优化的计算结构，这个效率提升就更大了）。

另外，即使你帝行政/立法不让amd,intel支持，

这不耽误什么事，没人和钱过不去。

你覺得開發Triton和JAX的人都是傻子弱智麼？憑什麼為了區區400行拋棄自己的架構？先去看看最新局勢再來發言。

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:17

xexz 写了： 2025年 2月 26日 08:25 不久的将来也许可以：
include <按摩店gpu.h>
include <挤牙膏gpu.h>
include <华为npu.h>
include <摩尔线程gpu.h>
include <寒武纪npu.h>

当然，事情远非这么简单，硬件厂家要提供他们各自硬件指令的汇编器，并且支持这个‘虚拟机’的实现。

关键是，并不需要硬件厂家提供兼容cuda的高级语言编译器，cuda是和nvgpu硬件深度绑定的闭源软件。

不需要將來，現在紅廠就支持，#include <hip/hip_runtime.h>

結果做了十年，也就現在這樣。

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:20

drifter 写了： 2025年 2月 26日 10:36 不是这个技术有啥牛逼的而是这个虚拟机牛逼有潜力成为业界标准各家支持这个标准底层可以各家不同汇编实现

這玩意早就有了，紅綠藍都用LLVM IR做自己的虛擬機，PyTorch Triton和Google JAX也不是白給的。DeepSeek這個絕對沒有可能成為虛擬機業內標準。

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:22

adylee 写了： 2025年 2月 26日 10:44 这个说法太外行了
这点汇编，
是适应于这个特定的硬件才能写的，
目的是发挥出这个硬件的最大的功效，
而不是说，这个写法就是标准了，大家都要往上边靠。

这么说吧，假设现在女大把最新的最牛的gpu给ds，
ds还可以(因为他们有这个技术力量)写出基于这个新gpu的新的汇编指令，
使得gemm运算在新gpu上还能加速多少倍。
而不是说，这点写出来的代码是神是标准，大家造显卡要往这个上边来适应。

這也是正確答案，這400行絕無可能成為業內標準。

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:26

drifter 写了： 2025年 2月 26日 11:53 虚拟机夸张了我觉得还是更接近当年MMX扩展之类的

錯，DeepSeek只不過重新寫了一個FP8的GEMM計算kernel而已，根本沒有硬件指令集擴展。

verdelite · 帖子由 **verdelite** » 2025年 2月 26日 14:31

magagop 写了： 2025年 2月 26日 13:57 沒你想得那麼簡單，binary和assembly兼容很難的，參考zluda，只有強大如蘋果，才能同時拿到x86和arm的授權，搞Rosetta 2

没人要别的厂商在binary指令上兼容女大。

他们说的是，兼容DS。这个完全可以和女大无关，只针对这个代码（其中硬件指令可以重新编码）做个新GPU。

Caravel · 帖子由 **Caravel** » 2025年 2月 26日 14:33

magagop 写了： 2025年 2月 26日 14:08 FP8為什麼不是正道？那FP4又是什麼？紅藍廠為什麼要跟，也推出FP8？

越长精度越高，2倍的加速短期内是一个事情

长期不算什么

你现在编程需要管fp8，fp4，还不是直接fp64

huangchong

Caravel 写了： 2025年 2月 26日 14:33 越长精度越高，2倍的加速短期内是一个事情

长期不算什么

你现在编程需要管fp8，fp4，还不是直接fp64

长期看，神经网络大块运算fp8 甚至fp4是趋势。

fp8相对于fp16，加速不是光两倍，因为需要从内存搬运和需要缓存的数据字节数本身也很重要。特别是缓存和寄存器。你存fp16就能比存fp32多缓存一倍的数据，白白的缓存就大了一倍。缓存很贵的，寄存器就更贵了。

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:40

verdelite 写了： 2025年 2月 26日 14:31 没人要别的厂商在binary指令上兼容女大。

他们说的是，兼容DS。这个完全可以和女大无关，只针对这个代码（其中硬件指令可以重新编码）做个新GPU。

做新GPU更不可能了，紅藍廠已經大量投入Triton和JAX，能實現同樣的效果，憑什麼要重做GPU？憑什麼被中國公司（還不是芯片公司）牽著鼻子走？

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:43

Caravel 写了： 2025年 2月 26日 14:33 越长精度越高，2倍的加速短期内是一个事情

长期不算什么

你现在编程需要管fp8，fp4，还不是直接fp64

行了，一看你說的，就知道你是DL外行，我都懶得跟你解釋了。

Caravel · 帖子由 **Caravel** » 2025年 2月 26日 14:46

magagop 写了： 2025年 2月 26日 14:43 行了，一看你說的，就知道你是DL外行，我都懶得跟你解釋了。

牛逼拉，来出来转两圈，你是openai还是Meta？

magagop · 帖子由 **magagop** » 2025年 2月 26日 14:46

huangchong 写了： 2025年 2月 26日 14:40 长期看，神经网络大块运算fp8 甚至fp4是趋势。

fp8相对于fp16，加速不是光两倍，因为需要从内存搬运和需要缓存的数据字节数本身也很重要。特别是缓存和寄存器。你存fp16就能比存fp32多缓存一倍的数据，白白的缓存就大了一倍。缓存很贵的，寄存器就更贵了。

這才是正確答案，我覺得沒必要給這些硬件盲科普掃盲。FP8非常關鍵，FP4將會是頂峰，這就是結論，Rubin和RubinNext很可怕，跟不上就會掉隊。

新未名空间

完了，deepseek把GPU上的fp8的汇编代码开源了。

#101 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#102 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#103 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#104 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#105 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#106 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#107 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#108 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#109 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#110 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#111 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#112 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#113 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#114 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#115 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#116 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#117 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#118 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#119 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。

#120 Re: 完了，deepseek把GPU上的fp8的汇编代码开源了。