DeepGEMM 专为干净高效的 FP8 通用矩阵乘法 (GEMM) 而设计,具有细粒度的缩放功能,如 DeepSeek-V3 中所提出的。
它支持普通 GEMM 和混合专家 (MoE) 组 GEMM。该库用 CUDA 编写,安装期间无需编译,因为它使用轻量级的即时 (JIT) 模块在运行时编译所有内核。
目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心。为了解决 FP8 张量核心累积的不精确性,它采用了 CUDA 核心两级累积(提升)。
虽然它借鉴了 CUTLASS 和 CuTe 中的一些概念,但它避免了过度依赖它们的模板或代数。
相反,该库的设计注重简洁,只有一个核心内核函数,包含大约 ~300 行代码。这使得它成为学习 Hopper FP8 矩阵乘法和优化技术的干净且易于访问的资源。
DeepSeek开源CUDA版FP8通用矩阵乘法库
版主: Softfist