DeepSeek开源CUDA版FP8通用矩阵乘法库

版主： Softfist

1 帖子 • 分页： 1 / 1

snowman（*^_^*）楼主: 论坛元老; 帖子互动： 1121; 帖子： 20043; 注册时间： 2022年 10月 25日 14:10

#1 DeepSeek开源CUDA版FP8通用矩阵乘法库

引用

帖子由 snowman（*^_^*）楼主 » 2025年 2月 25日 22:54

DeepGEMM 专为干净高效的 FP8 通用矩阵乘法 (GEMM) 而设计，具有细粒度的缩放功能，如 DeepSeek-V3 中所提出的。

它支持普通 GEMM 和混合专家 (MoE) 组 GEMM。该库用 CUDA 编写，安装期间无需编译，因为它使用轻量级的即时 (JIT) 模块在运行时编译所有内核。

目前，DeepGEMM 仅支持 NVIDIA Hopper 张量核心。为了解决 FP8 张量核心累积的不精确性，它采用了 CUDA 核心两级累积（提升）。

虽然它借鉴了 CUTLASS 和 CuTe 中的一些概念，但它避免了过度依赖它们的模板或代数。

相反，该库的设计注重简洁，只有一个核心内核函数，包含大约 ~300 行代码。这使得它成为学习 Hopper FP8 矩阵乘法和优化技术的干净且易于访问的资源。

1 帖子 • 分页： 1 / 1

回到 “军事天地（Military）”