DeepSeek开源CUDA版FP8通用矩阵乘法库

对应老买买提的军事天地,观点交锋比较激烈。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。

版主: Softfist

回复
头像
snowman(*^_^*)楼主
论坛元老
论坛元老
帖子互动: 1121
帖子: 20043
注册时间: 2022年 10月 25日 14:10

#1 DeepSeek开源CUDA版FP8通用矩阵乘法库

帖子 snowman(*^_^*)楼主 »

DeepGEMM 专为干净高效的 FP8 通用矩阵乘法 (GEMM) 而设计,具有细粒度的缩放功能,如 DeepSeek-V3 中所提出的。

它支持普通 GEMM 和混合专家 (MoE) 组 GEMM。该库用 CUDA 编写,安装期间无需编译,因为它使用轻量级的即时 (JIT) 模块在运行时编译所有内核。

目前,DeepGEMM 仅支持 NVIDIA Hopper 张量核心。为了解决 FP8 张量核心累积的不精确性,它采用了 CUDA 核心两级累积(提升)。

虽然它借鉴了 CUTLASS 和 CuTe 中的一些概念,但它避免了过度依赖它们的模板或代数。

相反,该库的设计注重简洁,只有一个核心内核函数,包含大约 ~300 行代码。这使得它成为学习 Hopper FP8 矩阵乘法和优化技术的干净且易于访问的资源。
回复

回到 “军事天地(Military)”