这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。
来自Mirae Asset Securities Research(韩国未来资产证券)的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。
在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器(SMs)中的20个修改成负责服务器间的通信,而不是计算任务。
变相绕过了硬件对通信速度的限制。

寿司1:https://www.tomshardware.com/tech-indus ... ng-instead
寿司2:https://www.6parknews.com/newspark/view ... nid=708021