🎉 开源周第一弹，deepseek分享了这些代码，码工工人们能看懂是什么吗？✨✨✨

datada · 帖子由 **datada** » 2025年 2月 24日 11:04

黄皮裤又一次诈骗了biden政府。阉割版的显卡居然可以reprogram，和高端显卡能力不相上下。

guobaying · 帖子由 **guobaying** » 2025年 2月 24日 11:25

您这就有点尴尬了。

fyou 写了： 2025年 2月 24日 10:04 之前不是说开源了吗？

怎么现在又开一边

打脸自己吗

Mountainlion · 帖子由 **Mountainlion** » 2025年 2月 24日 11:29

so that means I won't be facing the "server busy" while using Deepseek now?
-Nayanta Thapa@nayantathapa

starbox 写了： 2025年 2月 24日 10:02

_notalandlord

看不懂可以让DS自己看嘛！啥几把木鱼脑袋

starbox · 帖子由 **starbox楼主** » 2025年 2月 24日 11:41

datada 写了： 2025年 2月 24日 11:04 黄皮裤又一次诈骗了biden政府。阉割版的显卡居然可以reprogram，和高端显卡能力不相上下。

这是要搞死黄皮？

rtscts · 帖子由 **rtscts** » 2025年 2月 24日 12:44

Deepseek拿出了高频交易做市HFT基金的传统手艺，直接hack进了女大的内核系统

作者：北海AI prompter
链接：https://www.zhihu.com/question/13184986 ... 9022087579
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

「开源大厂卷性能？不，这次DeepSeek直接把H800的裤衩都扒了！」今天凌晨刷到这条消息时，我特么差点把咖啡泼在键盘上——DeepSeek开源周第一天甩出的FlashMLA项目，直接把Hopper架构GPU的性能榨出了灵魂。这玩意儿在H800上跑出3000GB/s内存带宽+580TFLOPS计算性能，硬生生把大模型推理速度往「光速」方向推进了三个段位。一、FlashMLA的「三把斧」这项目能火得让GitHub服务器冒烟（开源1小时斩获1200+星标），靠的可不是花架子。咱们直接上硬菜：

第一斧：祖传KV缓存原地瘦身传统Transformer处理长文本就像背着沙袋跑马拉松，KV缓存动辄吃掉几十GB显存。FlashMLA直接祭出低秩联合压缩，把键值矩阵投影到低维空间，**显存占用直接砍到传统方案的5%-13%**。举个栗子：处理1000词长文本时，原本要存100GB中间结果，现在只要25GB，这波操作堪称「AI界抽脂手术」。

第二斧：分页缓存玩出操作系统级骚操作搞过CUDA编程的都懂显存碎片化有多恶心。FlashMLA直接移植操作系统分页机制，用块大小64的分页KV缓存动态分配内存。这相当于给GPU内存装了智能收纳系统，处理变长序列时再也不用「削足适履」填零凑数，**无效算力消耗直接砍掉30%**。想象一下，这就像把杂乱无章的仓库变成宜家样板间，找东西效率直接起飞。

第三斧：BF16精度上演帽子戏法既要马儿跑得快又要少吃草？FlashMLA的BF16支持在FP32的动态范围和FP16的计算效率间玩平衡术。实测显示，在保持模型精度的前提下，推理吞吐量比传统方案提升5.76倍。这感觉就像用五菱宏光的油耗开出了法拉利的推背感。

二、技术宅的「颅内高潮」时刻看到这里可能有杠精要问：「吹得这么神，实际能干啥？」咱们直接上场景：客服机器人：以前处理2000字投诉信要等5秒，现在1秒出结果，用户骂街前就能灭火游戏NPC：实时生成万字剧情对话不卡顿，RPG游戏直接变《西部世界》医疗影像：CT片子秒级诊断还能附送3000字病理分析，医生摸鱼时间+10086更骚的是，这项目直接开源了生产级代码。开发者只需要几行Python指令就能把祖传模型改装成「闪电侠」，连CUDA黑魔法都不用碰。有老哥实测后发现，混合长度对话请求的每秒处理令牌数直接干到业界平均2.3倍，延迟波动还降了60%。三、开源界的「技术恐怖分子」DeepSeek这波操作堪称「既当运动员又造跑道」——FlashMLA不仅优化自家模型，还把英伟达H800的隐藏技能树全点亮了。更可怕的是，分页缓存机制对国产芯片极度友好，这相当于给端侧AI装了涡轮增压。看着GitHub评论区里老外刷屏的「Respect to Chinese engineers」，突然想起十年前咱们还在「借鉴」别人的框架。现在？全球150万模型里登顶HuggingFace的DeepSeek-R1，加上FlashMLA这种核弹级基础设施，硬生生把AI竞赛玩成了「中国速度」展销会。「以前总说算力卡脖子，现在DeepSeek直接把卡脖子的手掰断了。」这波开源周才第一天，后面四天要是再扔出几个王炸，我怀疑英伟达股价都要抖三抖。建议黄老板赶紧买张机票来深圳取经，再这么卷下去，Hopper架构的棺材板真要压不住了。

starbox · 帖子由 **starbox楼主** » 2025年 2月 24日 13:46

Respect to Chinese engineers

rtscts · 帖子由 **rtscts** » 2025年 2月 24日 13:53

这个仅仅是第一天开源的，只是硬件系统方面的优化而已，还没有涉及到AI训练的优化。

这个5天开源是吊足了所有人的胃口。

goodegg

你妈
这是不知道自己傻逼
主动出来现眼的

fyou 写了： 2025年 2月 24日 10:04 之前不是说开源了吗？

怎么现在又开一边

打脸自己吗

新未名空间

🎉 开源周第一弹，deepseek分享了这些代码，码工工人们能看懂是什么吗？✨✨✨

#21 Re: 🎉 开源周第一弹，deepseek分享了这些代码，码工工人们能看懂是什么吗？✨✨✨

#22 Re: 开源周第一弹，deepseek分享了这些代码，码工工人们能看懂是什么吗？

#23 Re: 🎉 开源周第一弹，deepseek分享了这些代码，码工工人们能看懂是什么吗？✨✨✨

#24 Re: 🎉 开源周第一弹，deepseek分享了这些代码，码工工人们能看懂是什么吗？✨✨✨

#25 Re: 🎉 开源周第一弹，deepseek分享了这些代码，码工工人们能看懂是什么吗？✨✨✨

#26 Re: 🎉 开源周第一弹，deepseek分享了这些代码，码工工人们能看懂是什么吗？✨✨✨

#27 Re: 🎉 开源周第一弹，deepseek分享了这些代码，码工工人们能看懂是什么吗？✨✨✨

#28 Re: 🎉 开源周第一弹，deepseek分享了这些代码，码工工人们能看懂是什么吗？✨✨✨

#29 Re: 开源周第一弹，deepseek分享了这些代码，码工工人们能看懂是什么吗？