🎉 开源周第一弹,deepseek分享了这些代码,码工工人们能看懂是什么吗?✨✨✨
版主: Softfist
#21 Re: 🎉 开源周第一弹,deepseek分享了这些代码,码工工人们能看懂是什么吗?✨✨✨
黄皮裤又一次诈骗了biden政府。 阉割版的显卡居然可以reprogram,和高端显卡能力不相上下。
#23 Re: 🎉 开源周第一弹,deepseek分享了这些代码,码工工人们能看懂是什么吗?✨✨✨
so that means I won't be facing the "server busy" while using Deepseek now?
-Nayanta Thapa@nayantathapa
-Nayanta Thapa@nayantathapa
共产党就是赤裸裸黑手党
#26 Re: 🎉 开源周第一弹,deepseek分享了这些代码,码工工人们能看懂是什么吗?✨✨✨
Deepseek拿出了高频交易做市HFT基金的传统手艺,直接hack进了女大的内核系统
作者:北海AI prompter
链接:https://www.zhihu.com/question/13184986 ... 9022087579
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
「开源大厂卷性能?不,这次DeepSeek直接把H800的裤衩都扒了!」今天凌晨刷到这条消息时,我特么差点把咖啡泼在键盘上——DeepSeek开源周第一天甩出的FlashMLA项目,直接把Hopper架构GPU的性能榨出了灵魂。这玩意儿在H800上跑出3000GB/s内存带宽+580TFLOPS计算性能,硬生生把大模型推理速度往「光速」方向推进了三个段位。一、FlashMLA的「三把斧」这项目能火得让GitHub服务器冒烟(开源1小时斩获1200+星标),靠的可不是花架子。咱们直接上硬菜:
第一斧:祖传KV缓存原地瘦身传统Transformer处理长文本就像背着沙袋跑马拉松,KV缓存动辄吃掉几十GB显存。FlashMLA直接祭出低秩联合压缩,把键值矩阵投影到低维空间,**显存占用直接砍到传统方案的5%-13%**。举个栗子:处理1000词长文本时,原本要存100GB中间结果,现在只要25GB,这波操作堪称「AI界抽脂手术」。
第二斧:分页缓存玩出操作系统级骚操作搞过CUDA编程的都懂显存碎片化有多恶心。FlashMLA直接移植操作系统分页机制,用块大小64的分页KV缓存动态分配内存。这相当于给GPU内存装了智能收纳系统,处理变长序列时再也不用「削足适履」填零凑数,**无效算力消耗直接砍掉30%**。想象一下,这就像把杂乱无章的仓库变成宜家样板间,找东西效率直接起飞。
第三斧:BF16精度上演帽子戏法既要马儿跑得快又要少吃草?FlashMLA的BF16支持在FP32的动态范围和FP16的计算效率间玩平衡术。实测显示,在保持模型精度的前提下,推理吞吐量比传统方案提升5.76倍。这感觉就像用五菱宏光的油耗开出了法拉利的推背感。
二、技术宅的「颅内高潮」时刻看到这里可能有杠精要问:「吹得这么神,实际能干啥?」咱们直接上场景:客服机器人:以前处理2000字投诉信要等5秒,现在1秒出结果,用户骂街前就能灭火游戏NPC:实时生成万字剧情对话不卡顿,RPG游戏直接变《西部世界》医疗影像:CT片子秒级诊断还能附送3000字病理分析,医生摸鱼时间+10086更骚的是,这项目直接开源了生产级代码。开发者只需要几行Python指令就能把祖传模型改装成「闪电侠」,连CUDA黑魔法都不用碰。有老哥实测后发现,混合长度对话请求的每秒处理令牌数直接干到业界平均2.3倍,延迟波动还降了60%。三、开源界的「技术恐怖分子」DeepSeek这波操作堪称「既当运动员又造跑道」——FlashMLA不仅优化自家模型,还把英伟达H800的隐藏技能树全点亮了。更可怕的是,分页缓存机制对国产芯片极度友好,这相当于给端侧AI装了涡轮增压。看着GitHub评论区里老外刷屏的「Respect to Chinese engineers」,突然想起十年前咱们还在「借鉴」别人的框架。现在?全球150万模型里登顶HuggingFace的DeepSeek-R1,加上FlashMLA这种核弹级基础设施,硬生生把AI竞赛玩成了「中国速度」展销会。「以前总说算力卡脖子,现在DeepSeek直接把卡脖子的手掰断了。」 这波开源周才第一天,后面四天要是再扔出几个王炸,我怀疑英伟达股价都要抖三抖。建议黄老板赶紧买张机票来深圳取经,再这么卷下去,Hopper架构的棺材板真要压不住了。
作者:北海AI prompter
链接:https://www.zhihu.com/question/13184986 ... 9022087579
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
「开源大厂卷性能?不,这次DeepSeek直接把H800的裤衩都扒了!」今天凌晨刷到这条消息时,我特么差点把咖啡泼在键盘上——DeepSeek开源周第一天甩出的FlashMLA项目,直接把Hopper架构GPU的性能榨出了灵魂。这玩意儿在H800上跑出3000GB/s内存带宽+580TFLOPS计算性能,硬生生把大模型推理速度往「光速」方向推进了三个段位。一、FlashMLA的「三把斧」这项目能火得让GitHub服务器冒烟(开源1小时斩获1200+星标),靠的可不是花架子。咱们直接上硬菜:
第一斧:祖传KV缓存原地瘦身传统Transformer处理长文本就像背着沙袋跑马拉松,KV缓存动辄吃掉几十GB显存。FlashMLA直接祭出低秩联合压缩,把键值矩阵投影到低维空间,**显存占用直接砍到传统方案的5%-13%**。举个栗子:处理1000词长文本时,原本要存100GB中间结果,现在只要25GB,这波操作堪称「AI界抽脂手术」。
第二斧:分页缓存玩出操作系统级骚操作搞过CUDA编程的都懂显存碎片化有多恶心。FlashMLA直接移植操作系统分页机制,用块大小64的分页KV缓存动态分配内存。这相当于给GPU内存装了智能收纳系统,处理变长序列时再也不用「削足适履」填零凑数,**无效算力消耗直接砍掉30%**。想象一下,这就像把杂乱无章的仓库变成宜家样板间,找东西效率直接起飞。
第三斧:BF16精度上演帽子戏法既要马儿跑得快又要少吃草?FlashMLA的BF16支持在FP32的动态范围和FP16的计算效率间玩平衡术。实测显示,在保持模型精度的前提下,推理吞吐量比传统方案提升5.76倍。这感觉就像用五菱宏光的油耗开出了法拉利的推背感。
二、技术宅的「颅内高潮」时刻看到这里可能有杠精要问:「吹得这么神,实际能干啥?」咱们直接上场景:客服机器人:以前处理2000字投诉信要等5秒,现在1秒出结果,用户骂街前就能灭火游戏NPC:实时生成万字剧情对话不卡顿,RPG游戏直接变《西部世界》医疗影像:CT片子秒级诊断还能附送3000字病理分析,医生摸鱼时间+10086更骚的是,这项目直接开源了生产级代码。开发者只需要几行Python指令就能把祖传模型改装成「闪电侠」,连CUDA黑魔法都不用碰。有老哥实测后发现,混合长度对话请求的每秒处理令牌数直接干到业界平均2.3倍,延迟波动还降了60%。三、开源界的「技术恐怖分子」DeepSeek这波操作堪称「既当运动员又造跑道」——FlashMLA不仅优化自家模型,还把英伟达H800的隐藏技能树全点亮了。更可怕的是,分页缓存机制对国产芯片极度友好,这相当于给端侧AI装了涡轮增压。看着GitHub评论区里老外刷屏的「Respect to Chinese engineers」,突然想起十年前咱们还在「借鉴」别人的框架。现在?全球150万模型里登顶HuggingFace的DeepSeek-R1,加上FlashMLA这种核弹级基础设施,硬生生把AI竞赛玩成了「中国速度」展销会。「以前总说算力卡脖子,现在DeepSeek直接把卡脖子的手掰断了。」 这波开源周才第一天,后面四天要是再扔出几个王炸,我怀疑英伟达股价都要抖三抖。建议黄老板赶紧买张机票来深圳取经,再这么卷下去,Hopper架构的棺材板真要压不住了。
#28 Re: 🎉 开源周第一弹,deepseek分享了这些代码,码工工人们能看懂是什么吗?✨✨✨
这个仅仅是第一天开源的,只是硬件系统方面的优化而已,还没有涉及到AI训练的优化。
这个5天开源是吊足了所有人的胃口。
这个5天开源是吊足了所有人的胃口。