#1 DeepSeek稀疏注意力了,元芳,你怎么看?
发表于 : 2025年 9月 29日 15:55
9月29日,DeepSeek更新了一个实验性的人工智能(AI)模型,并称之为迈向新一代架构的中间步骤。DeekSeek在Hugging Face上发布帖子,概述了DeepSeek-V3.1-Exp平台,并解释说该平台引入一种名为DeepSeek Sparse Attention(DSA)的“稀疏注意力机制”,DSA可以在长上下文中进行更快、更高效的训练和推理。
9月29日,DeepSeek更新了一个实验性的人工智能(AI)模型,并称之为迈向新一代架构的中间步骤。DeekSeek在Hugging Face上发布帖子,概述了DeepSeek-V3.1-Exp平台,并解释说该平台引入一种名为DeepSeek Sparse Attention(DSA)的“稀疏注意力机制”,DSA可以在长上下文中进行更快、更高效的训练和推理。
不懂,只点赞,
另起炉灶,不一定能成功。
sliding window 加 top-k 的trick
啊?
大智慧创造“注意力”,小聪明围着它打补丁。