9月29日,DeepSeek更新了一个实验性的人工智能(AI)模型,并称之为迈向新一代架构的中间步骤。DeekSeek在Hugging Face上发布帖子,概述了DeepSeek-V3.1-Exp平台,并解释说该平台引入一种名为DeepSeek Sparse Attention(DSA)的“稀疏注意力机制”,DSA可以在长上下文中进行更快、更高效的训练和推理。
DeepSeek稀疏注意力了,元芳,你怎么看?
版主: 牛河梁
-
- 论坛元老
cellcycle1 的博客 - 帖子互动: 1029
- 帖子: 70385
- 注册时间: 2022年 7月 24日 15:59