Deepseek v3.2

hci

使用稀疏注意机制，选取top k tokens来避免O(n²)的注意计算复杂度，大幅度降低了计算开销。相应DS也大幅度减价:

V3.2: $0.28/M input tokens and $0.42/M output tokens
V3.1: $0.56/M input tokens and $1.68/M output tokens

cernivtsi · 帖子由 **cernivtsi** » 2025年 9月 29日 13:15

Q&A：稀疏注意力与长上下文模型

问：稀疏注意力是如何选择参与计算的 token？是固定规则还是可学习的？
答：稀疏注意力采用动态分层稀疏策略（Dynamic Hierarchical Sparse Attention，NSA/DSA）。在训练阶段，它根据序列结构和注意力分数动态选择关键 token。具体而言：

局部滑动窗口保证相邻 token 间的信息流；
全局粗粒度 token 压缩保留重要全局信息；
关键 token 选择通过 attention scores 或 top-k 策略挑选对任务最关键的 token。
这种策略是可训练的端到端机制，不是固定规则，使模型能够在不同任务和上下文中自动优化稀疏模式。

问：如何保证在长序列中不会丢失核心信息？
答：模型通过多路径注意力设计来兼顾局部和全局信息：

问：稀疏机制会不会影响梯度传播或收敛性？
答：虽然稀疏矩阵减少了注意力计算量，但模型通过端到端训练实现梯度流连续性。实验显示，无论是在解码还是前向/反向传播阶段，模型在长序列任务上收敛稳定，且梯度波动可控。需要注意，这里的稳定性是基于实验观察而非严格数学证明。

问：复杂度如何变化？
答：动态分层稀疏策略降低了注意力计算复杂度：

全注意力：前向/反向传播时间复杂度为 O(L²)（L为序列长度）；
NSA/DSA：复杂度下降至 O(L · k) 或分层 O(L log L) 级别，其中 k 为关键 token 数量，实际实验中前向传播可加速 9-11 倍。

问：稀疏注意力在不同硬件上是否高效？
答：提供了高性能实现，包括 CUDA 内核、分页内核和 FlashMLA 内核，支持 GPU 和 NPU（如 H200、MI350）平台。长序列任务加速显著，但短序列或小模型上加速效果有限。硬件对齐和块状矩阵访问优化是关键。

问：TileLang 内核有什么特点？
答：TileLang 内核用于研究和调试，牺牲部分性能以换取可读性和可修改性。研究人员可以轻松探索新的稀疏模式或硬件优化。

问：稀疏内核是否存在局限？
答：主要优化目标是长序列任务（>16k token）。在短序列或小模型上加速有限，同时要求硬件支持高效内存访问，否则性能提升不明显。

问：性能提升是否稳定？
答：实验显示：

问：性能提升原因？
答：主要源于稀疏计算减少注意力矩阵规模，同时多路径设计保证核心信息被处理，减少计算瓶颈，使解码和生成任务响应更快。

问：不同硬件上的稳定性？
答：实验在 GPU、H200、MI350、NPU 等平台验证，长序列任务加速稳定，短序列加速有限但仍优于全注意力。

问：适用哪些模型架构？
答：主要在 decoder-only 架构下验证，对标准 Transformer backbone 长序列建模也适用。encoder-decoder 或多模态任务尚未验证。

问：生成任务会丢失上下文吗？
答：通过局部窗口、全局压缩和关键 token 动态选择，生成任务中上下文保持完整，实验表明输出连贯性良好。

问：多模态任务可行吗？
答：目前仅针对文本长序列任务，尚无多模态实验数据。