Deepseek v3.2

版主: hci

回复
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 523
帖子: 10371
注册时间: 2022年 7月 22日 15:29

#1 Deepseek v3.2

帖子 hci(海螺子)楼主 »

使用稀疏注意机制,选取top k tokens来避免O(n2)的注意计算复杂度,大幅度降低了计算开销。相应DS也大幅度减价:

V3.2: $0.28/M input tokens and $0.42/M output tokens
V3.1: $0.56/M input tokens and $1.68/M output tokens

v3.2论文见:https://github.com/deepseek-ai/DeepSeek ... k_V3_2.pdf

稀疏注意论文见: https://arxiv.org/pdf/2502.11089

x2 图片
上次由 hci 在 2025年 9月 29日 12:56 修改。
原因: 未提供修改原因
cernivtsi
职业作家
职业作家
帖子互动: 78
帖子: 783
注册时间: 2025年 1月 5日 03:03

#2 Re: Deepseek v3.2

帖子 cernivtsi »

Q&A:稀疏注意力与长上下文模型


1️⃣ 理论与方法层面

问:稀疏注意力是如何选择参与计算的 token?是固定规则还是可学习的?
答:稀疏注意力采用动态分层稀疏策略(Dynamic Hierarchical Sparse Attention,NSA/DSA)。在训练阶段,它根据序列结构和注意力分数动态选择关键 token。具体而言:

  1. 局部滑动窗口保证相邻 token 间的信息流;
  2. 全局粗粒度 token 压缩保留重要全局信息;
  3. 关键 token 选择通过 attention scores 或 top-k 策略挑选对任务最关键的 token。
    这种策略是可训练的端到端机制,不是固定规则,使模型能够在不同任务和上下文中自动优化稀疏模式。

问:如何保证在长序列中不会丢失核心信息?
答:模型通过多路径注意力设计来兼顾局部和全局信息:

  • 局部窗口捕捉连续上下文,保持细粒度依赖;
  • 压缩 token 提供全局语义摘要;
  • 关键 token 确保任务相关的核心信息被处理。
    这种设计在实验中证明,即使序列长度达到几十万 token,模型也能保留重要依赖关系。

问:稀疏机制会不会影响梯度传播或收敛性?
答:虽然稀疏矩阵减少了注意力计算量,但模型通过端到端训练实现梯度流连续性。实验显示,无论是在解码还是前向/反向传播阶段,模型在长序列任务上收敛稳定,且梯度波动可控。需要注意,这里的稳定性是基于实验观察而非严格数学证明。


问:复杂度如何变化?
答:动态分层稀疏策略降低了注意力计算复杂度:

  • 全注意力:前向/反向传播时间复杂度为 O(L2)(L为序列长度);
  • NSA/DSA:复杂度下降至 O(L · k) 或分层 O(L log L) 级别,其中 k 为关键 token 数量,实际实验中前向传播可加速 9-11 倍。

2️⃣ 算法实现层面

问:稀疏注意力在不同硬件上是否高效?
答:提供了高性能实现,包括 CUDA 内核、分页内核和 FlashMLA 内核,支持 GPU 和 NPU(如 H200、MI350)平台。长序列任务加速显著,但短序列或小模型上加速效果有限。硬件对齐和块状矩阵访问优化是关键。


问:TileLang 内核有什么特点?
答:TileLang 内核用于研究和调试,牺牲部分性能以换取可读性和可修改性。研究人员可以轻松探索新的稀疏模式或硬件优化。


问:稀疏内核是否存在局限?
答:主要优化目标是长序列任务(>16k token)。在短序列或小模型上加速有限,同时要求硬件支持高效内存访问,否则性能提升不明显。


3️⃣ 实验结果层面

问:性能提升是否稳定?
答:实验显示:

  • 长序列(64k token)前向传播、反向传播和解码加速显著;
  • 多个基准任务上性能接近或略优于全注意力模型;
  • 少数任务如 MMLU 或 LiveCodeBench 上分数略有下降 (<1%),可认为属于可接受波动。

问:性能提升原因?
答:主要源于稀疏计算减少注意力矩阵规模,同时多路径设计保证核心信息被处理,减少计算瓶颈,使解码和生成任务响应更快。

问:不同硬件上的稳定性?
答:实验在 GPU、H200、MI350、NPU 等平台验证,长序列任务加速稳定,短序列加速有限但仍优于全注意力。


4️⃣ 适用性与局限性

问:适用哪些模型架构?
答:主要在 decoder-only 架构下验证,对标准 Transformer backbone 长序列建模也适用。encoder-decoder 或多模态任务尚未验证。

问:生成任务会丢失上下文吗?
答:通过局部窗口、全局压缩和关键 token 动态选择,生成任务中上下文保持完整,实验表明输出连贯性良好。

问:多模态任务可行吗?
答:目前仅针对文本长序列任务,尚无多模态实验数据。


x1 图片
回复

回到 “葵花宝典(Programming)”