DSA稀疏注意力

← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.6 · ← 算法线导读 · ← 基础设施线导读 · ← V3.2 梗概 · 上游 MLA · 下游 CSA/HCA · 下游 V4 梗概 · 下游 Index Share · 下游 ESS · Lightning Indexer 详解 · 完整逻辑 · Raschka §4 DSA 论文DeepSeek-V3.2 arXiv:2512.02556 · Exp:DeepSeek-V3.2


一句话

DSAMLA 不变 的前提下,把长上下文注意力从「对全长 $L$ 做稠密 MLA」改成 先 indexer 扫全长选 top-$k$,再只对 $k$ 个 latent entry 做 MLA;主路径复杂度 $O(L^2) \to O(Lk)$($k{=}2048$,$k \ll L$)。DeepSeek-V3.2-Exp(2025-09,DeepSeek 官方实验版)验证稀疏不损精度;DeepSeek-V3.2(2025-12)为正式版。

逻辑详解DSA逻辑详解 · Lightning Indexer · 系列导读


技术归属

组件机构说明
DSADeepSeek稀疏注意力算法;V3.2 唯一架构改动
V3.2-Exp / V3.2DeepSeek官方模型 release(Exp 铺生态,正式版完整后训练)
ESS百度百舸针对 DeepSeek V3.2 的 Latent-Cache offload DSA 发明方
IndexCache清华 + 智谱跨层 index 复用; DSA 发明方

易混点:ESS 论文标题写 for DeepSeek-V3.2-Exp,指的是优化对象是 DeepSeek 模型,不是百度发布了 V3.2-Exp。


流程图

DSA:Lightning Indexer → Top-k → Core MLA;Indexer-Cache 与 Latent-Cache

图示详情 · 系列目录


三阶段

阶段做什么复杂度说明
Lightning Indexer当前 $q_t$ 对全长历史的 indexer key $k_s$ 打分($I_{t,s}$)$O(L^2)$ 量级,常数极小决定「看谁」;walkthrough
② Top-$k$ Selector取分数最高的 $k{=}2048$ 个位置$O(L \log k)$得到 index 集合 $I$
③ Core MLA仅对 $I$ 中 entry 做标准 MLA attention$O(Lk)$精度敏感主算子
DSA 每层三阶段:Query + 全长历史 → Lightning Indexer → Top-k → Core MLA ← Latent-Cache

图示详情

与滑动窗口的区别:DSA 的 $k$ 个位置是 **学到的内容相关** 的不是固定局部窗口

Lightning Indexer 专题Lightning Indexer 详解


异构 KV Cache

DSA 把 cache 拆成两类(为 ESS offload、Index Share 铺路):

Cache作用占比(ESS 论文)GPU 常驻
Indexer-Cacheindexer 打分、选 top-$k$~16.8%(每步全扫)
Latent-Cache核心 MLA 的 latent KV~83.2%可 offload(ESS

主 attention 只读 被选中的 $k$ 个 latent entry → Latent-Cache 适合稀疏访问与 CPU 分层。


基础设施线位置

方向文档
本节点(② Indexer/Latent 异构)基础设施线导读 §1
上游 ① 同质 MLA KVMLA 低秩注意力
下游 ③ Index ShareIndex Share 梗概(indexer 算力,并列
下游 ④ ESSESS Latent offload(Latent offload,并列
下游 ⑤ V4 infraDeepSeek-V4 梗概§推理 infra · KV layout · HiSparse · 磁盘 prefix

算法线位置

方向文档
本节点(② DSA)算法线导读 §1
上游 ① MLAMLA 低秩注意力
下游 ③ CSA/HCACSA / HCA · DeepSeek-V4

在版本线中的位置

版本DSA
V3 / V3.1-T稠密 MLA,无 DSA
V3.2-Exp在 Terminus 上 续训加 DSA;benchmark 平淡,铺推理生态
V3.2架构同 Exp;完整后训练成品
Index Share不改 DSA 算法;跨层复用 top-$k$ index,减 indexer 重复计算(Index Share 梗概
V4CSA/HCA 等 下一代稀疏/压缩注意力

相对 V3.1-Terminus,V3.2 唯一架构改动即为 DSA;MoE、MLA latent 格式、参数量均不变。


与 MLA 的关系

- MLA:K/V 压入 latent 再缓存

  • DSA:在 MLA latent 序列上增加「选哪些位置参与 attention」
  • V3.1 Hybrid(Prefill MHA / Decode MQA)仍是 DSA 的前置(DeepSeek-V3.1

推理 infra

组件作用
DeepGEMMindexer logit kernel
FlashMLAsparse MLA paged kernel
IndexCacheIndex Share 跨层 index 复用
ESSLatent-Cache CPU offload

延伸

资源说明
Lightning Indexer 详解Lightning Indexer 公式、Indexer-Cache、与滑动窗对比
DSA逻辑详解完整机制、与 Hybrid/ESS/Engram 关系
Index Share逻辑详解Index Share FFFS 模式
DeepSeek-V3.2V3.2 版本梗概
Raschka DSA 解读第三方梳理

论文:V3.2 2512.02556 · ESS 2512.10576