DSA稀疏注意力
← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.6 · ← 算法线导读 · ← 基础设施线导读 · ← V3.2 梗概 · 上游 MLA · 下游 CSA/HCA · 下游 V4 梗概 · 下游 Index Share · 下游 ESS · Lightning Indexer 详解 · 完整逻辑 · Raschka §4 DSA 论文:DeepSeek-V3.2 arXiv:2512.02556 · Exp:DeepSeek-V3.2
一句话
DSA 在 MLA 不变 的前提下,把长上下文注意力从「对全长 $L$ 做稠密 MLA」改成 先 indexer 扫全长选 top-$k$,再只对 $k$ 个 latent entry 做 MLA;主路径复杂度 $O(L^2) \to O(Lk)$($k{=}2048$,$k \ll L$)。DeepSeek-V3.2-Exp(2025-09,DeepSeek 官方实验版)验证稀疏不损精度;DeepSeek-V3.2(2025-12)为正式版。
逻辑详解:DSA逻辑详解 · Lightning Indexer · 系列导读
技术归属
| 组件 | 机构 | 说明 |
|---|---|---|
| DSA | DeepSeek | 稀疏注意力算法;V3.2 唯一架构改动 |
| V3.2-Exp / V3.2 | DeepSeek | 官方模型 release(Exp 铺生态,正式版完整后训练) |
| ESS | 百度百舸 | 针对 DeepSeek V3.2 的 Latent-Cache offload;非 DSA 发明方 |
| IndexCache | 清华 + 智谱 | 跨层 index 复用;非 DSA 发明方 |
易混点:ESS 论文标题写 for DeepSeek-V3.2-Exp,指的是优化对象是 DeepSeek 模型,不是百度发布了 V3.2-Exp。
流程图
三阶段
| 阶段 | 做什么 | 复杂度 | 说明 |
|---|---|---|---|
| ① Lightning Indexer | 当前 $q_t$ 对全长历史的 indexer key $k_s$ 打分($I_{t,s}$) | $O(L^2)$ 量级,常数极小 | 决定「看谁」;walkthrough |
| ② Top-$k$ Selector | 取分数最高的 $k{=}2048$ 个位置 | $O(L \log k)$ | 得到 index 集合 $I$ |
| ③ Core MLA | 仅对 $I$ 中 entry 做标准 MLA attention | $O(Lk)$ | 精度敏感主算子 |
与滑动窗口的区别:DSA 的 $k$ 个位置是 **学到的、内容相关** 的、不是固定局部窗口。
Lightning Indexer 专题:Lightning Indexer 详解
异构 KV Cache
DSA 把 cache 拆成两类(为 ESS offload、Index Share 铺路):
| Cache | 作用 | 占比(ESS 论文) | GPU 常驻 |
|---|---|---|---|
| Indexer-Cache | indexer 打分、选 top-$k$ | ~16.8% | 是(每步全扫) |
| Latent-Cache | 核心 MLA 的 latent KV | ~83.2% | 可 offload(ESS) |
主 attention 只读 被选中的 $k$ 个 latent entry → Latent-Cache 适合稀疏访问与 CPU 分层。
基础设施线位置
| 方向 | 文档 |
|---|---|
| 本节点(② Indexer/Latent 异构) | 基础设施线导读 §1 |
| 上游 ① 同质 MLA KV | MLA 低秩注意力 |
| 下游 ③ Index Share | Index Share 梗概(indexer 算力,并列) |
| 下游 ④ ESS | ESS Latent offload(Latent offload,并列) |
| 下游 ⑤ V4 infra | DeepSeek-V4 梗概§推理 infra · KV layout · HiSparse · 磁盘 prefix |
算法线位置
| 方向 | 文档 |
|---|---|
| 本节点(② DSA) | 算法线导读 §1 |
| 上游 ① MLA | MLA 低秩注意力 |
| 下游 ③ CSA/HCA | CSA / HCA · DeepSeek-V4 |
在版本线中的位置
| 版本 | DSA |
|---|---|
| V3 / V3.1-T | 稠密 MLA,无 DSA |
| V3.2-Exp | 在 Terminus 上 续训加 DSA;benchmark 平淡,铺推理生态 |
| V3.2 | 架构同 Exp;完整后训练成品 |
| Index Share | 不改 DSA 算法;跨层复用 top-$k$ index,减 indexer 重复计算(Index Share 梗概) |
| V4 | CSA/HCA 等 下一代稀疏/压缩注意力 |
相对 V3.1-Terminus,V3.2 唯一架构改动即为 DSA;MoE、MLA latent 格式、参数量均不变。
与 MLA 的关系
- DSA:在 MLA latent 序列上增加「选哪些位置参与 attention」
- V3.1 Hybrid(Prefill MHA / Decode MQA)仍是 DSA 的前置(DeepSeek-V3.1)
推理 infra
| 组件 | 作用 |
|---|---|
| DeepGEMM | indexer logit kernel |
| FlashMLA | sparse MLA paged kernel |
| IndexCache | Index Share 跨层 index 复用 |
| ESS | Latent-Cache CPU offload |
延伸
| 资源 | 说明 |
|---|---|
| Lightning Indexer 详解 | Lightning Indexer 公式、Indexer-Cache、与滑动窗对比 |
| DSA逻辑详解 | 完整机制、与 Hybrid/ESS/Engram 关系 |
| Index Share逻辑详解 | Index Share FFFS 模式 |
| DeepSeek-V3.2 | V3.2 版本梗概 |
| Raschka DSA 解读 | 第三方梳理 |
论文:V3.2 2512.02556 · ESS 2512.10576