DeepSeek DSA 与 Index Share 系列

← 中文导读 · ← 仓库首页(EN) · 主题:V3.2 的 DeepSeek Sparse Attention (DSA) 把长上下文注意力从 $O(L^2)$ 降到 $O(Lk)$;Index Share(IndexCache) 在 DSA 之上用跨层 index 复用砍掉冗余 indexer,纯 infra。 系列导读DSA 逻辑详解 · Index Share 逻辑详解 · 算法线导读 · 基础设施线导读 · ← 演进总览 §3.6 V3.2


文档索引

文档内容对应梗概
DeepSeek-V3.1前置:128K、Hybrid 推理、Prefill/Decode MLA 切换;V3.2 续训起点V3.1-Terminus
DSA 稀疏注意力版本表入口:DSA 三阶段、异构 Cache、流程图V3.2 梗概
Lightning Indexer 详解Lightning Indexer 公式、Indexer-Cache、Decode 一步前向DSA 梗概
DSA 逻辑详解DSA 两阶段稀疏注意力、异构 KV Cache、与 MLA/ESS 关系V3.2 梗概
ESS Latent offloadLatent-Cache CPU offload;FlashTrans / 热池V3.2 infra
Index Share 逻辑详解F/S 层划分、FFFS 模式、与 ESS/V4 正交性Index Share 梗概
DeepSeek-V4下游算法:CSA/HCA、1M context(非 V3.2 补丁)V4 梗概

示意图

⓪ Indexer Decode 一步前向

Lightning Indexer Decode 一步:固定 t 遍历 s,输入 h_t 与 Indexer-Cache,输出 I_{t,s} 与 Top-k index 集

Lightning Indexer 详解§2 walkthrough

① DSA 流水线

DSA:Lightning Indexer → Top-k → Core MLA;Indexer-Cache 与 Latent-Cache

Lightning Indexer → Top-$k$ → Core MLA;Indexer/Latent 双 Cache

② MLA Decode 一步分工

MLA Decode 一步: Indexer 选 I vs Latent-Cache 升维 + Core MLA

Indexer 选 $I$ vs Latent-Cache 升维 + Core MLA

③ Index Share FFFS

Index Share FFFS 跨层复用示意

跨层 F/S 划分与 FFFS 复用示意

改图:python3 scripts/svg/gen_dsa_svgs.pypython3 scripts/svg/check_svgs.py(含 Markdown 嵌入 + 布局遮挡校验)


推荐阅读顺序

  1. V3.1-Terminus — 128K、Hybrid 推理、MLA Prefill/Decode 切换(DSA 直接前置
  2. DSA 梗概 — 三阶段总览
  3. Lightning Indexer — indexer 公式与 Indexer-Cache
  4. DSA 逻辑 — 稀疏注意力 + Indexer/Latent 双 Cache
  5. ESS Latent-Cache offload — CPU offload 与 GPU 热池
  6. Index Share — 跨层 index 复用(infra 补丁)
  7. CSA/HCA 混合压缩注意力 — 算法线继续演进

与现有栈

组件关联
V3.1-Terminus 梗概DSA 上游:128K + Hybrid,无稀疏注意力
V3.2 梗概DSA 所在版本
中文导读文章索引、演进图示、许可说明
Engram 条件记忆正交稀疏轴:n-gram 查表 vs DSA top-$k$
版本演进总览算法线 + infra 线全景
算法线导读MLA → DSA → CSA/HCA + mHC 专题 hub
基础设施线导读MLA KV → 异构 Cache → Index Share → ESS → V4 HiSparse
Raschka V3→V3.2 解读DSA / RLVR / GRPO 第三方梳理

论文:DSA arXiv:2512.02556 · IndexCache arXiv:2603.12201 · ESS arXiv:2512.10576