DeepSeek DSA 与 Index Share 系列 - DeepSeek 技术报告

← 中文导读 · ← 仓库首页（EN） · 主题：V3.2 的 DeepSeek Sparse Attention (DSA) 把长上下文注意力从 $O(L^2)$ 降到 $O(Lk)$；Index Share（IndexCache） 在 DSA 之上用跨层 index 复用砍掉冗余 indexer，纯 infra。 系列导读：DSA 逻辑详解 · Index Share 逻辑详解 · 算法线导读 · 基础设施线导读 · ← 演进总览 §3.6 V3.2

文档索引

文档	内容	对应梗概
DeepSeek-V3.1	前置：128K、Hybrid 推理、Prefill/Decode MLA 切换；V3.2 续训起点	V3.1-Terminus
DSA 稀疏注意力	版本表入口：DSA 三阶段、异构 Cache、流程图	V3.2 梗概
Lightning Indexer 详解	Lightning Indexer 公式、Indexer-Cache、Decode 一步前向	DSA 梗概
DSA 逻辑详解	DSA 两阶段稀疏注意力、异构 KV Cache、与 MLA/ESS 关系	V3.2 梗概
ESS Latent offload	Latent-Cache CPU offload；FlashTrans / 热池	V3.2 infra
Index Share 逻辑详解	F/S 层划分、`FFFS` 模式、与 ESS/V4 正交性	Index Share 梗概
DeepSeek-V4	下游算法：CSA/HCA、1M context（非 V3.2 补丁）	V4 梗概

示意图

⓪ Indexer Decode 一步前向

$Lightning Indexer Decode 一步：固定 t 遍历 s，输入 h_t 与 Indexer-Cache，输出 I_{t,s} 与 Top-k index 集$

Lightning Indexer 详解§2 walkthrough

① DSA 流水线

DSA：Lightning Indexer → Top-k → Core MLA；Indexer-Cache 与 Latent-Cache

Lightning Indexer → Top-$k$ → Core MLA；Indexer/Latent 双 Cache

② MLA Decode 一步分工

Indexer 选 $I$ vs Latent-Cache 升维 + Core MLA

跨层 F/S 划分与 FFFS 复用示意

改图：python3 scripts/svg/gen_dsa_svgs.py → python3 scripts/svg/check_svgs.py（含 Markdown 嵌入 + 布局遮挡校验）

与现有栈

组件	关联
V3.1-Terminus 梗概	DSA 上游：128K + Hybrid，无稀疏注意力
V3.2 梗概	DSA 所在版本
中文导读	文章索引、演进图示、许可说明
Engram 条件记忆	正交稀疏轴：n-gram 查表 vs DSA top-$k$
版本演进总览	算法线 + infra 线全景
算法线导读	MLA → DSA → CSA/HCA + mHC 专题 hub
基础设施线导读	MLA KV → 异构 Cache → Index Share → ESS → V4 HiSparse
Raschka V3→V3.2 解读	DSA / RLVR / GRPO 第三方梳理

论文：DSA arXiv:2512.02556 · IndexCache arXiv:2603.12201 · ESS arXiv:2512.10576