DeepSeek 基础设施线:MLA KV → 异构 Cache → Index Share → ESS → V4 HiSparse

← 中文导读 · ← 仓库首页(EN) · 更新:2026-06-27 ← 演进总览 §1 · 算法线导读 · MoE 线导读 · 版本梗概索引 · 《ds-技术报告》读本

V3 发布之后,DeepSeek 推理侧 KV cache 与 offload 的演进可概括为(与 演进总览 §1 正文内联一致):

标准 MLA KV cacheIndexer/Latent 异构 cacheIndex ShareESS offloadV4 异构 KV + HiSparse

本文是这条 基础设施线 的专题导读与双向跳转 hub;算法侧演进见 算法线导读,全景时间线见 版本演进总览


1. 演进链

阶段核心机制适用版本本地文档论文 / 归属
① 同质 MLA KV单类 latent cache;整条序列同格式V2/V3/R1/V3.1MLA 低秩注意力 · 演进 §5.1MLA 2405.04434
② Indexer/Latent 异构DSA 把 cache 拆成 Indexer-Cache + Latent-CacheV3.2DSA稀疏注意力§异构 KV · DSA 逻辑详解DSA 2512.02556
③ Index Share跨层复用 top-$k$ index;减 indexer 重复计算V3.2 / GLM-5(纯 infraIndex Share 梗概 · Index Share 逻辑详解2603.12201(清华 + 智谱)
④ ESS offloadLatent-Cache → CPU;Indexer 常驻 GPU;稀疏 prefetchV3.2 / GLM-5(纯 infraESS Latent offload · ESS 论文梗概2512.10576(百度百舸)
⑤ V4 异构 KV + HiSparseCSA/HCA/SWA/Indexer/tail 多类 cache;C4 offload + 磁盘 prefixV4CSA/HCA 算法 · DeepSeek-V4 梗概§推理 infra · KV layout · HiSparse · 磁盘 prefix2606.19348
⑥ 投机解码 / DSparkMTP 原生 + DSpark 线上;唯一专文V4 Flash/Pro 预览引擎投机解码与 DSparkDeepSpec

③ 与 ④ 并列:二者都依赖 ② 异构 cache,分别优化 indexer 算力Latent 显存;可 同开⑥ 与 ①–⑤ 正交:DSpark 优化 decode 步吞吐,不改变 KV 布局。


2. 阅读顺序

  1. MLA 低秩注意力 — 理解 同质 latent KV 基线
  2. DSA 梗概 §异构 KV — Indexer/Latent 分裂
  3. Index Share 梗概逻辑详解 — 跨层 index 复用
  4. ESS 概念论文梗概 — Latent offload
  5. V4 §推理 infra — 异构 cache 总览
  1. 投机解码与 DSpark唯一入口(MTP、自测、DSpark、MTP-1)

对照表演进总览 §5.4 三代 offload 对比


3. 节点间关系

关系
① → ②DSA 算法改动 使 cache 天然分为 Indexer / Latent 两类
② → ③Index Share 只优化 indexer 路径;不改 Latent 布局
② → ④ESS 只 offload Latent-Cache;Indexer 必须 GPU 常驻
③ ⊥ ④正交:一个省算、一个省显存;V3.2 上可叠加
④ → ⑤V4 非 ESS 简单放大;围绕 CSA/HCA/SWA 重做 内存层级

4. 与算法线的交叉

infra 阶段依赖的算法组件文档
② 异构 cacheDSA(Lightning Indexer + Core MLA)算法线 §②
⑤ V4 HiSparseCSA/HCA 压缩 entryCSA / HCA · 算法线 §③

算法线完整导读见 算法线导读MoE 线MoE 线导读


5. 反向引用

节点文档文首应含
MLA 低秩注意力[← 基础设施线导读](06-基础设施线导读.md)
DSA 稀疏注意力同上 + 下游 Index Share / ESS
Index Share 梗概同上 + 并列 ESS
ESS Latent offload同上 + 并列 Index Share
DeepSeek-V4同上 + 说明与 V3.2 ESS 差异
V4 KV Layout · V4 HiSparse · V4 磁盘 Prefix CacheV4 infra 三专题;文首链回 §5.3
投机解码与 DSpark投机解码 / DSpark 唯一专文

维护约定见 DeepSeek 版本演进线文档引用约定