DeepSeek 版本演进：V1 → V3 → V3.2 → V4，Index Share 与 KV-offload

更新：2026-06-25 ← 中文导读 · ← 仓库首页（EN） · V1→V3 前代演进

1. 总览

DeepSeek 开源主线分两段：

V1 → V2 → V3（2024）：稠密双语基座 → MLA + MoE → 671B 旗舰（详见 V1→V3 演进）
V3 之后（2025–2026）：R1 / V3.1 / V3.2 / V4 与 infra 补丁

V3 发布后的 Attention / KV infra 与全系列的 MoE 可概括为三条线：

算法线：MLA → DSA 稀疏注意力 → CSA/HCA 混合压缩注意力 + mHC
基础设施线：标准 MLA KV cache → Indexer/Latent 异构 cache → Index Share → ESS offload → V4 异构 KV + HiSparse
MoE 线：稠密 FFN → DeepSeekMoE → aux-loss-free 路由 + $L_{\mathrm{Bal}}$ → Hash MoE + FP4

1.1 各工作优化方向分类

下列 §3 版本 与 §4–§6 infra 中的每一项工作，按三条正交优化轴归类。多轴并存时给出 比例（合计 100%）；单列 100 表示该工作主要落在此轴。

轴	含义	典型内容
模型	权重、数据、对齐与后训练	scaling laws（答疑）、词表、SFT/DPO / RL（R1）、Hybrid 能力、checkpoint 规模
架构-train	为训练改结构或训推系统	MoE 路由（DeepSeekMoE）、MTP 辅助头、mHC、Muon、FP8 训推数值、DSA / CSA 等需重训的算子
架构-infer	为推理改结构或纯 infer 补丁	MLA latent KV、Prefill/Decode 模式切换、DSA 异构 cache、Index Share、ESS、DSpark、HiSparse

优化方向三轴分布：各工作按模型 / 架构-train / 架构-infer 占比落点

图示详情

版本 / 工作一览：

工作	模型 %	架构-train %	架构-infer %	产出机构	发表时间	说明
V1 scaling / BBPE / SFT·DPO	100	—	—	DeepSeek	2024-01	数据管线、词表、对齐（SFT/DPO）；结构为常规模型
MLA（V2 起）	—	40	60	DeepSeek	2024-05	低秩 KV；训推同构，显存/吞吐收益主要在 infer
DeepSeekMoE（V2 起）	—	45	55	DeepSeek	2024-05	稀疏 FFN；路由在训推两阶段共用
V3 aux-loss-free + 256/8 MoE	—	50	50	DeepSeek	2024-12	去 aux loss、sigmoid 路由、专家池扩容
V3 MTP	—	70	30	DeepSeek	2024-12	辅助训练目标；推理可接原生投机
V3 FP8 动态量化	—	100	—	DeepSeek	2024-12	预训练数值与吞吐；非 Transformer 拓扑
R1 RLVR / GRPO	100	—	—	DeepSeek	2025-01	与 V3 同架构；差异全在后训练
V3.1 Hybrid / Agent	80	—	20	DeepSeek	2025-中	post-train 能力；同一权重切换 thinking/chat
V3.1-T MLA Prefill MHA / Decode MQA	—	—	100	DeepSeek	2025	同权重；仅推理路径 MHA↔MQA 间切换
V3.2 DSA	—	35	65	DeepSeek	2025-12	Lightning Indexer + 异构 cache；长上下文 infer 主战场（Exp 2025-09）
Index Share	—	—	100	清华 + 智谱	2026-03	跨层复用 top-$k$ index
ESS Latent offload	—	—	100	百度百舸	2025-12	仅 Latent-Cache CPU 分层；与 DSA 算法正交
V4 CSA / HCA	—	30	70	DeepSeek	2026	压缩 KV 序列；1M context 算力与 cache 主因
V4 mHC	—	55	45	DeepSeek	2025-12	残差双随机流形；训推均改前向图（V4 落地 2026）
V4 Muon	—	100	—	DeepSeek	2026	优化器替换，加速收敛
V4 Hash MoE + FP4	—	55	45	DeepSeek	2026	Hash 路由与 FP4 权重量化
DSpark	—	—	100	DeepSeek	2026-06	V4 线上投机解码；基线 MTP-1；不改基座
V4 HiSparse / 异构 KV offload	—	—	100	DeepSeek（layout）+ Together 等	2026-05	C4 inactive entry、磁盘 prefix；纯 infer 内存层级
FlashMLA / DeepGEMM indexer	—	—	100	DeepSeek	2025	Kernel 实现；承载 MLA / DSA 算子（§6）
Visual Primitives MLLM	60	25	15	DeepSeek-AI	2026	V4-Flash + ViT；visual primitives CoT；CSA 压视觉 KV（§3.8）

版本级粗汇总：

版本	模型 %	架构-train %	架构-infer %	发表时间	相对上一版主叙事
V1	100	—	—	2024-01	系列首篇；scaling + 双语
V2	10	45	45	2024-05	首次 MLA + MoE
V3	15	55	30	2024-12	MoE 路由 + MTP + 671B 规模
R1	100	—	—	2025-01	纯后训练
V3.1 / Terminus	75	—	25	2025-中	Hybrid + MLA 模式切换
V3.2	—	35	65	2025-12	唯一架构改动 = DSA
V4（基座）	—	40	60	2026	CSA/HCA/mHC/MoE/Muon 打包
V4 + DSpark（线上）	—	—	100†	2026-06	† 相对已训好的 V4 checkpoint 的 decode 补丁

读法：Index Share、ESS、DSpark 等 100% 架构-infer 的工作，与「改权重」的 V3.2 DSA、V4 CSA 可叠加部署；§5 KV-offload 三代与 §6 推理栈是 infer 轴的进一步展开。

1.2 Transformer 四模块演进

Raschka 第三方解读 §8 · 表 8-1 将 Transformer 拆成四条正交演进链；下表映射到本仓库版本节点（非 exhaustive，仅 DeepSeek 主线）：

模块	行业演进链	DeepSeek 落点
Normalization	LayerNorm → RMSNorm → Dynamic TanH	V1–V4：RMSNorm（Pre-Norm）
Attention	GQA → sliding window（SWA） → MLA → sparse (DSA) → CSA/HCA	MLA → DSA → CSA/HCA · V4 另含 SWA 局部精确 KV
FFN	GeLU → SwiGLU → MoE	DeepSeekMoE → aux-loss-free → Hash MoE + FP4
残差	恒等（ResNet） → Hyper-Connections → mHC	HC → mHC（V4 落地）

读法：V3.2 的「唯一结构改动」几乎全在 Attention 轴（DSA）；V4 同时在 Attention（CSA/HCA）、残差（mHC）、FFN（Hash MoE）三轴打包升级；后训练（R1 RLVR）与 infer 补丁（Index Share / ESS / DSpark）不改变模块拓扑，见 §1.1。

延伸：Raschka 全文 §8 · mHC 专文 §1

图示详情

2. 版本时间线与关系

图示详情

图 2 补充：V1 · V2 · MLA · DeepSeekMoE · aux-loss-free · RLVR · DSA · Index Share · ESS · V4 · DSpark · mHC · 优化方向分类 §1.1 各节代表图：§3.1 scaling/BBPE · §3.2 MLA · §3.3 MoE vs V2 / MTP / FP8 · §3.4 GRPO · §3.5 MLA 模式切换 · §3.6 DSA · §3.7 V4 异构 KV + DSpark · §3.8 Visual Primitives · §4 Index Share · §5.1–5.3 KV offload 三代

版本	发布时间	参数量	激活参数	上下文	机构	arXiv	相对上一版的核心变化
DeepSeek-LLM V1	2024-01	7B / 67B	同左（稠密）	4K	DeepSeek	2401.02954	系列首篇；LLaMA 系 + GQA（67B）；2T 双语；scaling laws
DeepSeek-V2	2024-05	236B	21B	128K	DeepSeek	2405.04434	首次 MLA + DeepSeekMoE；8.1T
DeepSeek-V3	2024-12	671B	37B	128K	DeepSeek	2412.19437	MLA 旗舰化 + 256/8 MoE + MTP + aux-loss-free；14.8T
DeepSeek-R1	2025-01	同 V3	同 V3	128K	DeepSeek	2501.12948	V3-Base 上 RLVR + GRPO，架构不变
DeepSeek-V3.1	2025 中	同 V3	同 V3	128K	DeepSeek	—	Hybrid 推理：同一权重切换 thinking / non-thinking
V3.1-Terminus	2025	同 V3.1	同 V3.1	128K	DeepSeek	—	V3.1 收尾 checkpoint，作为 V3.2 续训起点
DeepSeek-V3.2-Exp	2025-09	同 V3.1-T	同 V3.1-T	128K	DeepSeek	Exp PDF · 2512.02556	DeepSeek 官方实验版；引入 DSA（DeepSeek 原创稀疏注意力）
DeepSeek-V3.2	2025-12	同 V3.1-T	同 V3.1-T	128K	DeepSeek	2512.02556	DeepSeek 官方正式版；DSA 定型；唯一架构改动即为稀疏注意力
ESS	2025-12	—	—	—	百度百舸	2512.10576	纯推理补丁：Latent-Cache CPU offload；与 DSA 正交
DeepSeek-V4-Pro	2026	1.6T	49B	1M	DeepSeek	2606.19348	CSA + HCA + mHC + Muon；MoE FP4
DeepSeek-V4-Flash	2026	284B	13B	1M	DeepSeek	同 2606.19348	更小激活量，效率优先
Index Share	2026-03	—	—	—	清华 + 智谱	2603.12201	纯推理补丁
DSpark	2026-06	—	—	—	DeepSeek + 北大	DeepSpec	V4 Flash/Pro 预览引擎；相对 MTP-1 基线；半自回归 draft + 置信度验证；纯推理

arXiv 说明：V3.1 / Terminus 为 post-train 与 checkpoint，无独立论文；V3.2-Exp 先发 GitHub 技术报告，DSA 完整叙述并入 V3.2 论文 2512.02556。DSpark 无独立 arXiv，技术报告见 DeepSpec / DSpark_paper.pdf；与 V4 同期开源，叠加在 V4 checkpoint 之上（§3.7 / §6）。

3. 各版本详解

各版本一页纸梗概见版本梗概索引。以下为展开说明（按时间线从 V1 起）。更细的 V1→V3 脉络另见 V1→V3 演进。

3.1 DeepSeek-LLM V1

V1 正文：DeepSeek-LLM V1（2401.02954 完整中文译文）

论文：DeepSeek-LLM arXiv:2401.02954

架构要点

稠密 LLaMA 系：Pre-Norm + RMSNorm + SwiGLU + RoPE；7B（30 层 MHA）与 67B（95 层加深 + 8 头 GQA）。
上下文 4K；词表 BBPE 102,400。
预训练 2.0T 中英双语；数据管线：跨 dump 去重 → 过滤 → domain 重混。
对齐：~150 万 instruction，SFT + DPO。

研究贡献

系统 scaling laws（$C=M\cdot D$）；IsoFLOP 下数据质量越高越应扩模型而非堆数据。

答疑：为何用 $C=M\cdot D$ 而非 Chinchilla 的 $C=6ND$？ — $M$=non-embedding FLOPs/token、Table 3 误差、与 IsoFLOP 的关系

Figure 4a — IsoFLOP 曲线（各算力档 loss 随 $M$ 呈 U 形，谷底 = 最优分配）

来源：V1 论文 Figure 4a（详见 V1 §3.2 最优 model/data Scaling）。横轴 = non-embedding FLOPs/token $M$；纵轴 = validation bits-per-byte；每条 U 形曲线对应固定总算力 $C$，谷底即该预算下最优 model/data 分配。

词表 BBPE：

图示详情 · V1 BBPE 专文

推理 infra 特征

标准 GQA/MHA KV cache（与后续 MLA 不兼容）；无 MoE、无 latent 压缩；可按常规 Transformer 部署。

3.2 DeepSeek-V2

梗概：DeepSeek-V2 · MLA 详解

论文：DeepSeek-V2 arXiv:2405.04434 仓库：deepseek-ai/DeepSeek-V2

相对 V1 的架构跃迁

维度	V1（67B 稠密）	V2
FFN	稠密 SwiGLU	DeepSeekMoE（160 routed + 2 shared / token 激活 6）
注意力	GQA	首次 MLA latent KV
规模	67B 全激活	236B / 21B activated
上下文	4K	128K
预训练	2T	8.1T

要点

MLA 将 K/V 压入 latent cache；论文称相对 67B 稠密 KV 体积约 -93.3%、生成吞吐 5.76×。
MoE 路由为 softmax 系（V3 起改为 aux-loss-free sigmoid 路由）。
MLA 结构被 V3 / R1 / V3.1 / V3.2 沿用；V2 是系列中 MLA+MoE 的首次引入。

图示详情 · 公式与符号详解

为什么 1536 能变成 [128,128] 和 [128,64]? ——不是切分,是两个独立上投影矩阵放大后按头 reshape:

$q_t^C = W^{UQ} c_t^Q$: $[16384 \times 1536] \cdot [1536] \to [16384]$, 其中 $16384 = n_h \times d_h = 128 \times 128$ → reshape $[128, 128]$

$q_t^R = \mathrm{RoPE}(W^{QR} c_t^Q)$: $[8192 \times 1536] \cdot [1536] \to [8192]$, 其中 $8192 = n_h \times d_h^R = 128 \times 64$ → reshape $[128, 64]$

$[128,128]$ 里两个 128 含义不同:前一个是头数 $n_h$(共 128 个头),后一个是每头维度 $d_h$(每头 128 维),本配置恰好都等于 128。二者都是架构超参,不是从 1536 算出来的;1536 只决定矩阵的列数。(KV 侧同理:$c_t^{KV} = 512$ 经 $W^{UK}, W^{UV}$ 投影成 $[128,128]$。)

右边 $k_t^R = [64]$ 的 64 怎么来? ——$64 = d_h^R$(每头 RoPE 维度,架构超参);$W^{KR}: [64 \times 5120] \cdot h_t \to [64]$,再加上 RoPE。 关键: $k_t^R$ 没有头维度——所有 $n_h = 128$ 个头共享同一个 $[64]$(解耦 RoPE);而左边 $q_t^R$ 是每头各一份 $[128, 64]$。正因为 K 的 RoPE 部分全局只存一份 $[64]$(不按头复制),KV 缓存才这么小——这是 MLA 省显存的另一半原因。

MLA 到底压缩了谁?如果不做压缩会变多大? ——下面三项就是 MLA 压缩/解耦的对象(格式:MLA 压缩后 $\Rightarrow$ 不压缩):

$c_t^Q$ 查询潜向量: $1536 \Rightarrow 16384\ (= n_h d_h)$, 约 11×; 不进缓存,省的是参数与计算量。

$c_t^{KV}$ KV 联合潜向量: $512 \Rightarrow 16384\ (= n_h d_h)$, 32×; ★进缓存 —— 这是省显存的核心。

$k_t^R$ 共享 RoPE 键: $64 \Rightarrow 8192\ (= n_h d_h^R)$, 128×; ★进缓存,靠全头共享(不按头复制),而非低秩压缩。

缓存总量: 标准 MHA $= 2n_h d_h = 32768$ → MLA 若不压缩 $= 16384 + 64 = 16448$(仅 MHA 一半) → 实际 MLA $= 512 + 64 = 576 \approx$ MHA 的 1/57

来源：V2 论文 Eq. 37–47；cache 仅存 $c_t^{KV}$（512）+ 共享 $k_t^R$（64）。

推理 infra 特征

KV cache 变为 MLA latent 格式；需引擎侧自定义 kernel / 适配（后续 FlashMLA 等）。

3.3 DeepSeek-V3

梗概：DeepSeek-V3 · 相对 V2 纯模型结构优化：§对比 V2

论文：DeepSeek-V3 Technical Report 仓库：deepseek-ai/DeepSeek-V3

相对 V2 的架构升级

维度	V2	V3
规模	236B / 21B 激活（~8.9%）	671B / 37B 激活（~5.5%）
MoE	160 routed，top-6，2 shared；softmax + aux loss	256 routed，top-8，1 shared；aux-loss-free（sigmoid + bias $b_i$）
注意力	首次 MLA	同族 MLA（latent KV 方程不变；671B / 128K 配比升级）
预测头	单步 next-token	+ MTP 辅助头（多步并行预测）
预训练	8.1T	14.8T

要点（三条结构线）

MoE 路由革新：去掉 aux loss 主路径；router 内 可学习 bias 做负载均衡，sigmoid affinity 选 expert、门控与选择解耦；专家池扩至 256/8，激活占比更低。
MTP（全新）：输出层 Multi-Token Prediction 辅助目标；推理可原生投机解码 → 投机解码与 DSpark 专文 §2
MLA 继承：K/V 仍压入 latent cache（$c_t^{KV}$ 512 + 共享 $k_t^R$ 64）；V3 价值在旗舰规模与 128K 巩固，非新 attention 算子（Hybrid / DSA 在 V3.1 / V3.2）。

DeepSeek-V3 vs V2 MoE 结构创新：aux-loss-free 路由、256/8 专家池、Shared+Routed 融合

图示详情 · MoE 详解 · aux-loss-free · MLA 前向流程图

训练：14.8T tokens；后训练含 SFT + RL（R1 为同架构 + RLVR）。

训练 infra（非模型结构）：FP8 动态量化 — 块级 scale + 每 $N_c{=}128$ MMA 提升 FP32 累加；与 DualPipe / DeepEP 并列，支撑 671B 预训练吞吐与数值稳定。

推理 infra 特征

KV cache 为 MLA latent 格式，与标准 GQA/MHA 不兼容。
vLLM 等引擎需 --trust-remote-code、--block-size 1（MLA 专用）。
长上下文下主要瓶颈是 Latent-Cache 线性增长 占满 HBM，限制 batch size。

3.4 DeepSeek-R1

梗概：DeepSeek-R1 · RLVR 详解

论文：DeepSeek-R1 arXiv:2501.12948 训练管线：DeepSeek-R1 训练 Pipeline

要点

架构与 V3 完全相同；差异仅在 后训练。
RLVR（Reinforcement Learning with Verifiable Rewards）：数学/代码等用 规则验证器 给奖励，配合 GRPO（无 critic），不用神经 reward model 做主信号。
R1-Zero：V3-Base 上纯 RL，推理能力自发涌现；可读性弱。
R1：冷启动 SFT → RL → 拒绝采样 SFT → 二阶段 RL（推理 + 通用 RM），补齐 helpful / safe。

PPO vs GRPO：RLHF 神经 RM + Critic 与 RLVR 验证器 + 组内 baseline 对比

图示详情 · RLVR 详解 · GRPO 算法

推理 infra：与 V3 相同（MLA latent KV、引擎配置一致）。

3.5 DeepSeek-V3.1 / V3.1-Terminus

梗概：DeepSeek-V3.1 · V3.1-Terminus checkpoint

变化：在 V3 权重基础上做 post-training，无架构变更。

维度	V3	V3.1
推理模式	Base / R1 分离	Hybrid：同一模型切换 thinking / chat
上下文	128K	128K（续训扩展）
Agent / Tool Use	较弱	明显加强（BrowseComp、SWE 等）

V3.1-Terminus 是 V3.1 系列的最终 checkpoint，上下文已扩至 128K，作为 V3.2 继续预训练 的起点。

MLA 模式切换：

图示详情 · V3.1 专节

Prefill：MHA 模式（多 query head 独立 latent）
Decode：MQA 模式（latent 在 query head 间共享）

这为后续 DSA 在 MQA 模式下做稀疏选择打下基础。

3.6 DeepSeek-V3.2 / V3.2-Exp

梗概：DeepSeek-V3.2 · V3.2-Exp

论文：DeepSeek-V3.2 · V3.2-Exp 仓库：deepseek-ai/DeepSeek-V3.2

相对 V3.1-Terminus 的唯一架构改动：DeepSeek Sparse Attention (DSA)

逻辑详解：DSA逻辑详解 · DSA稀疏注意力

DSA 两阶段：Lightning Indexer 选 Top-k=2048，Core MLA 仅读 Latent-Cache 子集

图示详情 · DSA 逻辑详解

DSA 两阶段（三阶段表）：

Lightning Indexer：对每个 query，用廉价点积为所有历史 token 打分（复杂度仍 $O(L^2)$，但 head 维极低）。
Top-$k$ Selector：选出 $k=2048$ 个最重要 token 的 latent entry。
Core Attention（Core MLA）：仅对这 $k$ 个 latent 做 MLA attention（复杂度 $O(Lk)$）。

概念：Lightning Indexer · Top-$k$ Selector · Core MLA · Indexer-Cache · Latent-Cache · ESS

因此 V3.2 的 cache 分裂为两类（异构 KV · DSA逻辑详解 §4）：

Cache 类型	作用	占总量比例（ESS 论文）	是否 offload
Indexer-Cache	计算重要性、选 top-$k$	~16.8%	否（每步全算）
Latent-Cache	MLA 核心 attention 的 KV	~83.2%	可 offload（ESS）

V3.2-Exp 与 V3.2 架构相同；Exp 用于验证 DSA 不损精度，V3.2 为正式训练 + 后训练成品。

推理内核：DeepGEMM（indexer logits）、FlashMLA（sparse attention paged kernel）→ 推理 infra

3.7 DeepSeek-V4

梗概：DeepSeek-V4-Pro / V4-Flash

论文：DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence 模型：V4-Pro（1.6T / 49B act）、V4-Flash（284B / 13B act）

相对 V3.2 的算法大步进

组件	说明
CSA (Compressed Sparse Attention)	每 $m=4$ token 压缩为 1 条 KV entry，再对压缩序列做 DSA（top-$k$ 压缩 entry）→ 专文 §2
HCA (Heavily Compressed Attention)	每 $m'=128$ token 压缩为 1 条，序列极短，直接 dense attention → 专文 §3
mHC	Manifold-Constrained Hyper-Connections（§3 双随机流形）：Sinkhorn–Knopp 凸组合
Muon	优化器替换，加速收敛 → 专文 §1
Hash MoE	前几层 dense FFN → Hash-routed MoE → 专文 §1
FP4 MoE	routed expert 权重 FP4 + QAT → 专文 §2

DeepSeek-V4 异构 KV：CSA 4:1、HCA 128:1、SWA、Indexer、Tail buffer 与 HiSparse offload

图示详情 · V4 梗概 · CSA/HCA 详解 · Hash MoE + FP4 · Muon 详解 · mHC 详解

1M context 效率

模型	单 token FLOPs	累计 KV cache
V4-Pro @ 1M	27%	10%
V4-Flash @ 1M	10%	7%

Agentic Coding 场景：V4 面向 100K–1M token 的 agent 工作流（代码库、多轮 tool trace），算法侧用 CSA/HCA 压 cache，infra 侧用异构 KV 管理 + offload 才能「真的跑得动」。

推理加速：V4 预览引擎已部署 投机解码与 DSpark（相对 MTP-1 基线；同等吞吐下单用户 +57%–85%）。细节、图示、自测与 MTP 机制 均在专文，此处不重复。

专文：投机解码与 DSpark · DeepSpec

Ablation 困境：V4 同时改了注意力、残差、优化器、MoE 路由、量化精度，很难像 V3.2 那样做单一变量对照——这也是社区更青睐 Index Share 这类「纯 infra、零重训」补丁的原因之一。

3.8 Thinking with Visual Primitives

要点专文：Visual Primitives 论文要点 · PDF：Visual Primitives 原文 PDF

定位：V4-Flash 之上的 MLLM 支线——把 点 / 框 作为 CoT 的 visual primitives，解决语言难以精确 空间引用 的 Reference Gap。

双模块架构：

模块	角色
DeepSeek-ViT	任意分辨率图像 → patch token → 3×3 通道压缩
V4-Flash LLM	视觉 + 文本交错序列；CSA 将视觉 KV 再压 4×

Figure 2 — V4-Flash + DeepSeek-ViT 架构与 Pretrain→SFT→RL→RFT 训练管线

Figure 2 | Model architecture and training pipeline（论文原图）。756×756 示例：2,916 patch → 324 LLM token → 81 KV entries，总压缩 7,056×。

直接打开 Figure 2 · 要点专文 §2

效率与精度：

Figure 1 — 800×800 输入 token 消耗与各模型 benchmark 均分

指标	数值 / 对比
800×800 视觉 KV	约 90 entries（全文 ~361 tokens）vs Gemini-3-Flash ~1100 tokens
7 项 benchmark 均分	77.2%（子集评测，非全能榜）
拓扑推理	DS_Maze 66.9、DS_Path_Tracing 56.7，显著高于 Qwen3-VL-235B

Table 1 — 与 Gemini / GPT / Claude / Gemma / Qwen3-VL 对比

Table 1 | Comparison with frontier models（bold=最佳）。

直接打开 Figure 1 · Table 1 · 要点专文 §4–§5

与 §3.7 V4 的关系：共享 CSA 压缩 attention 与 MoE 推理栈；增量在 ViT 编码器 + visual primitives 后训练管线，属于 模型轴（数据/对齐）+ 架构-train（ViT 模块） 的扩展，而非新的文本稀疏注意力变体。

梗概：Index Share 逻辑详解：Index Share逻辑详解

社区昵称 Index Share / 「V3.3」；正式名 IndexCache。论文：arXiv:2603.12201（清华大学 + 智谱 AI / Z.ai）· 代码：THUDM/IndexCache

4.0 技术归属

角色	机构	说明
被优化对象	DeepSeek	自研 DSA + Lightning Indexer；每层独立 top-$k$，长上下文下 indexer 成为瓶颈
优化算法	清华 + 智谱（Z.ai）	IndexCache / index-share：F 层缓存索引、S 层复用，非 DeepSeek 官方产物
工程落地	百度百舸等	训推引擎集成 IndexCache、分布式与异构芯片适配；ESS 为百舸自研的 Latent-Cache offload，与 IndexCache 正交

详见 Index Share梗概 §技术归属。

4.1 解决什么问题

DSA 的 indexer 每层独立运行，复杂度 $O(L^2)$，长上下文 prefill 时 indexer 成为显著开销。观察：相邻层的 top-$k$ index 高度相似。

4.2 机制

将 Transformer 层分为两类：

Full (F) 层：保留 indexer，正常计算 top-$k$
Shared (S) 层：不跑 indexer，直接复用最近一个 F 层的 cached indices

典型模式：每 4 层保留 1 个 F 层（FFFS 重复），去掉 75% indexer 计算。

图示详情 · Index Share 逻辑详解

两种部署：

模式	做法
Training-free	在校准集上贪心搜索哪些层保留 indexer，最小化 LM loss
Training-aware	多层蒸馏，让保留的 indexer 拟合其覆盖层的平均 attention 分布

4.3 为何被称为「最好的 infra 补丁」

属性	Index Share	V4 级架构改动
权重变更	无	全量重训
额外显存	零	新 cache layout
实现	SGLang / vLLM 一个 `if/else` 分支	异构 KV + 新 kernel
加速	200K：TTFT 1.82×，decode 1.48×	1M：FLOPs/KV 降至 10% 级
适用模型	DSA 系（V3.2、GLM-5）	V4 自带 CSA indexer

结论：Index Share 典型体现「infra 归 infra，算法归算法」——在 DSA 算法不变的前提下，用跨层冗余做系统优化。

5. KV-offload 演进

KV-offload 指将部分 cache 卸载到 CPU DRAM（或磁盘），按需 prefetch 回 GPU。DeepSeek 各代的 cache 形态不同，offload 策略也完全不同。

5.1 V3 / V3.1：标准 MLA Latent-Cache

Cache 内容：单一 MLA latent 向量序列。
Offload：可用通用 KV offload（FlexGen、vLLM CPU offload 等），但 MLA 自定义格式导致很多引擎 不支持标准 offload。
瓶颈：线性增长的 latent 占满 HBM → decode batch size 受限。

V3 同质 MLA Latent-Cache：线性增长占满 HBM，可选通用 CPU offload

图示详情 · MLA 前向专文 · MLA §KV Cache

5.2 V3.2：Indexer-Cache + Latent-Cache 分离 → ESS

归属澄清：DeepSeek-V3.2-Exp / V3.2 与 DSA 均为 DeepSeek 官方发布。下文 ESS 论文标题虽含「DeepSeek-V3.2-Exp」，但 ESS 算法来自百度百舸，是针对 DeepSeek DSA 模型的 Latent-Cache offload 方案，不是 DSA 本身，也不是 V3.2-Exp 的发布方。

详解：ESS Latent offload

论文：ESS: An Offload-Centric Latent-Cache Management Architecture for DeepSeek-V3.2-Exp

V3.2 异构 Cache：Indexer-Cache 常驻 GPU 选 top-2048，Latent-Cache 可 offload

图示详情 · ESS 概念 · ESS 论文梗概

策略	说明
Indexer-Cache 常驻 GPU	占 16.8%，每步必须全算，offload 无意义
Latent-Cache offload 到 CPU	占 83.2%，利用 top-$k$ 的时间局部性（相邻 decode step 的 $K_t^l$ 重叠率高）
FlashTrans + UVA	解决 656B 小块 PCIe 传输带宽极低（原 ~0.8 GB/s H2D）→ 提升至 ~37 GB/s
GPU 侧 Sparse Memory Pool	LRU 维护 GPU 热 latent 子集，miss 时从 CPU prefetch
Layer-wise overlap	计算与传输流水线掩盖延迟

收益：32K context 吞吐 +69.4%；128K 最高 +123%。

与 V3 的本质区别：offload 单位从「整条 MLA latent 序列」变为「稀疏选中的 Latent-Cache entry」，且需与 indexer 的 top-$k$ 选择协同。

5.3 V4：异构 KV + HiSparse + 磁盘 Prefix Cache

V4 的 cache 不再是单一 MLA latent，而是多类型并存：

V4 异构 KV 与 HiSparse：inactive C4 entry offload 到 CPU pinned memory

图示详情 · V4 §推理 infra

KV 类型	来源	特点
CSA 压缩 entry	每 4 token → 1	序列长 $\frac{L}{4}$，稀疏 top-$k$
HCA 压缩 entry	每 128 token → 1	序列极短，dense attend
SWA (Sliding Window)	最近 $n_{\text{win}}$ token	独立 eviction 策略
Indexer KV	CSA 的 lightning indexer	与主 attention 维度不同
Tail buffer	不足 $m$ 个 token 的未压缩尾	等待凑满再压缩

KV layout→ 专文：V4 KV Layout

Classical KV cache：按 $\mathrm{lcm}(m, m')$ 对齐的压缩块，服务 CSA/HCA
State cache：每请求固定大小块，存 SWA + 未就绪压缩尾

HiSparse→ 专文：V4 HiSparse

将 inactive 的 C4（CSA 4:1 压缩层）cache entry offload 到 CPU pinned memory
GPU 只保留 active「热」工作集
单节点 B200 上 KV 容量从 ~1.2M tokens 提升到 ~3.7M tokens（约 3×）

磁盘 Prefix Cache→ 专文：V4 磁盘 Prefix Cache

CSA/HCA 压缩 entry 可直接落盘，共享 prefix 免重复 prefill
SWA 体积约为压缩 entry 的 8×，提供 Full / Periodic Checkpointing / Zero 三档策略

5.4 三代 offload 对比

维度	V3 / V3.1	V3.2 (ESS)	V4 (HiSparse)
Cache 结构	同质 MLA latent	Indexer + Latent 异构	CSA + HCA + SWA + Indexer + tail
Offload 对象	全量 latent（若引擎支持）	仅 Latent-Cache	Inactive C4 压缩 entry + 磁盘 prefix
局部性依据	顺序滑动窗口	top-$k$ index 时间相似度	稀疏激活 + SWA 复用策略
传输优化	通用 PCIe	FlashTrans / UVA	分层内存池 + PD 分离
与算法耦合	低	中（依赖 DSA top-$k$）	高（依赖压缩比 $m, m'$）

知乎社区观点（2026-06）：V4 的 KV-offload 策略与 DSV3.2 完全不同——不是简单扩大 ESS，而是围绕异构压缩 cache 重新设计内存层级；V3.2 上可叠加 Index Share + ESS，V4 则需要 HiSparse + 定制 layout。

6. 推理技术栈对照

技术	适用版本	类型	链接
FlashMLA	V3+	Kernel	deepseek-ai/FlashMLA
DeepGEMM indexer	V3.2+	Kernel	DeepGEMM PR#200
DSpark + DeepSpec	V4 Flash / Pro（线上）	投机解码 / decode 吞吐	DeepSpec · DSpark 专文
IndexCache (Index Share)	V3.2, GLM-5	Infra 补丁	THUDM/IndexCache
ESS（百度百舸）	DeepSeek-V3.2 / V3.2-Exp	Latent-Cache offload	arXiv:2512.10576
SGLang / vLLM recipes	全系列	serving	各模型 README

7. 与本仓库其他专题的关系

优化方向：各专题在 §1.1 模型 / 架构-train / 架构-infer 分类中的落点见该表「工作一览」。

专题	关系
Engram	另一条稀疏轴（条件记忆查表），与 MoE 正交；可 offload 到 Host/CXL
Engram 系列导读	Engram / CXL Pooling / Tiny-Engram 深度笔记
DSA 系列 · ESS 概念 · Index Share	V3.2 稀疏注意力 + 推理 infra 补丁（与 §3.6 / §5.2 对应）
DSpark / DeepSpec	V4 投机解码线上加速；与 KV/offload 正交（§3.7 / §6）
Visual Primitives	V4-Flash 多模态：visual primitives CoT + ViT；CSA 压视觉 KV（§3.8）
DeepSeek-R1 训练管线	R1 四阶段；RLVR 概念

8. 参考资料

DeepSeek-AI. DeepSeek-V3 Technical Report. arXiv:2412.19437, 2024.
DeepSeek-AI. DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models. arXiv:2512.02556, 2025.
DeepSeek-AI. DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention. 2025.
Chen et al. ESS: An Offload-Centric Latent-Cache Management Architecture for DeepSeek-V3.2-Exp. arXiv:2512.10576, 2025.
Bai et al. IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse. arXiv:2603.12201, 2026.
DeepSeek-AI. DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence. arXiv:2606.19348, 2026.
Together.ai. Serving DeepSeek-V4: why million-token context is an inference systems problem. 2026.

DeepSeek 技术报告

3.5 DeepSeek-V3.1 / V3.1-Terminus

3.6 DeepSeek-V3.2 / V3.2-Exp