DeepSeek 版本演进:V1 → V3 → V3.2 → V4,Index Share 与 KV-offload

更新:2026-06-25 ← 中文导读 · ← 仓库首页(EN) · V1→V3 前代演进


1. 总览

DeepSeek 开源主线分两段:

  1. V1 → V2 → V3(2024):稠密双语基座 → MLA + MoE671B 旗舰(详见 V1→V3 演进
  2. V3 之后(2025–2026):R1 / V3.1 / V3.2 / V4 与 infra 补丁

V3 发布后的 Attention / KV infra 与全系列的 MoE 可概括为三条线:

  1. 算法线MLADSA 稀疏注意力CSA/HCA 混合压缩注意力 + mHC
  2. 基础设施线标准 MLA KV cacheIndexer/Latent 异构 cacheIndex ShareESS offloadV4 异构 KV + HiSparse
  3. MoE 线:稠密 FFN → DeepSeekMoEaux-loss-free 路由 + $L_{\mathrm{Bal}}$Hash MoE + FP4

1.1 各工作优化方向分类

下列 §3 版本§4–§6 infra 中的每一项工作,按三条正交优化轴归类。多轴并存时给出 比例(合计 100%);单列 100 表示该工作主要落在此轴。

含义典型内容
模型权重、数据、对齐与后训练scaling laws答疑)、词表SFT/DPO / RLR1)、Hybrid 能力checkpoint 规模
架构-train训练改结构或训推系统MoE 路由DeepSeekMoE)、MTP 辅助头mHCMuonFP8 训推数值DSA / CSA 等需重训的算子
架构-infer推理改结构或纯 infer 补丁MLA latent KVPrefill/Decode 模式切换DSA 异构 cacheIndex ShareESSDSparkHiSparse
优化方向三轴分布:各工作按模型 / 架构-train / 架构-infer 占比落点

图示详情

版本 / 工作一览

工作模型 %架构-train %架构-infer %产出机构发表时间说明
V1 scaling / BBPE / SFT·DPO100DeepSeek2024-01数据管线词表、对齐(SFT/DPO);结构为常规模型
MLA(V2 起)4060DeepSeek2024-05低秩 KV;训推同构,显存/吞吐收益主要在 infer
DeepSeekMoE(V2 起)4555DeepSeek2024-05稀疏 FFN路由在训推两阶段共用
V3 aux-loss-free + 256/8 MoE5050DeepSeek2024-12aux loss、sigmoid 路由、专家池扩容
V3 MTP7030DeepSeek2024-12辅助训练目标;推理可接原生投机
V3 FP8 动态量化100DeepSeek2024-12预训练数值与吞吐 Transformer 拓扑
R1 RLVR / GRPO100DeepSeek2025-01V3 同架构;差异全在后训练
V3.1 Hybrid / Agent8020DeepSeek2025-中post-train 能力;同一权重切换 thinking/chat
V3.1-T MLA Prefill MHA / Decode MQA100DeepSeek2025同权重;仅推理路径 MHA↔MQA 间切换
V3.2 DSA3565DeepSeek2025-12Lightning Indexer + 异构 cache长上下文 infer 主战场(Exp 2025-09)
Index Share100清华 + 智谱2026-03跨层复用 top-$k$ index
ESS Latent offload100百度百舸2025-12Latent-Cache CPU 分层;与 DSA 算法正交
V4 CSA / HCA3070DeepSeek2026压缩 KV 序列;1M context 算力与 cache 主因
V4 mHC5545DeepSeek2025-12残差双随机流形;训推均改前向图(V4 落地 2026)
V4 Muon100DeepSeek2026优化器替换,加速收敛
V4 Hash MoE + FP45545DeepSeek2026Hash 路由FP4 权重量化
DSpark100DeepSeek2026-06V4 线上投机解码;基线 MTP-1不改基座
V4 HiSparse / 异构 KV offload100DeepSeek(layout)+ Together 等2026-05C4 inactive entry磁盘 prefix;纯 infer 内存层级
FlashMLA / DeepGEMM indexer100DeepSeek2025Kernel 实现;承载 MLA / DSA 算子(§6
Visual Primitives MLLM602515DeepSeek-AI2026V4-Flash + ViT;visual primitives CoT;CSA 压视觉 KV(§3.8

版本级粗汇总

版本模型 %架构-train %架构-infer %发表时间相对上一版主叙事
V11002024-01系列首篇;scaling + 双语
V21045452024-05首次 MLA + MoE
V31555302024-12MoE 路由 + MTP + 671B 规模
R11002025-01纯后训练
V3.1 / Terminus75252025-中Hybrid + MLA 模式切换
V3.235652025-12唯一架构改动 = DSA
V4(基座)40602026CSA/HCA/mHC/MoE/Muon 打包
V4 + DSpark(线上)100†2026-06† 相对已训好的 V4 checkpoint 的 decode 补丁

读法:Index Share、ESS、DSpark 等 100% 架构-infer 的工作,与「改权重」的 V3.2 DSA、V4 CSA 可叠加部署;§5 KV-offload 三代与 §6 推理栈是 infer 轴的进一步展开。

1.2 Transformer 四模块演进

Raschka 第三方解读 §8 · 表 8-1 将 Transformer 拆成四条正交演进链;下表映射到本仓库版本节点(非 exhaustive,仅 DeepSeek 主线):

模块行业演进链DeepSeek 落点
NormalizationLayerNorm → RMSNorm → Dynamic TanHV1–V4:RMSNorm(Pre-Norm)
AttentionGQA → sliding window(SWA) → MLA → sparse (DSA) → CSA/HCAMLADSACSA/HCA · V4 另含 SWA 局部精确 KV
FFNGeLU → SwiGLU → MoEDeepSeekMoEaux-loss-freeHash MoE + FP4
残差恒等(ResNet) → Hyper-Connections → mHCHCmHC(V4 落地)

读法:V3.2 的「唯一结构改动」几乎全在 Attention 轴(DSA);V4 同时在 Attention(CSA/HCA)、残差(mHC)、FFN(Hash MoE)三轴打包升级;后训练(R1 RLVR)与 infer 补丁(Index Share / ESS / DSpark)不改变模块拓扑,见 §1.1

延伸:Raschka 全文 §8 · mHC 专文 §1

DeepSeek 版本快速对照:V3 到 V4 主链与 Index Share 补丁

图示详情


2. 版本时间线与关系

DeepSeek 版本时间线:算法演进与基础设施补丁

图示详情

图 2 补充V1 · V2 · MLA · DeepSeekMoE · aux-loss-free · RLVR · DSA · Index Share · ESS · V4 · DSpark · mHC · 优化方向分类 §1.1 各节代表图:§3.1 scaling/BBPE · §3.2 MLA · §3.3 MoE vs V2 / MTP / FP8 · §3.4 GRPO · §3.5 MLA 模式切换 · §3.6 DSA · §3.7 V4 异构 KV + DSpark · §3.8 Visual Primitives · §4 Index Share · §5.1–5.3 KV offload 三代

版本发布时间参数量激活参数上下文机构arXiv相对上一版的核心变化
DeepSeek-LLM V12024-017B / 67B同左(稠密)4KDeepSeek2401.02954系列首篇;LLaMA 系 + GQA(67B);2T 双语;scaling laws
DeepSeek-V22024-05236B21B128KDeepSeek2405.04434首次 MLA + DeepSeekMoE;8.1T
DeepSeek-V32024-12671B37B128KDeepSeek2412.19437MLA 旗舰化 + 256/8 MoE + MTP + aux-loss-free;14.8T
DeepSeek-R12025-01同 V3同 V3128KDeepSeek2501.12948V3-Base 上 RLVR + GRPO架构不变
DeepSeek-V3.12025 中同 V3同 V3128KDeepSeekHybrid 推理:同一权重切换 thinking / non-thinking
V3.1-Terminus2025同 V3.1同 V3.1128KDeepSeekV3.1 收尾 checkpoint,作为 V3.2 续训起点
DeepSeek-V3.2-Exp2025-09同 V3.1-T同 V3.1-T128KDeepSeekExp PDF · 2512.02556DeepSeek 官方实验版;引入 DSA(DeepSeek 原创稀疏注意力)
DeepSeek-V3.22025-12同 V3.1-T同 V3.1-T128KDeepSeek2512.02556DeepSeek 官方正式版;DSA 定型;唯一架构改动即为稀疏注意力
ESS2025-12百度百舸2512.10576纯推理补丁:Latent-Cache CPU offload;与 DSA 正交
DeepSeek-V4-Pro20261.6T49B1MDeepSeek2606.19348CSA + HCA + mHC + Muon;MoE FP4
DeepSeek-V4-Flash2026284B13B1MDeepSeek2606.19348更小激活量,效率优先
Index Share2026-03清华 + 智谱2603.12201纯推理补丁
DSpark2026-06DeepSeek + 北大DeepSpecV4 Flash/Pro 预览引擎;相对 MTP-1 基线;半自回归 draft + 置信度验证;纯推理

arXiv 说明:V3.1 / Terminus 为 post-train 与 checkpoint,无独立论文;V3.2-Exp 先发 GitHub 技术报告,DSA 完整叙述并入 V3.2 论文 2512.02556DSpark 无独立 arXiv,技术报告见 DeepSpec / DSpark_paper.pdf;与 V4 同期开源,叠加在 V4 checkpoint 之上(§3.7 / §6)。


3. 各版本详解

各版本一页纸梗概见 版本梗概索引。以下为展开说明(按时间线从 V1 起)。更细的 V1→V3 脉络另见 V1→V3 演进

3.1 DeepSeek-LLM V1

V1 正文DeepSeek-LLM V1(2401.02954 完整中文译文)

论文DeepSeek-LLM arXiv:2401.02954

架构要点

  • 稠密 LLaMA 系:Pre-Norm + RMSNorm + SwiGLU + RoPE;7B(30 层 MHA)与 67B(95 层加深 + 8 头 GQA)。
  • 上下文 4K;词表 BBPE 102,400
  • 预训练 2.0T 中英双语;数据管线:跨 dump 去重 → 过滤 → domain 重混。
  • 对齐:~150 万 instruction,SFT + DPO

研究贡献

  • 系统 scaling laws($C=M\cdot D$);IsoFLOP 下数据质量越高越应扩模型而非堆数据。

答疑为何用 $C=M\cdot D$ 而非 Chinchilla 的 $C=6ND$? — $M$=non-embedding FLOPs/token、Table 3 误差、与 IsoFLOP 的关系

Figure 4a — IsoFLOP 曲线(各算力档 loss 随 M 呈 U 形,谷底 = 最优分配)

Figure 4a — IsoFLOP 曲线(各算力档 loss 随 $M$ 呈 U 形,谷底 = 最优分配)

来源:V1 论文 Figure 4a(详见 V1 §3.2 最优 model/data Scaling)。横轴 = non-embedding FLOPs/token $M$;纵轴 = validation bits-per-byte;每条 U 形曲线对应固定总算力 $C$,谷底即该预算下最优 model/data 分配。

词表 BBPE

BBPE 训练过程示例:UTF-8 字节、迭代 merge、编码

图示详情 · V1 BBPE 专文

推理 infra 特征

  • 标准 GQA/MHA KV cache(与后续 MLA 不兼容);无 MoE、无 latent 压缩;可按常规 Transformer 部署。

3.2 DeepSeek-V2

梗概DeepSeek-V2 · MLA 详解

论文DeepSeek-V2 arXiv:2405.04434 仓库deepseek-ai/DeepSeek-V2

相对 V1 的架构跃迁

维度V1(67B 稠密)V2
FFN稠密 SwiGLUDeepSeekMoE(160 routed + 2 shared / token 激活 6)
注意力GQA首次 MLA latent KV
规模67B 全激活236B / 21B activated
上下文4K128K
预训练2T8.1T

要点

  • MLA 将 K/V 压入 latent cache;论文称相对 67B 稠密 KV 体积约 -93.3%、生成吞吐 5.76×
  • MoE 路由为 softmax 系(V3 起改为 aux-loss-free sigmoid 路由)。
  • MLA 结构被 V3 / R1 / V3.1 / V3.2 沿用;V2 是系列中 MLA+MoE 的首次引入
MLA 前向计算流程(Eq.37–47,含左下角三个说明框)

图示详情 · 公式与符号详解

为什么 1536 能变成 [128,128] 和 [128,64]? ——不是切分,是两个独立上投影矩阵放大后按头 reshape:

  • $q_t^C = W^{UQ} c_t^Q$: $[16384 \times 1536] \cdot [1536] \to [16384]$, 其中 $16384 = n_h \times d_h = 128 \times 128$ → reshape $[128, 128]$
  • $q_t^R = \mathrm{RoPE}(W^{QR} c_t^Q)$: $[8192 \times 1536] \cdot [1536] \to [8192]$, 其中 $8192 = n_h \times d_h^R = 128 \times 64$ → reshape $[128, 64]$

$[128,128]$ 里两个 128 含义不同:前一个是头数 $n_h$(共 128 个头),后一个是每头维度 $d_h$(每头 128 维),本配置恰好都等于 128。二者都是架构超参,不是从 1536 算出来的;1536 只决定矩阵的列数。(KV 侧同理:$c_t^{KV} = 512$ 经 $W^{UK}, W^{UV}$ 投影成 $[128,128]$。)

右边 $k_t^R = [64]$ 的 64 怎么来? ——$64 = d_h^R$(每头 RoPE 维度,架构超参);$W^{KR}: [64 \times 5120] \cdot h_t \to [64]$,再加上 RoPE。 关键: $k_t^R$ 没有头维度——所有 $n_h = 128$ 个头共享同一个 $[64]$(解耦 RoPE);而左边 $q_t^R$ 是每头各一份 $[128, 64]$。 正因为 K 的 RoPE 部分全局只存一份 $[64]$(不按头复制),KV 缓存才这么小——这是 MLA 省显存的另一半原因。

MLA 到底压缩了谁?如果不做压缩会变多大? ——下面三项就是 MLA 压缩/解耦的对象(格式:MLA 压缩后 $\Rightarrow$ 不压缩):

  • $c_t^Q$ 查询潜向量: $1536 \Rightarrow 16384\ (= n_h d_h)$, 约 11×; 不进缓存,省的是参数与计算量。
  • $c_t^{KV}$ KV 联合潜向量: $512 \Rightarrow 16384\ (= n_h d_h)$, 32×; ★进缓存 —— 这是省显存的核心。
  • $k_t^R$ 共享 RoPE 键: $64 \Rightarrow 8192\ (= n_h d_h^R)$, 128×; ★进缓存,靠全头共享(不按头复制),而非低秩压缩。

缓存总量: 标准 MHA $= 2n_h d_h = 32768$ → MLA 若不压缩 $= 16384 + 64 = 16448$(仅 MHA 一半) → 实际 MLA $= 512 + 64 = 576 \approx$ MHA 的 1/57

来源:V2 论文 Eq. 37–47;cache 仅存 $c_t^{KV}$(512)+ 共享 $k_t^R$(64)。

推理 infra 特征

  • KV cache 变为 MLA latent 格式;需引擎侧自定义 kernel / 适配(后续 FlashMLA 等)。

3.3 DeepSeek-V3

梗概DeepSeek-V3 · 相对 V2 纯模型结构优化§对比 V2

论文DeepSeek-V3 Technical Report 仓库deepseek-ai/DeepSeek-V3

相对 V2 的架构升级

维度V2V3
规模236B / 21B 激活(~8.9%)671B / 37B 激活(~5.5%
MoE160 routed,top-62 shared;softmax + aux loss256 routed,top-81 shared;aux-loss-free(sigmoid + bias $b_i$)
注意力首次 MLA同族 MLA(latent KV 方程不变;671B / 128K 配比升级)
预测头单步 next-token+ MTP 辅助头(多步并行预测)
预训练8.1T14.8T

要点(三条结构线)

  1. MoE 路由革新:去掉 aux loss 主路径;router 内 可学习 bias 做负载均衡,sigmoid affinity 选 expert、门控与选择解耦;专家池扩至 256/8,激活占比更低。

  2. MTP(全新):输出层 Multi-Token Prediction 辅助目标;推理可原生投机解码 → 投机解码与 DSpark 专文 §2

  3. MLA 继承:K/V 仍压入 latent cache($c_t^{KV}$ 512 + 共享 $k_t^R$ 64);V3 价值在旗舰规模与 128K 巩固,新 attention 算子(Hybrid / DSA 在 V3.1 / V3.2)。

DeepSeek-V3 vs V2 MoE 结构创新:aux-loss-free 路由、256/8 专家池、Shared+Routed 融合

图示详情 · MoE 详解 · aux-loss-free · MLA 前向流程图

  • 训练:14.8T tokens;后训练含 SFT + RL(R1 为同架构 + RLVR)。

训练 infra(非模型结构)FP8 动态量化 — 块级 scale + 每 $N_c{=}128$ MMA 提升 FP32 累加;与 DualPipe / DeepEP 并列,支撑 671B 预训练吞吐与数值稳定。

推理 infra 特征

  • KV cache 为 MLA latent 格式,与标准 GQA/MHA 不兼容。
  • vLLM 等引擎需 --trust-remote-code--block-size 1(MLA 专用)。
  • 长上下文下主要瓶颈是 Latent-Cache 线性增长 占满 HBM,限制 batch size。

3.4 DeepSeek-R1

梗概DeepSeek-R1 · RLVR 详解

论文DeepSeek-R1 arXiv:2501.12948 训练管线DeepSeek-R1 训练 Pipeline

要点

  • 架构与 V3 完全相同;差异仅在 后训练
  • RLVR(Reinforcement Learning with Verifiable Rewards):数学/代码等用 规则验证器 给奖励,配合 GRPO(无 critic),不用神经 reward model 做主信号。
  • R1-Zero:V3-Base 上纯 RL,推理能力自发涌现;可读性弱。
  • R1:冷启动 SFT → RL → 拒绝采样 SFT → 二阶段 RL(推理 + 通用 RM),补齐 helpful / safe。
PPO vs GRPO:RLHF 神经 RM + Critic 与 RLVR 验证器 + 组内 baseline 对比

图示详情 · RLVR 详解 · GRPO 算法

推理 infra:与 V3 相同(MLA latent KV、引擎配置一致)。


3.5 DeepSeek-V3.1 / V3.1-Terminus

梗概DeepSeek-V3.1 · V3.1-Terminus checkpoint

变化:在 V3 权重基础上做 post-training,无架构变更

维度V3V3.1
推理模式Base / R1 分离Hybrid:同一模型切换 thinking / chat
上下文128K128K(续训扩展)
Agent / Tool Use较弱明显加强(BrowseComp、SWE 等)

V3.1-Terminus 是 V3.1 系列的最终 checkpoint,上下文已扩至 128K,作为 V3.2 继续预训练 的起点。

MLA 模式切换

V3.1-Terminus MLA 模式切换:Prefill MHA 式 per-head latent,Decode MQA 式 shared latent

图示详情 · V3.1 专节

  • Prefill:MHA 模式(多 query head 独立 latent)
  • Decode:MQA 模式(latent 在 query head 间共享)

这为后续 DSA 在 MQA 模式下做稀疏选择打下基础。


3.6 DeepSeek-V3.2 / V3.2-Exp

梗概DeepSeek-V3.2 · V3.2-Exp

论文DeepSeek-V3.2 · V3.2-Exp 仓库deepseek-ai/DeepSeek-V3.2

相对 V3.1-Terminus 的唯一架构改动:DeepSeek Sparse Attention (DSA)

逻辑详解DSA逻辑详解 · DSA稀疏注意力

DSA 两阶段:Lightning Indexer 选 Top-k=2048,Core MLA 仅读 Latent-Cache 子集

图示详情 · DSA 逻辑详解

DSA 两阶段(三阶段表):

  1. Lightning Indexer:对每个 query,用廉价点积为所有历史 token 打分(复杂度仍 $O(L^2)$,但 head 维极低)。
  2. Top-$k$ Selector:选出 $k=2048$ 个最重要 token 的 latent entry。
  3. Core Attention(Core MLA):仅对这 $k$ 个 latent 做 MLA attention(复杂度 $O(Lk)$)。

概念Lightning Indexer · Top-$k$ Selector · Core MLA · Indexer-Cache · Latent-Cache · ESS

因此 V3.2 的 cache 分裂为两类异构 KV · DSA逻辑详解 §4):

Cache 类型作用占总量比例(ESS 论文是否 offload
Indexer-Cache计算重要性、选 top-$k$~16.8%(每步全算)
Latent-CacheMLA 核心 attention 的 KV~83.2%可 offloadESS

V3.2-Exp 与 V3.2 架构相同;Exp 用于验证 DSA 不损精度,V3.2 为正式训练 + 后训练成品。

推理内核DeepGEMM(indexer logits)、FlashMLA(sparse attention paged kernel)→ 推理 infra


3.7 DeepSeek-V4

梗概DeepSeek-V4-Pro / V4-Flash

论文DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence 模型:V4-Pro(1.6T / 49B act)、V4-Flash(284B / 13B act)

相对 V3.2 的算法大步进

组件说明
CSA (Compressed Sparse Attention)每 $m=4$ token 压缩为 1 条 KV entry,再对压缩序列做 DSA(top-$k$ 压缩 entry)→ 专文 §2
HCA (Heavily Compressed Attention)每 $m'=128$ token 压缩为 1 条,序列极短,直接 dense attention → 专文 §3
mHCManifold-Constrained Hyper-Connections§3 双随机流形):Sinkhorn–Knopp 凸组合
Muon优化器替换,加速收敛 → 专文 §1
Hash MoE前几层 dense FFN → Hash-routed MoE → 专文 §1
FP4 MoErouted expert 权重 FP4 + QAT → 专文 §2
DeepSeek-V4 异构 KV:CSA 4:1、HCA 128:1、SWA、Indexer、Tail buffer 与 HiSparse offload

图示详情 · V4 梗概 · CSA/HCA 详解 · Hash MoE + FP4 · Muon 详解 · mHC 详解

1M context 效率

模型单 token FLOPs累计 KV cache
V4-Pro @ 1M27%10%
V4-Flash @ 1M10%7%

Agentic Coding 场景:V4 面向 100K–1M token 的 agent 工作流(代码库、多轮 tool trace),算法侧用 CSA/HCA 压 cache,infra 侧用异构 KV 管理 + offload 才能「真的跑得动」。

推理加速:V4 预览引擎已部署 投机解码与 DSpark(相对 MTP-1 基线;同等吞吐下单用户 +57%–85%)。细节、图示、自测与 MTP 机制 均在专文,此处不重复。

专文投机解码与 DSpark · DeepSpec

Ablation 困境:V4 同时改了注意力、残差、优化器、MoE 路由、量化精度,很难像 V3.2 那样做单一变量对照——这也是社区更青睐 Index Share 这类「纯 infra、零重训」补丁的原因之一。


3.8 Thinking with Visual Primitives

要点专文Visual Primitives 论文要点 · PDFVisual Primitives 原文 PDF

定位:V4-Flash 之上的 MLLM 支线——把 点 / 框 作为 CoT 的 visual primitives,解决语言难以精确 空间引用 的 Reference Gap。

双模块架构

模块角色
DeepSeek-ViT任意分辨率图像 → patch token → 3×3 通道压缩
V4-Flash LLM视觉 + 文本交错序列;CSA 将视觉 KV 再压
Figure 2 — V4-Flash + DeepSeek-ViT 架构与 Pretrain→SFT→RL→RFT 训练管线

Figure 2 | Model architecture and training pipeline(论文原图)。756×756 示例:2,916 patch → 324 LLM token → 81 KV entries,总压缩 7,056×

直接打开 Figure 2 · 要点专文 §2

效率与精度

Figure 1 — 800×800 输入 token 消耗与各模型 benchmark 均分
指标数值 / 对比
800×800 视觉 KV90 entries(全文 ~361 tokens)vs Gemini-3-Flash ~1100 tokens
7 项 benchmark 均分77.2%(子集评测,非全能榜)
拓扑推理DS_Maze 66.9、DS_Path_Tracing 56.7,显著高于 Qwen3-VL-235B
Table 1 — 与 Gemini / GPT / Claude / Gemma / Qwen3-VL 对比

Table 1 | Comparison with frontier models(bold=最佳)。

直接打开 Figure 1 · Table 1 · 要点专文 §4–§5

与 §3.7 V4 的关系:共享 CSA 压缩 attention 与 MoE 推理栈;增量在 ViT 编码器 + visual primitives 后训练管线,属于 模型轴(数据/对齐)+ 架构-train(ViT 模块) 的扩展,而非新的文本稀疏注意力变体。


4. Index Share

梗概Index Share 逻辑详解Index Share逻辑详解

社区昵称 Index Share / 「V3.3」;正式名 IndexCache。 论文:arXiv:2603.12201清华大学 + 智谱 AI / Z.ai)· 代码:THUDM/IndexCache

4.0 技术归属

角色机构说明
被优化对象DeepSeek自研 DSA + Lightning Indexer;每层独立 top-$k$,长上下文下 indexer 成为瓶颈
优化算法清华 + 智谱(Z.ai)IndexCache / index-share:F 层缓存索引、S 层复用,非 DeepSeek 官方产物
工程落地百度百舸训推引擎集成 IndexCache、分布式与异构芯片适配;ESS 为百舸自研的 Latent-Cache offload,与 IndexCache 正交

详见 Index Share梗概 §技术归属

4.1 解决什么问题

DSA 的 indexer 每层独立运行,复杂度 $O(L^2)$,长上下文 prefill 时 indexer 成为显著开销。观察:相邻层的 top-$k$ index 高度相似

4.2 机制

将 Transformer 层分为两类:

  • Full (F) 层:保留 indexer,正常计算 top-$k$
  • Shared (S) 层不跑 indexer,直接复用最近一个 F 层的 cached indices

典型模式:每 4 层保留 1 个 F 层(FFFS 重复),去掉 75% indexer 计算

Index Share FFFS 跨层复用:F 层算 indexer,S 层复用 cached indices

图示详情 · Index Share 逻辑详解

两种部署:

模式做法
Training-free在校准集上贪心搜索哪些层保留 indexer,最小化 LM loss
Training-aware多层蒸馏,让保留的 indexer 拟合其覆盖层的平均 attention 分布

4.3 为何被称为「最好的 infra 补丁」

属性Index ShareV4 级架构改动
权重变更全量重训
额外显存新 cache layout
实现SGLang / vLLM 一个 if/else 分支异构 KV + 新 kernel
加速200K:TTFT 1.82×,decode 1.48×1M:FLOPs/KV 降至 10% 级
适用模型DSA 系(V3.2、GLM-5)V4 自带 CSA indexer

结论:Index Share 典型体现「infra 归 infra,算法归算法」——在 DSA 算法不变的前提下,用跨层冗余做系统优化。


5. KV-offload 演进

KV-offload 指将部分 cache 卸载到 CPU DRAM(或磁盘),按需 prefetch 回 GPU。DeepSeek 各代的 cache 形态不同,offload 策略也完全不同

5.1 V3 / V3.1:标准 MLA Latent-Cache

  • Cache 内容:单一 MLA latent 向量序列。
  • Offload:可用通用 KV offload(FlexGen、vLLM CPU offload 等),但 MLA 自定义格式导致很多引擎 不支持标准 offload
  • 瓶颈:线性增长的 latent 占满 HBM → decode batch size 受限。
V3 同质 MLA Latent-Cache:线性增长占满 HBM,可选通用 CPU offload

图示详情 · MLA 前向专文 · MLA §KV Cache

5.2 V3.2:Indexer-Cache + Latent-Cache 分离 → ESS

归属澄清DeepSeek-V3.2-Exp / V3.2DSA 均为 DeepSeek 官方发布。下文 ESS 论文标题虽含「DeepSeek-V3.2-Exp」,但 ESS 算法来自百度百舸,是针对 DeepSeek DSA 模型的 Latent-Cache offload 方案,不是 DSA 本身,也不是 V3.2-Exp 的发布方。

详解ESS Latent offload

论文ESS: An Offload-Centric Latent-Cache Management Architecture for DeepSeek-V3.2-Exp

V3.2 异构 Cache:Indexer-Cache 常驻 GPU 选 top-2048,Latent-Cache 可 offload

图示详情 · ESS 概念 · ESS 论文梗概

策略说明
Indexer-Cache 常驻 GPU占 16.8%,每步必须全算,offload 无意义
Latent-Cache offload 到 CPU占 83.2%,利用 top-$k$ 的 时间局部性(相邻 decode step 的 $K_t^l$ 重叠率高)
FlashTrans + UVA解决 656B 小块 PCIe 传输带宽极低(原 ~0.8 GB/s H2D)→ 提升至 ~37 GB/s
GPU 侧 Sparse Memory PoolLRU 维护 GPU 热 latent 子集,miss 时从 CPU prefetch
Layer-wise overlap计算与传输流水线掩盖延迟

收益:32K context 吞吐 +69.4%;128K 最高 +123%。

与 V3 的本质区别:offload 单位从「整条 MLA latent 序列」变为「稀疏选中的 Latent-Cache entry」,且需与 indexer 的 top-$k$ 选择协同。

5.3 V4:异构 KV + HiSparse + 磁盘 Prefix Cache

V4 的 cache 不再是单一 MLA latent,而是多类型并存:

V4 异构 KV 与 HiSparse:inactive C4 entry offload 到 CPU pinned memory

图示详情 · V4 §推理 infra

KV 类型来源特点
CSA 压缩 entry每 4 token → 1序列长 $\frac{L}{4}$,稀疏 top-$k$
HCA 压缩 entry每 128 token → 1序列极短,dense attend
SWA (Sliding Window)最近 $n_{\text{win}}$ token独立 eviction 策略
Indexer KVCSA 的 lightning indexer与主 attention 维度不同
Tail buffer不足 $m$ 个 token 的未压缩尾等待凑满再压缩

KV layout专文:V4 KV Layout

  • Classical KV cache:按 $\mathrm{lcm}(m, m')$ 对齐的压缩块,服务 CSA/HCA
  • State cache:每请求固定大小块,存 SWA + 未就绪压缩尾

HiSparse专文:V4 HiSparse

  • inactive 的 C4(CSA 4:1 压缩层)cache entry offload 到 CPU pinned memory
  • GPU 只保留 active「热」工作集
  • 单节点 B200 上 KV 容量从 ~1.2M tokens 提升到 ~3.7M tokens(约 3×)

磁盘 Prefix Cache专文:V4 磁盘 Prefix Cache

  • CSA/HCA 压缩 entry 可直接落盘,共享 prefix 免重复 prefill
  • SWA 体积约为压缩 entry 的 8×,提供 Full / Periodic Checkpointing / Zero 三档策略

5.4 三代 offload 对比

维度V3 / V3.1V3.2 (ESS)V4 (HiSparse)
Cache 结构同质 MLA latentIndexer + Latent 异构CSA + HCA + SWA + Indexer + tail
Offload 对象全量 latent(若引擎支持)仅 Latent-CacheInactive C4 压缩 entry + 磁盘 prefix
局部性依据顺序滑动窗口top-$k$ index 时间相似度稀疏激活 + SWA 复用策略
传输优化通用 PCIeFlashTrans / UVA分层内存池 + PD 分离
与算法耦合中(依赖 DSA top-$k$)高(依赖压缩比 $m, m'$)

知乎社区观点(2026-06):V4 的 KV-offload 策略与 DSV3.2 完全不同——不是简单扩大 ESS,而是围绕异构压缩 cache 重新设计内存层级;V3.2 上可叠加 Index Share + ESS,V4 则需要 HiSparse + 定制 layout。


6. 推理技术栈对照

技术适用版本类型链接
FlashMLAV3+Kerneldeepseek-ai/FlashMLA
DeepGEMM indexerV3.2+KernelDeepGEMM PR#200
DSpark + DeepSpecV4 Flash / Pro(线上)投机解码 / decode 吞吐DeepSpec · DSpark 专文
IndexCache (Index Share)V3.2, GLM-5Infra 补丁THUDM/IndexCache
ESS(百度百舸)DeepSeek-V3.2 / V3.2-ExpLatent-Cache offloadarXiv:2512.10576
SGLang / vLLM recipes全系列serving各模型 README

7. 与本仓库其他专题的关系

优化方向:各专题在 §1.1 模型 / 架构-train / 架构-infer 分类 中的落点见该表「工作一览」。

专题关系
Engram另一条稀疏轴(条件记忆查表),与 MoE 正交;可 offload 到 Host/CXL
Engram 系列导读Engram / CXL Pooling / Tiny-Engram 深度笔记
DSA 系列 · ESS 概念 · Index ShareV3.2 稀疏注意力 + 推理 infra 补丁(与 §3.6 / §5.2 对应)
DSpark / DeepSpecV4 投机解码 线上加速;与 KV/offload 正交(§3.7 / §6)
Visual PrimitivesV4-Flash 多模态:visual primitives CoT + ViT;CSA 压视觉 KV(§3.8)
DeepSeek-R1 训练管线R1 四阶段;RLVR 概念

8. 参考资料

  1. DeepSeek-AI. DeepSeek-V3 Technical Report. arXiv:2412.19437, 2024.
  2. DeepSeek-AI. DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models. arXiv:2512.02556, 2025.
  3. DeepSeek-AI. DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention. 2025.
  4. Chen et al. ESS: An Offload-Centric Latent-Cache Management Architecture for DeepSeek-V3.2-Exp. arXiv:2512.10576, 2025.
  5. Bai et al. IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse. arXiv:2603.12201, 2026.
  6. DeepSeek-AI. DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence. arXiv:2606.19348, 2026.
  7. Together.ai. Serving DeepSeek-V4: why million-token context is an inference systems problem. 2026.