DeepSeek 各版本梗概

更新：2026-06-25 ← 中文导读 · ← 仓库首页（EN） · 版本演进总览 · 算法线导读 · 基础设施线导读 · MoE 线导读

每篇一页纸梗概：定位、核心改动、infra 关注点、上下游关系。

| 算法线 | 算法线导读 | MLA → DSA → CSA/HCA + mHC 专题 hub | | 基础设施线 | 基础设施线导读 | MLA KV → 异构 Cache → Index Share → ESS → V4 HiSparse | | MoE 线 | MoE 线导读 | 稠密 FFN → DeepSeekMoE → aux-loss-free → Hash MoE |

版本	文档	一句话
V1	DeepSeek-LLM V1	DeepSeek-LLM 完整中文译文（7B/67B；Figure 2–5 / Table 3–4）
V1 BBPE	V1 BBPE 词表	Byte-level BPE 词表、预分词规则、102,400 embedding
V2	DeepSeek-V2	236B/21B；MLA + DeepSeekMoE 首次引入；128K
V1→V3	V1→V3 前代演进	前代三代对照与演进逻辑
V3	DeepSeek-V3	671B MoE + MLA 基座，开源旗舰起点
V3 FP8	V3 FP8 动态量化	训练侧 FP8 块级动态 scale + FP32 累加提升
R1	DeepSeek-R1	V3-Base + RLVR；架构不变
RLVR	RLVR	可验证奖励 + GRPO；R1 后训练核心
MLA	MLA 低秩注意力	latent 压缩 KV；前向流程图（Eq. 37–47）
DeepSeekMoE	DeepSeekMoE	细粒度 routed + shared；V2 首发、V3 旗舰化
MoE 路由	aux-loss-free MoE 路由	aux-loss-free 动态 bias 负载均衡（V3 论文 Table 5）
Seq-wise $L_{\mathrm{Bal}}$	序列均衡损失	单序列内 $f_i P_i$ 互补均衡（Eq. 17–20）
V3.1	DeepSeek-V3.1	Hybrid 推理，无架构变更，128K
V3.2	DeepSeek-V3.2	DSA 稀疏注意力，长上下文效率拐点
DSA	DSA 稀疏注意力	indexer + top-$k$ + Core MLA；完整逻辑
Index Share	Index Share 梗概	IndexCache 纯 infra 补丁，社区称「V3.3」
ESS	ESS Latent offload	Latent-Cache CPU offload；论文梗概

推理答疑：答疑索引（如 H2D / D2H）

DSA / Index Share 逻辑详解：DeepSeek DSA 与 Index Share 系列

| mHC | mHC | 双随机流形约束残差超连接（含 §3 流形推导）；V4 落地 | | Hyper-Connections | Hyper-Connections | $n$ 路并行残差流 + pre/post/comb；mHC 前置（HC 子专文） | | CSA / HCA | CSA / HCA | 4:1 稀疏 + 128:1 dense 混合压缩注意力；V4 算法线 ③ | | Hash MoE + FP4 | Hash MoE + FP4 | 前几层 Hash 路由 + routed expert FP4；MoE 线 ⑤ | | Muon | Muon 优化器 | 矩阵正交化优化器；V4 训练侧替换大部分 AdamW | | V4 | DeepSeek-V4 | V4-Pro / V4-Flash 梗概，1M context | | V4 KV layout | V4 KV Layout | Classical + State 双池 | | V4 HiSparse | V4 HiSparse | inactive C4 CPU offload；~3× KV 容量 | | V4 磁盘 Prefix | V4 磁盘 Prefix Cache | CSA/HCA 落盘 + SWA 三档策略（§3.5.2） | | DSpark / 投机解码 | 投机解码与 DSpark | 唯一专文（MTP + 自测 + DSpark + MTP-1） |