DeepSeek 各版本梗概

更新:2026-06-25 ← 中文导读 · ← 仓库首页(EN) · 版本演进总览 · 算法线导读 · 基础设施线导读 · MoE 线导读

每篇一页纸梗概:定位、核心改动、infra 关注点、上下游关系。

| 算法线 | 算法线导读 | MLA → DSA → CSA/HCA + mHC 专题 hub | | 基础设施线 | 基础设施线导读 | MLA KV → 异构 Cache → Index Share → ESS → V4 HiSparse | | MoE 线 | MoE 线导读 | 稠密 FFN → DeepSeekMoE → aux-loss-free → Hash MoE |

版本文档一句话
V1DeepSeek-LLM V1DeepSeek-LLM 完整中文译文(7B/67B;Figure 2–5 / Table 3–4)
V1 BBPEV1 BBPE 词表Byte-level BPE 词表、预分词规则、102,400 embedding
V2DeepSeek-V2236B/21B;MLA + DeepSeekMoE 首次引入;128K
V1→V3V1→V3 前代演进前代三代对照与演进逻辑
V3DeepSeek-V3671B MoE + MLA 基座,开源旗舰起点
V3 FP8V3 FP8 动态量化训练侧 FP8 块级动态 scale + FP32 累加提升
R1DeepSeek-R1V3-Base + RLVR;架构不变
RLVRRLVR可验证奖励 + GRPO;R1 后训练核心
MLAMLA 低秩注意力latent 压缩 KV;前向流程图(Eq. 37–47)
DeepSeekMoEDeepSeekMoE细粒度 routed + shared;V2 首发、V3 旗舰化
MoE 路由aux-loss-free MoE 路由aux-loss-free 动态 bias 负载均衡(V3 论文 Table 5)
Seq-wise $L_{\mathrm{Bal}}$序列均衡损失单序列内 $f_i P_i$ 互补均衡(Eq. 17–20)
V3.1DeepSeek-V3.1Hybrid 推理,无架构变更,128K
V3.2DeepSeek-V3.2DSA 稀疏注意力,长上下文效率拐点
DSADSA 稀疏注意力indexer + top-$k$ + Core MLA;完整逻辑
Index ShareIndex Share 梗概IndexCache 纯 infra 补丁,社区称「V3.3」
ESSESS Latent offloadLatent-Cache CPU offload;论文梗概

推理答疑答疑索引(如 H2D / D2H

DSA / Index Share 逻辑详解DeepSeek DSA 与 Index Share 系列

| mHC | mHC | 双随机流形约束残差超连接(含 §3 流形推导);V4 落地 | | Hyper-Connections | Hyper-Connections | $n$ 路并行残差流 + pre/post/comb;mHC 前置(HC 子专文) | | CSA / HCA | CSA / HCA | 4:1 稀疏 + 128:1 dense 混合压缩注意力;V4 算法线 ③ | | Hash MoE + FP4 | Hash MoE + FP4 | 前几层 Hash 路由 + routed expert FP4;MoE 线 ⑤ | | Muon | Muon 优化器 | 矩阵正交化优化器;V4 训练侧替换大部分 AdamW | | V4 | DeepSeek-V4 | V4-Pro / V4-Flash 梗概,1M context | | V4 KV layout | V4 KV Layout | Classical + State 双池 | | V4 HiSparse | V4 HiSparse | inactive C4 CPU offload;~3× KV 容量 | | V4 磁盘 Prefix | V4 磁盘 Prefix Cache | CSA/HCA 落盘 + SWA 三档策略(§3.5.2) | | DSpark / 投机解码 | 投机解码与 DSpark | 唯一专文(MTP + 自测 + DSpark + MTP-1) |