DeepSeek V1 → V2 → V3：前代到旗舰基座

更新：2026-06-25 ← 全系列演进总览 · V1 正文 · V2 · V3

1. 三代在系列中的位置

DeepSeek 开源主线可粗分为两段：

V1 → V2 → V3（2024）：从稠密双语基座，到 MLA + MoE 效率架构，再到 规模化旗舰 MoE（671B）
V3.1 → V3.2 → V4（2025–2026）：在同一 V3 权重架构上 post-train、加 DSA、再 架构大步进

本文梳理第一段：V1 → V2 → V3。

2. 对照总表

版本	时间	机构	arXiv	总参 / 激活	上下文	注意力	FFN	预训练
DeepSeek-LLM V1	2024-01	DeepSeek	2401.02954	7B / 7B；67B / 67B	4K	MHA / GQA	稠密 SwiGLU	2T
DeepSeek-V2	2024-05	DeepSeek	2405.04434	236B / 21B	128K	MLA	DeepSeekMoE（6 routed + shared）	8.1T
DeepSeek-V3	2024-12	DeepSeek	2412.19437	671B / 37B	128K	MLA（同 V2 族）	MoE 256 / 8 act + aux-loss-free	14.8T

3. 演进逻辑

3.1 注意力：标准 GQA → MLA

V1 GQA → V2/V3 MLA latent KV 压缩

V2 首创 MLA（2405.04434）；V3 沿用同一 latent 格式（MLA 详解）
V3.1 再在 Prefill/Decode 间切换 MHA/MQA 模式；V3.2 叠加 DSA — 均属 V3 代之后，不在 V1–V3 段

3.2 FFN：稠密 → MoE → 大规模 aux-loss-free MoE

代际	做法
V1	全参数激活；67B 用加深（95 层）而非单纯加宽 FFN
V2	DeepSeekMoE：160 routed，每 token 6 个 + shared；稀疏激活降训练/推理 FFN 成本（MoE 线 §②）
V3	扩到 256 experts / 8 activated；路由改为 sigmoid + 动态 bias（aux-loss-free），并加 MTP 辅助头

3.3 规模与数据：scaling laws → 产品化旗舰

代际	训练叙事
V1	系统研究 IsoFLOP / batch-LR scaling；7B/67B 同训 2T 双语语料
V2	8.1T 多源语料；证明 21B 激活可打过 67B 稠密
V3	14.8T + 完整后训练管线；671B 成为 R1 / V3.1 / V3.2 的共同架构母版

4. 能力代际

V1 → V2 → V3 能力代际及 R1 / V3.1 / V3.2 分叉

5. 推理 infra 代际差异

维度	V1	V2	V3
KV 格式	标准 GQA/MHA	MLA latent	MLA latent（同 V2）
引擎适配	通用 HF/vLLM	需 MLA / MoE 定制	FlashMLA、DeepGEMM、`block-size=1`
长上下文瓶颈	4K 上限	128K latent 线性涨	同左；V3.2 才拆 Indexer/Latent

6. 阅读顺序

V1 正文（DeepSeek-LLM 完整译文）
DeepSeekMoE 架构 · V2 梗概 · MLA 前向流程图
V3 梗概 · 演进总览 §3
后续代际：R1 → V3.1 → V3.2 → V4

7. 参考

DeepSeek-AI. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. arXiv:2401.02954, 2024.
DeepSeek-AI. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv:2405.04434, 2024.
DeepSeek-AI. DeepSeek-V3 Technical Report. arXiv:2412.19437, 2024.