DeepSeek V1 → V2 → V3:前代到旗舰基座
1. 三代在系列中的位置
DeepSeek 开源主线可粗分为两段:
- V1 → V2 → V3(2024):从稠密双语基座,到 MLA + MoE 效率架构,再到 规模化旗舰 MoE(671B)
- V3.1 → V3.2 → V4(2025–2026):在同一 V3 权重架构上 post-train、加 DSA、再 架构大步进
本文梳理第一段:V1 → V2 → V3。
2. 对照总表
| 版本 | 时间 | 机构 | arXiv | 总参 / 激活 | 上下文 | 注意力 | FFN | 预训练 |
|---|---|---|---|---|---|---|---|---|
| DeepSeek-LLM V1 | 2024-01 | DeepSeek | 2401.02954 | 7B / 7B;67B / 67B | 4K | MHA / GQA | 稠密 SwiGLU | 2T |
| DeepSeek-V2 | 2024-05 | DeepSeek | 2405.04434 | 236B / 21B | 128K | MLA | DeepSeekMoE(6 routed + shared) | 8.1T |
| DeepSeek-V3 | 2024-12 | DeepSeek | 2412.19437 | 671B / 37B | 128K | MLA(同 V2 族) | MoE 256 / 8 act + aux-loss-free | 14.8T |
3. 演进逻辑
3.1 注意力:标准 GQA → MLA
- V2 首创 MLA(2405.04434);V3 沿用同一 latent 格式(MLA 详解)
- V3.1 再在 Prefill/Decode 间切换 MHA/MQA 模式;V3.2 叠加 DSA — 均属 V3 代之后,不在 V1–V3 段
3.2 FFN:稠密 → MoE → 大规模 aux-loss-free MoE
| 代际 | 做法 |
|---|---|
| V1 | 全参数激活;67B 用 加深(95 层) 而非单纯加宽 FFN |
| V2 | DeepSeekMoE:160 routed,每 token 6 个 + shared;稀疏激活降训练/推理 FFN 成本(MoE 线 §②) |
| V3 | 扩到 256 experts / 8 activated;路由改为 sigmoid + 动态 bias(aux-loss-free),并加 MTP 辅助头 |
3.3 规模与数据:scaling laws → 产品化旗舰
| 代际 | 训练叙事 |
|---|---|
| V1 | 系统研究 IsoFLOP / batch-LR scaling;7B/67B 同训 2T 双语语料 |
| V2 | 8.1T 多源语料;证明 21B 激活可打过 67B 稠密 |
| V3 | 14.8T + 完整后训练管线;671B 成为 R1 / V3.1 / V3.2 的共同架构母版 |
4. 能力代际
5. 推理 infra 代际差异
| 维度 | V1 | V2 | V3 |
|---|---|---|---|
| KV 格式 | 标准 GQA/MHA | MLA latent | MLA latent(同 V2) |
| 引擎适配 | 通用 HF/vLLM | 需 MLA / MoE 定制 | FlashMLA、DeepGEMM、block-size=1 |
| 长上下文瓶颈 | 4K 上限 | 128K latent 线性涨 | 同左;V3.2 才拆 Indexer/Latent |
6. 阅读顺序
- V1 正文(DeepSeek-LLM 完整译文)
- DeepSeekMoE 架构 · V2 梗概 · MLA 前向流程图
- V3 梗概 · 演进总览 §3
- 后续代际:R1 → V3.1 → V3.2 → V4
7. 参考
- DeepSeek-AI. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. arXiv:2401.02954, 2024.
- DeepSeek-AI. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv:2405.04434, 2024.
- DeepSeek-AI. DeepSeek-V3 Technical Report. arXiv:2412.19437, 2024.