DeepSeek V1 → V2 → V3:前代到旗舰基座

更新:2026-06-25 ← 全系列演进总览 · V1 正文 · V2 · V3


1. 三代在系列中的位置

DeepSeek 开源主线可粗分为两段:

  1. V1 → V2 → V3(2024):从稠密双语基座,到 MLA + MoE 效率架构,再到 规模化旗舰 MoE(671B)
  2. V3.1 → V3.2 → V4(2025–2026):在同一 V3 权重架构上 post-train、加 DSA、再 架构大步进

本文梳理第一段:V1 → V2 → V3


2. 对照总表

版本时间机构arXiv总参 / 激活上下文注意力FFN预训练
DeepSeek-LLM V12024-01DeepSeek2401.029547B / 7B;67B / 67B4KMHA / GQA稠密 SwiGLU2T
DeepSeek-V22024-05DeepSeek2405.04434236B / 21B128KMLADeepSeekMoE(6 routed + shared)8.1T
DeepSeek-V32024-12DeepSeek2412.19437671B / 37B128KMLA(同 V2 族)MoE 256 / 8 act + aux-loss-free14.8T

3. 演进逻辑

3.1 注意力:标准 GQA → MLA

V1 GQA → V2/V3 MLA latent KV 压缩

图示详情

  • V2 首创 MLA2405.04434);V3 沿用同一 latent 格式(MLA 详解
  • V3.1 再在 Prefill/Decode 间切换 MHA/MQA 模式;V3.2 叠加 DSA — 均属 V3 代之后,不在 V1–V3 段

3.2 FFN:稠密 → MoE → 大规模 aux-loss-free MoE

代际做法
V1全参数激活;67B 用 加深(95 层) 而非单纯加宽 FFN
V2DeepSeekMoE:160 routed,每 token 6 个 + shared;稀疏激活降训练/推理 FFN 成本(MoE 线 §②
V3扩到 256 experts / 8 activated;路由改为 sigmoid + 动态 biasaux-loss-free),并加 MTP 辅助头

3.3 规模与数据:scaling laws → 产品化旗舰

代际训练叙事
V1系统研究 IsoFLOP / batch-LR scaling;7B/67B 同训 2T 双语语料
V28.1T 多源语料;证明 21B 激活可打过 67B 稠密
V314.8T + 完整后训练管线;671B 成为 R1 / V3.1 / V3.2 的共同架构母版

4. 能力代际

V1 → V2 → V3 能力代际及 R1 / V3.1 / V3.2 分叉

图示详情


5. 推理 infra 代际差异

维度V1V2V3
KV 格式标准 GQA/MHAMLA latentMLA latent(同 V2)
引擎适配通用 HF/vLLM需 MLA / MoE 定制FlashMLA、DeepGEMM、block-size=1
长上下文瓶颈4K 上限128K latent 线性涨同左;V3.2 才拆 Indexer/Latent

6. 阅读顺序

  1. V1 正文(DeepSeek-LLM 完整译文)
  2. DeepSeekMoE 架构 · V2 梗概 · MLA 前向流程图
  3. V3 梗概 · 演进总览 §3
  4. 后续代际:R1V3.1V3.2V4

7. 参考

  1. DeepSeek-AI. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism. arXiv:2401.02954, 2024.
  2. DeepSeek-AI. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv:2405.04434, 2024.
  3. DeepSeek-AI. DeepSeek-V3 Technical Report. arXiv:2412.19437, 2024.