DeepSeek-V2 梗概

← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.2 · ← MoE 线导读 · ← 版本目录 · V1→V3 演进 · MLA 详解 · V1 BBPE 词表 · Raschka 解读


定位

2024 年 5 月发布。相对 DeepSeek-LLM 67B 稠密,V2 是架构代际跃迁:首次引入 MLADeepSeekMoE,236B 总参、每 token 激活 21B128K 上下文。论文称相对 67B 稠密:训练成本 -42.5%、KV cache -93.3%、生成吞吐 5.76×

核心架构

组件要点
MLAK/V 低秩 latent 联合压缩进 cache;V3/R1/V3.1/V3.2 沿用同一 MLA 结构
DeepSeekMoE每层 160 routed + 2 shared experts,每 token 激活 6 个 routed
规模236B total / 21B activated
上下文128K(Lite 版 16B / 2.4B act,32K)
预训练8.1T tokens
Tokenizer沿用 V1 DeepSeek 67B 同一 BBPE 词表(100K + special,embedding 102,400)
后训练SFT + RL → Chat 版

相对 V1 的关键变化

维度V1(67B 稠密)V2
FFN稠密 SwiGLUMoE 稀疏激活
注意力GQA(8 KV 头)MLA latent KV
上下文4K128K
预训练2T8.1T
KV cache标准 GQA~6.7% 体积

推理 infra 关注点

  • KV cache 变为 MLA latent 格式(后续 V3 系继承)
  • 需自定义 kernel / vLLM 适配(DeepSeek 后续提供 FlashMLA 等)
  • MoE 路由为 softmax 系(V3 改为 aux-loss-free sigmoid 路由,见 aux-loss-free
方向文档
MoE 架构DeepSeekMoE 详解
本版本V2 为 DeepSeekMoE 首发落地(见上表配置)
下游 ③ aux-loss-freeaux-loss-free MoE 路由 · DeepSeek-V3

上下游

方向关系
上游DeepSeek-LLM V1(稠密 + scaling laws)
下游DeepSeek-V3:671B / 37B act、256 experts / 8 act、MTP、aux-loss-free、14.8T

参考