DeepSeek-V2 梗概

← 中文导读 · ← 仓库首页（EN） · ← 演进总览 §3.2 · ← MoE 线导读 · ← 版本目录 · V1→V3 演进 · MLA 详解 · V1 BBPE 词表 · Raschka 解读

定位

2024 年 5 月发布。相对 DeepSeek-LLM 67B 稠密，V2 是架构代际跃迁：首次引入 MLA 与 DeepSeekMoE，236B 总参、每 token 激活 21B，128K 上下文。论文称相对 67B 稠密：训练成本 -42.5%、KV cache -93.3%、生成吞吐 5.76×。

核心架构

组件	要点
MLA	K/V 低秩 latent 联合压缩进 cache；V3/R1/V3.1/V3.2 沿用同一 MLA 结构
DeepSeekMoE	每层 160 routed + 2 shared experts，每 token 激活 6 个 routed
规模	236B total / 21B activated
上下文	128K（Lite 版 16B / 2.4B act，32K）
预训练	8.1T tokens
Tokenizer	沿用 V1 DeepSeek 67B 同一 BBPE 词表（100K + special，embedding 102,400）
后训练	SFT + RL → Chat 版

相对 V1 的关键变化

维度	V1（67B 稠密）	V2
FFN	稠密 SwiGLU	MoE 稀疏激活
注意力	GQA（8 KV 头）	MLA latent KV
上下文	4K	128K
预训练	2T	8.1T
KV cache	标准 GQA	~6.7% 体积

推理 infra 关注点

KV cache 变为 MLA latent 格式（后续 V3 系继承）
需自定义 kernel / vLLM 适配（DeepSeek 后续提供 FlashMLA 等）
MoE 路由为 softmax 系（V3 改为 aux-loss-free sigmoid 路由，见 aux-loss-free）

方向	文档
MoE 架构	DeepSeekMoE 详解
本版本	V2 为 DeepSeekMoE 首发落地（见上表配置）
下游 ③ aux-loss-free	aux-loss-free MoE 路由 · DeepSeek-V3

上下游

方向	关系
上游	DeepSeek-LLM V1（稠密 + scaling laws）
下游	DeepSeek-V3：671B / 37B act、256 experts / 8 act、MTP、aux-loss-free、14.8T

DeepSeek 技术报告

DeepSeek-V2 梗概

定位

核心架构

相对 V1 的关键变化

推理 infra 关注点

上下游

参考