← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.2 · ← MoE 线导读 · ← 版本目录 · V1→V3 演进 · MLA 详解 · V1 BBPE 词表 · Raschka 解读
2024 年 5 月发布。相对 DeepSeek-LLM 67B 稠密,V2 是架构代际跃迁:首次引入 MLA 与 DeepSeekMoE,236B 总参、每 token 激活 21B,128K 上下文。论文称相对 67B 稠密:训练成本 -42.5%、KV cache -93.3%、生成吞吐 5.76×。
| 组件 | 要点 |
| MLA | K/V 低秩 latent 联合压缩进 cache;V3/R1/V3.1/V3.2 沿用同一 MLA 结构 |
| DeepSeekMoE | 每层 160 routed + 2 shared experts,每 token 激活 6 个 routed |
| 规模 | 236B total / 21B activated |
| 上下文 | 128K(Lite 版 16B / 2.4B act,32K) |
| 预训练 | 8.1T tokens |
| Tokenizer | 沿用 V1 DeepSeek 67B 同一 BBPE 词表(100K + special,embedding 102,400) |
| 后训练 | SFT + RL → Chat 版 |
| 维度 | V1(67B 稠密) | V2 |
| FFN | 稠密 SwiGLU | MoE 稀疏激活 |
| 注意力 | GQA(8 KV 头) | MLA latent KV |
| 上下文 | 4K | 128K |
| 预训练 | 2T | 8.1T |
| KV cache | 标准 GQA | ~6.7% 体积 |
- KV cache 变为 MLA latent 格式(后续 V3 系继承)
- 需自定义 kernel / vLLM 适配(DeepSeek 后续提供 FlashMLA 等)
- MoE 路由为 softmax 系(V3 改为 aux-loss-free sigmoid 路由,见 aux-loss-free)