DeepSeek MoE 线:稠密 FFN → DeepSeekMoE → aux-loss-free → Hash MoE
← 中文导读 · ← 仓库首页(EN) · 更新:2026-06-27 ← 演进总览 §1 · 算法线导读 · 基础设施线导读 · V1→V3 演进 · 版本梗概索引 · 《ds-技术报告》读本
DeepSeek 在 FFN / 专家路由 上的演进可概括为(与 演进总览 §1 正文内联一致):
稠密 FFN → DeepSeekMoE → aux-loss-free 路由 + $L_{\mathrm{Bal}}$ → Hash MoE + FP4
本文是 MoE 线 专题导读;Attention 侧见 算法线导读,KV/offload 见 基础设施线导读。
1. 演进链
| 阶段 | 核心机制 | 定型版本 | 本地文档 | 论文 |
|---|---|---|---|---|
| ① 稠密 FFN | 全参数 SwiGLU;无稀疏激活 | V1(2024-01) | DeepSeek-LLM V1 | 2401.02954 |
| ② DeepSeekMoE | 细粒度 routed + shared experts;softmax 路由 | V2(2024-05) | DeepSeekMoE · DeepSeek-V2 | 2405.04434 |
| ③ aux-loss-free | sigmoid affinity + 动态 bias $b_i$;无 aux loss 主均衡 | V3(2024-12)→ V3.2 | aux-loss-free MoE 路由 · DeepSeek-V3 | 2412.19437 §2.1 |
| ④ $L_{\mathrm{Bal}}$ | 序列内 $f_i P_i$ 互补兜底;极小 $\alpha$ | V3 起 | 序列均衡损失 | 同上 Eq. 17–20 |
| ⑤ Hash MoE + FP4 | 前几层 Hash-routed MoE;routed expert FP4 + QAT | V4(2026) | Hash MoE + FP4 · DeepSeek-V4 | 2606.19348 |
③ 与 ④ 互补:aux-loss-free $b_i$ 管 **batch 级**主均衡;$L_{\mathrm{Bal}}$ 防 单序列内 expert 打穿。
2. 阅读顺序
- V1 正文 — 稠密基线
- DeepSeekMoE 架构 — 细粒度 routed + shared(Figure 2 优化逻辑 · Fine-grained vs GShard)
- V2 梗概 — MLA + MoE 版本落地(236B/21B)
- V3 梗概 — 256 / 8 act 旗舰化
- aux-loss-free 路由逻辑 → $L_{\mathrm{Bal}}$ 详解
- Hash MoE + FP4 — Hash 路由与 FP4 量化
- V4 梗概 — 两个规格、Attention、训练与 infra 总览
前代三代对照:V1→V3 演进 §3.2 FFN
3. 节点间关系
| 边 | 关系 |
|---|---|
| ① → ② | V2 用 条件计算 替换稠密 FFN,稀疏激活降训练/推理 FFN 成本 |
| ② → ③ | V3 扩专家数(256/8)并改 sigmoid + bias 路由,去掉 aux loss 主路径 |
| ③ + ④ | $L_{\mathrm{Bal}}$ 不替代 aux-loss-free,仅序列内安全网 |
| ③ → ⑤ | V4 继承 DeepSeekMoE 框架;前几层改 Hash 路由,并 FP4 量化 routed expert |
4. 与 Attention / infra 线的交叉
| MoE 阶段 | 正交模块 | 文档 |
|---|---|---|
| 全阶段 | Attention / KV | 算法线 · 基础设施线 |
| V3.2+ | DSA / Index Share | 不改 MoE 路由权重形状 |
| V4 | mHC 残差 | mHC — 子层前后混合,不替代 expert 选择 |
5. 反向引用
| 节点文档 | 文首应含 |
|---|---|
| DeepSeekMoE | [← MoE 线导读](07-MoE线导读.md) |
| DeepSeek-V2 | [← MoE 线导读](07-MoE线导读.md) |
| DeepSeek-V3 | 同上 |
| aux-loss-free MoE 路由 | 同上 + 上游 DeepSeekMoE |
| 序列均衡损失 | 同上 + 主文档 aux-loss-free |
| Hash MoE + FP4 | 同上 + 上游 aux-loss-free |
| DeepSeek-V4 | 同上 + 链 Hash MoE 专文 |
维护约定见 版本演进线文档引用约定。