DeepSeek MoE 线:稠密 FFN → DeepSeekMoE → aux-loss-free → Hash MoE

← 中文导读 · ← 仓库首页(EN) · 更新:2026-06-27 ← 演进总览 §1 · 算法线导读 · 基础设施线导读 · V1→V3 演进 · 版本梗概索引 · 《ds-技术报告》读本

DeepSeek 在 FFN / 专家路由 上的演进可概括为(与 演进总览 §1 正文内联一致):

稠密 FFN → DeepSeekMoEaux-loss-free 路由 + $L_{\mathrm{Bal}}$Hash MoE + FP4

本文是 MoE 线 专题导读;Attention 侧见 算法线导读,KV/offload 见 基础设施线导读


1. 演进链

阶段核心机制定型版本本地文档论文
① 稠密 FFN全参数 SwiGLU;无稀疏激活V1(2024-01)DeepSeek-LLM V12401.02954
② DeepSeekMoE细粒度 routed + shared experts;softmax 路由V2(2024-05)DeepSeekMoE · DeepSeek-V22405.04434
③ aux-loss-freesigmoid affinity + 动态 bias $b_i$;无 aux loss 主均衡V3(2024-12)→ V3.2aux-loss-free MoE 路由 · DeepSeek-V32412.19437 §2.1
④ $L_{\mathrm{Bal}}$序列内 $f_i P_i$ 互补兜底;极小 $\alpha$V3 起序列均衡损失同上 Eq. 17–20
⑤ Hash MoE + FP4前几层 Hash-routed MoE;routed expert FP4 + QATV4(2026)Hash MoE + FP4 · DeepSeek-V42606.19348

③ 与 ④ 互补:aux-loss-free $b_i$ 管 **batch 级**主均衡;$L_{\mathrm{Bal}}$ 防 单序列内 expert 打穿


2. 阅读顺序

  1. V1 正文 — 稠密基线
  2. DeepSeekMoE 架构 — 细粒度 routed + shared(Figure 2 优化逻辑 · Fine-grained vs GShard
  3. V2 梗概 — MLA + MoE 版本落地(236B/21B)
  4. V3 梗概 — 256 / 8 act 旗舰化
  5. aux-loss-free 路由逻辑$L_{\mathrm{Bal}}$ 详解
  6. Hash MoE + FP4 — Hash 路由与 FP4 量化
  7. V4 梗概 — 两个规格、Attention、训练与 infra 总览

前代三代对照:V1→V3 演进 §3.2 FFN


3. 节点间关系

关系
① → ②V2 用 条件计算 替换稠密 FFN,稀疏激活降训练/推理 FFN 成本
② → ③V3 扩专家数(256/8)并改 sigmoid + bias 路由,去掉 aux loss 主路径
③ + ④$L_{\mathrm{Bal}}$ 不替代 aux-loss-free,仅序列内安全网
③ → ⑤V4 继承 DeepSeekMoE 框架;前几层改 Hash 路由,并 FP4 量化 routed expert

4. 与 Attention / infra 线的交叉

MoE 阶段正交模块文档
全阶段Attention / KV算法线 · 基础设施线
V3.2+DSA / Index Share不改 MoE 路由权重形状
V4mHC 残差mHC — 子层前后混合,不替代 expert 选择

5. 反向引用

节点文档文首应含
DeepSeekMoE[← MoE 线导读](07-MoE线导读.md)
DeepSeek-V2[← MoE 线导读](07-MoE线导读.md)
DeepSeek-V3同上
aux-loss-free MoE 路由同上 + 上游 DeepSeekMoE
序列均衡损失同上 + 主文档 aux-loss-free
Hash MoE + FP4同上 + 上游 aux-loss-free
DeepSeek-V4同上 + 链 Hash MoE 专文

维护约定见 版本演进线文档引用约定