DeepSeek MoE 线：稠密 FFN → DeepSeekMoE → aux-loss-free → Hash MoE

← 中文导读 · ← 仓库首页（EN） · 更新：2026-06-27 ← 演进总览 §1 · 算法线导读 · 基础设施线导读 · V1→V3 演进 · 版本梗概索引 · 《ds-技术报告》读本

DeepSeek 在 FFN / 专家路由 上的演进可概括为（与演进总览 §1 正文内联一致）：

本文是 MoE 线 专题导读；Attention 侧见算法线导读，KV/offload 见基础设施线导读。

1. 演进链

阶段	核心机制	定型版本	本地文档	论文
① 稠密 FFN	全参数 SwiGLU；无稀疏激活	V1（2024-01）	DeepSeek-LLM V1	2401.02954
② DeepSeekMoE	细粒度 routed + shared experts；softmax 路由	V2（2024-05）	DeepSeekMoE · DeepSeek-V2	2405.04434
③ aux-loss-free	sigmoid affinity + 动态 bias $b_i$；无 aux loss 主均衡	V3（2024-12）→ V3.2	aux-loss-free MoE 路由 · DeepSeek-V3	2412.19437 §2.1
④ $L_{\mathrm{Bal}}$	序列内 $f_i P_i$ 互补兜底；极小 $\alpha$	V3 起	序列均衡损失	同上 Eq. 17–20
⑤ Hash MoE + FP4	前几层 Hash-routed MoE；routed expert FP4 + QAT	V4（2026）	Hash MoE + FP4 · DeepSeek-V4	2606.19348

③ 与 ④ 互补：aux-loss-free $b_i$ 管 **batch 级**主均衡；$L_{\mathrm{Bal}}$ 防 单序列内 expert 打穿。

边	关系
① → ②	V2 用条件计算替换稠密 FFN，稀疏激活降训练/推理 FFN 成本
② → ③	V3 扩专家数（256/8）并改 sigmoid + bias 路由，去掉 aux loss 主路径
③ + ④	$L_{\mathrm{Bal}}$ 不替代 aux-loss-free，仅序列内安全网
③ → ⑤	V4 继承 DeepSeekMoE 框架；前几层改 Hash 路由，并 FP4 量化 routed expert