DeepSeek-V3 梗概
← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.3 · ← MoE 线导读 · ← 版本目录 · Raschka 解读
定位
2024 年 12 月发布的开源旗舰 Base 模型,奠定 DeepSeek 后续全系架构基座。671B 总参数、每 token 激活 37B,支持 128K 上下文。同年 1 月基于同一架构推出 DeepSeek-R1(RLVR 推理专精,DeepSeek-R1),架构不变、训练管线不同。
核心架构
| 组件 | 要点 |
|---|---|
| MLA | Multi-Head Latent Attention:K/V 压入 latent 再缓存;前向流程图(Eq. 37–47) |
| DeepSeekMoE | 256 routed + shared experts,每 token 激活 8 个 |
| MTP | Multi-Token Prediction 辅助训练,推理可做 speculative decoding |
| 路由 | aux-loss-free 负载均衡(动态 expert bias,无 aux loss 主均衡) |
对比 V2:纯模型结构优化
边界:本节只讲 Transformer 内部 — MoE 路由、注意力、预测头、层内数据流;不含 DualPipe / FP8 训练框架、DeepEP、vLLM 调度、KV 量化等训推系统(见文末 排除项)。
一、MoE:路由与负载均衡
图示详情 · 详解:aux-loss-free · DeepSeekMoE
二、MLA 注意力
V3 沿用 V2 的 MLA 方程与 latent KV 格式($c_t^{KV}$ 512 + 共享 $k_t^R$ 64 进 cache;前向流程图)。相对 V2 的改动主要是 671B 母版下的 hidden / 层数 / 128K 上下文配比,而非全新 attention 算子。
| 项 | V2 | V3 |
|---|---|---|
| MLA 结构 | 首次引入 latent KV | 同族,checkpoint 可续训 |
| 解耦 RoPE(content $d_h^C$ + RoPE $d_h^R$) | 有(Eq. 37–47) | 继承 |
| 128K | V2 主模型已支持 | V3 14.8T 预训练巩固 |
易混:Prefill MHA / Decode MQA Hybrid 自 V3.1-Terminus 起;Lightning Indexer + top-$k$ 稀疏 自 V3.2 DSA 起。二者均 不是 V3-Base 相对 V2 的架构差分。
三、MTP:Multi-Token Prediction
V3 相对 V2 全新 的训练目标头:主 loss + MTP 辅助头(链式预测 $t{+}2, t{+}3, \ldots$)。推理时可丢弃 MTP,也可 复用做 speculative decoding。
| V2 | V3 | |
|---|---|---|
| 预测头 | 单步 next-token | 主 loss + MTP 辅助头 |
| 预训练 | — | 辅助 CE 提升数据效率 |
| 推理 | — | 可 原生 投机解码(无需外挂第二套权重) |
投机解码全集:投机解码与 DSpark§2
补充阅读:酱紫君(GalAster)知乎:DSpark 与投机解码全篇 — 投机背景、半自回归、MTP 融合、draft 训练;知乎原文
四、Transformer 主干层内微调
- RMSNorm / 残差:随层数与 MoE 深度做实现级微调,适配 671B 稀疏 FFN 栈(细节见 2412.19437)。
- 128K 原生配比:hidden、MLA latent 秩、MoE intermediate 等张量维随旗舰规模重配;词表扩至 128K(V1 BBPE 演进)。
- MoE 层内张量布局:routed 按 expert 分组 gather/scatter 的 层内数据流 随 256/8 专家池优化(属模块前向结构,非 EP 通信库本身)。
附、FP8 动态量化
不属于上文「纯模型结构」;与 DualPipe / DeepEP 并列,支撑 671B 预训练。详解:FP8 动态量化专文
五、排除项
| 类别 | 示例 |
|---|---|
| 推理引擎 | KV 量化、FlashMLA kernel、投机解码 调度、batch 调度 |
| 训练分布式 | DualPipe、FP8 动态量化、DeepEP、集群拓扑 |
| 纯工程 | 显存框架、硬件协同 |
六、浓缩:V3 相对 V2 的三条结构线
- MoE 路由:aux-loss-free(bias 均衡 + sigmoid)+ 256/8 细粒度稀疏,激活占比 5.5% vs V2 8.9%。
- MTP:多 token 并行预测头,预训练提效 + 推理可投机解码。
- MLA:结构继承 V2;V3 价值在 671B / 128K / 14.8T 旗舰化落地(Hybrid、DSA 在后续版本)。
V2 ↔ V3 结构对照
| 维度 | DeepSeek-V2 | DeepSeek-V3 |
|---|---|---|
| 总参 / 激活 | 236B / 21B | 671B / 37B |
| Routed / token | 160 / 6 | 256 / 8 |
| Shared / 层 | 2 | 1 |
| 路由 | softmax + aux loss | sigmoid + bias(aux-loss-free) |
| MLA | 首次引入 | 同族 |
| MTP | 无 | 有 |
| 预训练 | 8.1T | 14.8T |
MoE 线位置
| 方向 | 文档 |
|---|---|
| 本节点(③ 256/8) | DeepSeekMoE 架构 · MoE 线导读 §1 |
| 上游 ② DeepSeekMoE | DeepSeekMoE(V2 首发) |
| 同节点 ③④ | aux-loss-free MoE 路由 · 序列均衡损失 |
训练约 14.8T tokens;后训练含 SFT + RL。
推理 infra 关注点
- KV cache 为 MLA latent 格式,与标准 GQA/MHA 不兼容
- vLLM 等需
--trust-remote-code、--block-size 1 - 长上下文瓶颈:Latent-Cache 线性增长占满 HBM,限制 decode batch size
- 通用 KV CPU offload 常因 MLA 自定义格式而不可用
上下游
| 方向 | 关系 |
|---|---|
| 上游 | DeepSeek-V2(MLA 首次引入)· V1→V3 演进 |
| 下游 | R1(RLVR)、V3.1(post-training)、V3.2(在 V3.1-T 上续训 + DSA) |
参考
- 论文:arXiv:2412.19437
- MoE 路由:aux-loss-free 负载均衡
- 仓库:deepseek-ai/DeepSeek-V3
- R1 训练:DeepSeek-R1 训练管线