DeepSeek-V3 梗概

← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.3 · ← MoE 线导读 · ← 版本目录 · Raschka 解读


定位

2024 年 12 月发布的开源旗舰 Base 模型,奠定 DeepSeek 后续全系架构基座。671B 总参数、每 token 激活 37B,支持 128K 上下文。同年 1 月基于同一架构推出 DeepSeek-R1RLVR 推理专精,DeepSeek-R1),架构不变、训练管线不同。

核心架构

组件要点
MLAMulti-Head Latent Attention:K/V 压入 latent 再缓存;前向流程图(Eq. 37–47)
DeepSeekMoE256 routed + shared experts,每 token 激活 8 个
MTPMulti-Token Prediction 辅助训练,推理可做 speculative decoding
路由aux-loss-free 负载均衡(动态 expert bias,无 aux loss 主均衡)

对比 V2:纯模型结构优化

边界:本节只讲 Transformer 内部 — MoE 路由、注意力、预测头、层内数据流;不含 DualPipe / FP8 训练框架、DeepEP、vLLM 调度、KV 量化等训推系统(见文末 排除项)。

一、MoE:路由与负载均衡

DeepSeek-V3 vs V2 MoE 结构创新:aux-loss-free 路由、256/8 专家池、Shared+Routed 融合

图示详情 · 详解:aux-loss-free · DeepSeekMoE

二、MLA 注意力

V3 沿用 V2 的 MLA 方程与 latent KV 格式($c_t^{KV}$ 512 + 共享 $k_t^R$ 64 进 cache;前向流程图)。相对 V2 的改动主要是 671B 母版下的 hidden / 层数 / 128K 上下文配比,而非全新 attention 算子。

V2V3
MLA 结构首次引入 latent KV同族,checkpoint 可续训
解耦 RoPE(content $d_h^C$ + RoPE $d_h^R$)有(Eq. 37–47)继承
128KV2 主模型已支持V3 14.8T 预训练巩固

易混Prefill MHA / Decode MQA HybridV3.1-Terminus 起;Lightning Indexer + top-$k$ 稀疏V3.2 DSA 起。二者均 不是 V3-Base 相对 V2 的架构差分。

三、MTP:Multi-Token Prediction

V3 相对 V2 全新 的训练目标头:主 loss + MTP 辅助头(链式预测 $t{+}2, t{+}3, \ldots$)。推理时可丢弃 MTP,也可 复用做 speculative decoding

V2V3
预测头单步 next-token主 loss + MTP 辅助头
预训练辅助 CE 提升数据效率
推理原生 投机解码(无需外挂第二套权重)

投机解码全集投机解码与 DSpark§2

补充阅读酱紫君(GalAster)知乎:DSpark 与投机解码全篇 — 投机背景、半自回归、MTP 融合、draft 训练;知乎原文

四、Transformer 主干层内微调

  • RMSNorm / 残差:随层数与 MoE 深度做实现级微调,适配 671B 稀疏 FFN 栈(细节见 2412.19437)。
  • 128K 原生配比:hidden、MLA latent 秩、MoE intermediate 等张量维随旗舰规模重配;词表扩至 128K(V1 BBPE 演进)。
  • MoE 层内张量布局:routed 按 expert 分组 gather/scatter 的 层内数据流 随 256/8 专家池优化(属模块前向结构,非 EP 通信库本身)。

附、FP8 动态量化

不属于上文「纯模型结构」;与 DualPipe / DeepEP 并列,支撑 671B 预训练。详解:FP8 动态量化专文

DeepSeek-V3 FP8 动态量化:细粒度块 scale 与 FP32 累加提升

图示详情 · FP8 专文

五、排除项

类别示例
推理引擎KV 量化、FlashMLA kernel、投机解码 调度、batch 调度
训练分布式DualPipe、FP8 动态量化、DeepEP、集群拓扑
纯工程显存框架、硬件协同

六、浓缩:V3 相对 V2 的三条结构线

  1. MoE 路由:aux-loss-free(bias 均衡 + sigmoid)+ 256/8 细粒度稀疏,激活占比 5.5% vs V2 8.9%
  2. MTP:多 token 并行预测头,预训练提效 + 推理可投机解码。
  3. MLA结构继承 V2;V3 价值在 671B / 128K / 14.8T 旗舰化落地(Hybrid、DSA 在后续版本)。

V2 ↔ V3 结构对照

维度DeepSeek-V2DeepSeek-V3
总参 / 激活236B / 21B671B / 37B
Routed / token160 / 6256 / 8
Shared / 层21
路由softmax + aux losssigmoid + biasaux-loss-free
MLA首次引入同族
MTP
预训练8.1T14.8T

MoE 线位置

方向文档
本节点(③ 256/8)DeepSeekMoE 架构 · MoE 线导读 §1
上游 ② DeepSeekMoEDeepSeekMoE(V2 首发)
同节点 ③④aux-loss-free MoE 路由 · 序列均衡损失

训练约 14.8T tokens;后训练含 SFT + RL。

推理 infra 关注点

  • KV cache 为 MLA latent 格式,与标准 GQA/MHA 不兼容
  • vLLM 等需 --trust-remote-code--block-size 1
  • 长上下文瓶颈:Latent-Cache 线性增长占满 HBM,限制 decode batch size
  • 通用 KV CPU offload 常因 MLA 自定义格式而不可用

上下游

方向关系
上游DeepSeek-V2(MLA 首次引入)· V1→V3 演进
下游R1RLVR)、V3.1(post-training)、V3.2(在 V3.1-T 上续训 + DSA)

参考