DeepSeek-V3 梗概

← 中文导读 · ← 仓库首页（EN） · ← 演进总览 §3.3 · ← MoE 线导读 · ← 版本目录 · Raschka 解读

定位

2024 年 12 月发布的开源旗舰 Base 模型，奠定 DeepSeek 后续全系架构基座。671B 总参数、每 token 激活 37B，支持 128K 上下文。同年 1 月基于同一架构推出 DeepSeek-R1（RLVR 推理专精，DeepSeek-R1），架构不变、训练管线不同。

核心架构

组件	要点
MLA	Multi-Head Latent Attention：K/V 压入 latent 再缓存；前向流程图（Eq. 37–47）
DeepSeekMoE	256 routed + shared experts，每 token 激活 8 个
MTP	Multi-Token Prediction 辅助训练，推理可做 speculative decoding
路由	aux-loss-free 负载均衡（动态 expert bias，无 aux loss 主均衡）

对比 V2：纯模型结构优化

边界：本节只讲 Transformer 内部 — MoE 路由、注意力、预测头、层内数据流；不含 DualPipe / FP8 训练框架、DeepEP、vLLM 调度、KV 量化等训推系统（见文末排除项）。

一、MoE：路由与负载均衡

DeepSeek-V3 vs V2 MoE 结构创新：aux-loss-free 路由、256/8 专家池、Shared+Routed 融合

图示详情 · 详解：aux-loss-free · DeepSeekMoE

二、MLA 注意力

V3 沿用 V2 的 MLA 方程与 latent KV 格式（$c_t^{KV}$ 512 + 共享 $k_t^R$ 64 进 cache；前向流程图）。相对 V2 的改动主要是 671B 母版下的 hidden / 层数 / 128K 上下文配比，而非全新 attention 算子。

项	V2	V3
MLA 结构	首次引入 latent KV	同族，checkpoint 可续训
解耦 RoPE（content $d_h^C$ + RoPE $d_h^R$）	有（Eq. 37–47）	继承
128K	V2 主模型已支持	V3 14.8T 预训练巩固

易混：Prefill MHA / Decode MQA Hybrid 自 V3.1-Terminus 起；Lightning Indexer + top-$k$ 稀疏 自 V3.2 DSA 起。二者均不是 V3-Base 相对 V2 的架构差分。

三、MTP：Multi-Token Prediction

V3 相对 V2 全新的训练目标头：主 loss + MTP 辅助头（链式预测 $t{+}2, t{+}3, \ldots$）。推理时可丢弃 MTP，也可 复用做 speculative decoding。

	V2	V3
预测头	单步 next-token	主 loss + MTP 辅助头
预训练	—	辅助 CE 提升数据效率
推理	—	可原生投机解码（无需外挂第二套权重）

投机解码全集：投机解码与 DSpark§2

补充阅读：酱紫君（GalAster）知乎：DSpark 与投机解码全篇 — 投机背景、半自回归、MTP 融合、draft 训练；知乎原文

四、Transformer 主干层内微调

RMSNorm / 残差：随层数与 MoE 深度做实现级微调，适配 671B 稀疏 FFN 栈（细节见 2412.19437）。
128K 原生配比：hidden、MLA latent 秩、MoE intermediate 等张量维随旗舰规模重配；词表扩至 128K（V1 BBPE 演进）。
MoE 层内张量布局：routed 按 expert 分组 gather/scatter 的 层内数据流 随 256/8 专家池优化（属模块前向结构，非 EP 通信库本身）。

附、FP8 动态量化

不属于上文「纯模型结构」；与 DualPipe / DeepEP 并列，支撑 671B 预训练。详解：FP8 动态量化专文

DeepSeek-V3 FP8 动态量化：细粒度块 scale 与 FP32 累加提升

图示详情 · FP8 专文

五、排除项

类别	示例
推理引擎	KV 量化、FlashMLA kernel、投机解码调度、batch 调度
训练分布式	DualPipe、FP8 动态量化、DeepEP、集群拓扑
纯工程	显存框架、硬件协同

六、浓缩：V3 相对 V2 的三条结构线

MoE 路由：aux-loss-free（bias 均衡 + sigmoid）+ 256/8 细粒度稀疏，激活占比 5.5% vs V2 8.9%。
MTP：多 token 并行预测头，预训练提效 + 推理可投机解码。
MLA：结构继承 V2；V3 价值在 671B / 128K / 14.8T 旗舰化落地（Hybrid、DSA 在后续版本）。

V2 ↔ V3 结构对照

维度	DeepSeek-V2	DeepSeek-V3
总参 / 激活	236B / 21B	671B / 37B
Routed / token	160 / 6	256 / 8
Shared / 层	2	1
路由	softmax + aux loss	sigmoid + bias（aux-loss-free）
MLA	首次引入	同族
MTP	无	有
预训练	8.1T	14.8T

MoE 线位置

方向	文档
本节点（③ 256/8）	DeepSeekMoE 架构 · MoE 线导读 §1
上游 ② DeepSeekMoE	DeepSeekMoE（V2 首发）
同节点 ③④	aux-loss-free MoE 路由 · 序列均衡损失

训练约 14.8T tokens；后训练含 SFT + RL。

推理 infra 关注点

KV cache 为 MLA latent 格式，与标准 GQA/MHA 不兼容
vLLM 等需 --trust-remote-code、--block-size 1
长上下文瓶颈：Latent-Cache 线性增长占满 HBM，限制 decode batch size
通用 KV CPU offload 常因 MLA 自定义格式而不可用

上下游

方向	关系
上游	DeepSeek-V2（MLA 首次引入）· V1→V3 演进
下游	R1（RLVR）、V3.1（post-training）、V3.2（在 V3.1-T 上续训 + DSA）

DeepSeek 技术报告