DeepSeek-V3.1 梗概
← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.5 · ← 版本目录 · Raschka §3.4 Hybrid
定位
2025 年中期在 V3 权重基础上做 post-training,无架构变更。主要贡献是 Hybrid 推理模式:同一套权重可在 thinking(推理链)与 chat(直接回答)之间切换,不再像 V3/R1 那样 Base 与推理模型分离。
V3.1-Terminus 是 V3.1 系列收尾 checkpoint,上下文扩至 128K,并作为 V3.2 继续预训练 的起点。
相对 V3 的变化
| 维度 | V3 | V3.1 |
|---|---|---|
| 推理模式 | Base / R1 分离 | Hybrid 单模型双模式 |
| 上下文 | 128K | 128K(续训巩固) |
| Agent / Tool Use | 较弱 | BrowseComp、SWE 等明显加强 |
| 架构 | MoE + MLA + MTP | 完全相同 |
MLA 模式切换
为后续 DSA 铺路,Prefill 与 Decode 采用不同 MLA 模式:
- Prefill:MHA 模式(各 query head 独立 latent)
- Decode:MQA 模式(latent 在 query head 间共享)
两阶段 仍是 MLA(低秩 latent 进 cache);差别在 latent 按 head 展开还是全体共享。与常见注意力族的对应(以 8 个 Q head 为例):
| 族 | Q head 到 KV/latent | V3.1 对应 |
|---|---|---|
| MHA | 8 到 8 | Prefill 近似这一档 |
| GQA | 8 到 2(分组) | 不是 Decode 这一档 |
| MQA | 8 到 1 | Decode 近似这一档 |
| 阶段 | MLA 内的展开 | 瓶颈 | 取舍 |
|---|---|---|---|
| Prefill | per-head latent(MHA 式) | 算力 | 并行吃 prompt,表达力优先 |
| Decode | shared latent(MQA 式) | KV 带宽 | 每步读全长 cache,体积优先 |
延伸:DSA 逻辑 · 演进总览 §V3.1
推理 infra 关注点
- 与 V3 相同:同质 MLA Latent-Cache
- 新增 Prefill MHA / Decode MQA 切换逻辑,引擎需正确实现两阶段模式
- KV offload 困境与 V3 相同:格式非标准,长上下文仍受 HBM 限制
上下游
| 方向 | 关系 |
|---|---|
| 上游 | DeepSeek-V3 |
| 下游 | V3.2-Exp / V3.2(在 Terminus 上引入 DSA) |
参考
- 外部解读:Raschka V3→V3.2 梗概 · 全文解析 · 原文
- 仓库:deepseek-ai/DeepSeek-V3(V3.1 权重见 HuggingFace 发布页)