DeepSeek-V3.1 梗概

← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.5 · ← 版本目录 · Raschka §3.4 Hybrid


定位

2025 年中期在 V3 权重基础上做 post-training无架构变更。主要贡献是 Hybrid 推理模式:同一套权重可在 thinking(推理链)与 chat(直接回答)之间切换,不再像 V3/R1 那样 Base 与推理模型分离。

V3.1-Terminus 是 V3.1 系列收尾 checkpoint,上下文扩至 128K,并作为 V3.2 继续预训练 的起点。

相对 V3 的变化

维度V3V3.1
推理模式Base / R1 分离Hybrid 单模型双模式
上下文128K128K(续训巩固)
Agent / Tool Use较弱BrowseComp、SWE 等明显加强
架构MoE + MLA + MTP完全相同

MLA 模式切换

为后续 DSA 铺路,Prefill 与 Decode 采用不同 MLA 模式:

V3.1-Terminus MLA 模式切换:Prefill MHA 式 per-head latent,Decode MQA 式 shared latent

图示详情 · 演进总览 §3.5

  • Prefill:MHA 模式(各 query head 独立 latent)
  • Decode:MQA 模式(latent 在 query head 间共享)

两阶段 仍是 MLA(低秩 latent 进 cache);差别在 latent 按 head 展开还是全体共享。与常见注意力族的对应(以 8 个 Q head 为例):

Q head 到 KV/latentV3.1 对应
MHA8 到 8Prefill 近似这一档
GQA8 到 2(分组)不是 Decode 这一档
MQA8 到 1Decode 近似这一档
阶段MLA 内的展开瓶颈取舍
Prefillper-head latent(MHA 式)算力并行吃 prompt,表达力优先
Decodeshared latent(MQA 式)KV 带宽每步读全长 cache,体积优先

延伸DSA 逻辑 · 演进总览 §V3.1


推理 infra 关注点

  • 与 V3 相同:同质 MLA Latent-Cache
  • 新增 Prefill MHA / Decode MQA 切换逻辑,引擎需正确实现两阶段模式
  • KV offload 困境与 V3 相同:格式非标准,长上下文仍受 HBM 限制

上下游

方向关系
上游DeepSeek-V3
下游V3.2-Exp / V3.2(在 Terminus 上引入 DSA)

参考