DeepSeek-V3.1 梗概

← 中文导读 · ← 仓库首页（EN） · ← 演进总览 §3.5 · ← 版本目录 · Raschka §3.4 Hybrid

定位

2025 年中期在 V3 权重基础上做 post-training，无架构变更。主要贡献是 Hybrid 推理模式：同一套权重可在 thinking（推理链）与 chat（直接回答）之间切换，不再像 V3/R1 那样 Base 与推理模型分离。

V3.1-Terminus 是 V3.1 系列收尾 checkpoint，上下文扩至 128K，并作为 V3.2 继续预训练 的起点。

为后续 DSA 铺路，Prefill 与 Decode 采用不同 MLA 模式：

两阶段 仍是 MLA（低秩 latent 进 cache）；差别在 latent 按 head 展开还是全体共享。与常见注意力族的对应（以 8 个 Q head 为例）：

阶段	MLA 内的展开	瓶颈	取舍
Prefill	per-head latent（MHA 式）	算力	并行吃 prompt，表达力优先
Decode	shared latent（MQA 式）	KV 带宽	每步读全长 cache，体积优先

延伸：DSA 逻辑 · 演进总览 §V3.1

方向	关系
上游	DeepSeek-V3
下游	V3.2-Exp / V3.2（在 Terminus 上引入 DSA）