DeepSeek-V3.2 梗概

← 中文导读 · ← 仓库首页（EN） · ← 演进总览 §3.6 · ← 版本目录 · DSA 梗概 · Raschka §4 DSA

定位

2025 年 12 月正式版；2025 年 9 月先有 DeepSeek-V3.2-Exp（DeepSeek 官方实验 release）。相对 V3.1-Terminus，唯一架构改动是引入 DeepSeek Sparse Attention (DSA)——DeepSeek 原创稀疏注意力，在长上下文场景显著降算量，公开 benchmark 与 V3.1-Terminus 基本持平。

V3.2-Exp 与 V3.2 架构相同；Exp 用于验证稀疏注意力不损精度，V3.2 为完整续训 + 后训练成品。

DSA 机制

DSA 详解 · 完整逻辑 · 系列目录

两阶段稀疏注意力：

Lightning Indexer：廉价点积为历史 token 打分（仍 $O(L^2)$，但 head 维极低）
Top-$k$ Selector：选出 $k=2048$ 个最重要 latent entry
Core Attention：仅对 top-$k$ 做 MLA attention（$O(Lk)$）

概念：Lightning Indexer · Top-$k$ Selector · Core MLA · Indexer-Cache · Latent-Cache · ESS

异构 Cache

异构 KV 表 · DSA逻辑详解 §4

Cache 类型	作用	占比（ESS 论文）	Offload
Indexer-Cache	算重要性、选 top-$k$	~16.8%	否（每步全算）
Latent-Cache	核心 MLA attention KV	~83.2%	可 ESS offload

推理 infra 关注点

DeepGEMM：indexer logit kernel（含 paged 版）
FlashMLA：sparse attention paged kernel
Index Share（IndexCache）与 ESS offload 均叠加在 V3.2 上
vLLM day-0 support；需自定义 sparse attention 代码路径

规格

项	值
参数量	671B（同 V3.1-T）
激活参数	37B
上下文	128K
发布时间	Exp 2025-09，正式版 2025-12

上下游

方向	关系
上游	V3.1-Terminus（128K，续训起点）
下游	Index Share、ESS；算法线继续演进为 CSA/HCA

参考

外部解读：Raschka V3→V3.2 梗概 · §4 DSA / §6 GRPO 全文表
论文：arXiv:2512.02556
Exp：deepseek-ai/DeepSeek-V3.2
ESS offload：ESS Latent offload · arXiv:2512.10576
Index Share：Index Share 梗概

DeepSeek 技术报告