DeepSeek-V3.2 梗概
← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.6 · ← 版本目录 · DSA 梗概 · Raschka §4 DSA
定位
2025 年 12 月正式版;2025 年 9 月先有 DeepSeek-V3.2-Exp(DeepSeek 官方实验 release)。相对 V3.1-Terminus,唯一架构改动是引入 DeepSeek Sparse Attention (DSA)——DeepSeek 原创稀疏注意力,在长上下文场景显著降算量,公开 benchmark 与 V3.1-Terminus 基本持平。
V3.2-Exp 与 V3.2 架构相同;Exp 用于验证稀疏注意力不损精度,V3.2 为完整续训 + 后训练成品。
DSA 机制
两阶段稀疏注意力:
- Lightning Indexer:廉价点积为历史 token 打分(仍 $O(L^2)$,但 head 维极低)
- Top-$k$ Selector:选出 $k=2048$ 个最重要 latent entry
- Core Attention:仅对 top-$k$ 做 MLA attention($O(Lk)$)
概念:Lightning Indexer · Top-$k$ Selector · Core MLA · Indexer-Cache · Latent-Cache · ESS
异构 Cache
| Cache 类型 | 作用 | 占比(ESS 论文) | Offload |
|---|---|---|---|
| Indexer-Cache | 算重要性、选 top-$k$ | ~16.8% | 否(每步全算) |
| Latent-Cache | 核心 MLA attention KV | ~83.2% | 可 ESS offload |
推理 infra 关注点
- DeepGEMM:indexer logit kernel(含 paged 版)
- FlashMLA:sparse attention paged kernel
- Index Share(IndexCache)与 ESS offload 均叠加在 V3.2 上
- vLLM day-0 support;需自定义 sparse attention 代码路径
规格
| 项 | 值 |
|---|---|
| 参数量 | 671B(同 V3.1-T) |
| 激活参数 | 37B |
| 上下文 | 128K |
| 发布时间 | Exp 2025-09,正式版 2025-12 |
上下游
参考
- 外部解读:Raschka V3→V3.2 梗概 · §4 DSA / §6 GRPO 全文表
- 论文:arXiv:2512.02556
- Exp:deepseek-ai/DeepSeek-V3.2
- ESS offload:ESS Latent offload · arXiv:2512.10576
- Index Share:Index Share 梗概