DeepSeek-V3.2 梗概

← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.6 · ← 版本目录 · DSA 梗概 · Raschka §4 DSA


定位

2025 年 12 月正式版;2025 年 9 月先有 DeepSeek-V3.2-Exp(DeepSeek 官方实验 release)。相对 V3.1-Terminus,唯一架构改动是引入 DeepSeek Sparse Attention (DSA)——DeepSeek 原创稀疏注意力,在长上下文场景显著降算量,公开 benchmark 与 V3.1-Terminus 基本持平。

V3.2-Exp 与 V3.2 架构相同;Exp 用于验证稀疏注意力不损精度,V3.2 为完整续训 + 后训练成品。

DSA 机制

DSA 详解 · 完整逻辑 · 系列目录

两阶段稀疏注意力:

  1. Lightning Indexer:廉价点积为历史 token 打分(仍 $O(L^2)$,但 head 维极低)
  2. Top-$k$ Selector:选出 $k=2048$ 个最重要 latent entry
  3. Core Attention:仅对 top-$k$ 做 MLA attention($O(Lk)$)

概念Lightning Indexer · Top-$k$ Selector · Core MLA · Indexer-Cache · Latent-Cache · ESS

异构 Cache

异构 KV 表 · DSA逻辑详解 §4

Cache 类型作用占比(ESS 论文Offload
Indexer-Cache算重要性、选 top-$k$~16.8%否(每步全算)
Latent-Cache核心 MLA attention KV~83.2%ESS offload

推理 infra 关注点

  • DeepGEMM:indexer logit kernel(含 paged 版)
  • FlashMLA:sparse attention paged kernel
  • Index Share(IndexCache)与 ESS offload 均叠加在 V3.2 上
  • vLLM day-0 support;需自定义 sparse attention 代码路径

规格

参数量671B(同 V3.1-T)
激活参数37B
上下文128K
发布时间Exp 2025-09,正式版 2025-12

上下游

方向关系
上游V3.1-Terminus(128K,续训起点)
下游Index Share、ESS;算法线继续演进为 CSA/HCA

参考