Raschka 全文解析:From DeepSeek V3 to V3.2

← 梗概 · ← 报告目录 第三方原文From DeepSeek V3 to V3.2: Architecture, Sparse Attention, and RL Updates(Sebastian Raschka · Ahead of AI · 2025-12-03) 本地对照:V3.1 · V3.2 · DSA 梗概 · DSA 逻辑 · RLVR


1. The DeepSeek Release Timeline

要点:V3(2024-12)起初不火爆;R1 使同架构模型成为开源旗舰。2025 年无「隔年大招」,但有 V3.1 / V3.2-Exp 等铺垫 release;V3.2-Exp 意在预热推理 infra,正式 V3.2 随后发布。V3.2 使用 非标准稀疏注意力,需自定义推理代码。

表 1-1:主要 release 时间线

时间模型 / 事件角色(Raschka 归纳)
2024-12DeepSeek V3Base:MoE + MLA
2024-12 ~ 2025-01DeepSeek R1同架构 + RLVR;带火 V3 系
2025R1-0528后训练小升级,对标 o3 / Gemini 2.5 Pro 时期
2025V3.1V3.1-TerminusHybrid;Terminus = V3.1 收尾 checkpoint
2025-09V3.2-ExpTerminus + DSA 续训;benchmark 平淡,铺生态
2025-11-27DeepSeekMath V2数学 PoC;自验证管线
2025-12-01V3.2旗舰正式版;架构同 Exp
2025-12-31mHC 论文残差 Hyper-Connection 研究(附录 §8)

原文 Figure 3:release 时间轴(主模型标红)。团队曾传训练芯片从 NVIDIA 换 Huawei,文章称 已回到 NVIDIA(基于公开信息)。


2. Hybrid Versus Dedicated Reasoning Models

要点:V3 = base;R1 = 专用推理(额外 post-training)。行业出现 Hybrid(同一 checkpoint 切换 thinking/chat)与 拆分 instruct/reasoning 两条路线。

表 2-1:推理模型形态对比

形态机制代表
Dedicated reasoning独立 checkpoint / 管线DeepSeek R1
Hybrid模板或系统提示切换模式初版 Qwen3gpt-ossV3.1 / V3.2
Hybrid → 拆分分开发布 instruct / reasoning 版Qwen 后续路线

表 2-2:DeepSeek 在「专用 vs Hybrid」上的移动

阶段方向Raschka 解读
V3 + R1Base + 专用 R1R1 验证 RLVR 与推理能力
V3.1 / V3.2Hybrid单模型覆盖 chat + reasoning;R1 像 试验床,V3.2 面向 通用旗舰
未来(推测)可能仍有 R2 专用版文章未证实

原文 Figure 4–5:R1 训练管线、2025 年 reasoning/hybrid 模型时间线。


3. From DeepSeek V3 to V3.1

3.1 DeepSeek V3 Overview and MLA

要点:V3 两大架构亮点 = MoE + MLA。MLA 将 K/V 投影到低维 latent 再写入 KV cache;推理时 up-project 使用。Q 仅在 训练 时压缩,推理 不压缩。

表 3-1:V3 核心架构组件

组件作用备注
DeepSeekMoE条件计算扩容文章略去 MoE 入门
MLAKV latent 压缩V2 引入;V3/R1 沿用;利于 KV cache
MTP推测解码相关本地 DeepSeek-V3

原文 Figure 6:MLA 降维 → cache → up-project 示意图。

3.2 DeepSeek R1 and RLVR

要点:R1 架构同 V3;差异在 RLVR(Reinforcement Learning with Verifiable Rewards):从可符号/程序验证的任务(数学、代码等)学习。GRPO = 无 critic 的 PPO 简化版;RLVR+GRPO 再省掉 reward model,直接用计算器/编译器等 可验证奖励

表 3-2:LLM 强化学习管线对比

RLHF + PPOGRPORLVR + GRPO
Reward model人类偏好训练
Critic(value model)
奖励来源RM 打分组内相对优势符号工具(计算器、编译器等)
典型用途对齐简化 RLHF推理(数学/代码可验证)

3.3 DeepSeek R1-0528

说明
定位官方称 minor version upgrade
架构同 V3/R1
提升来源后训练管线优化(细节未公开);托管版或更长推理

3.4 DeepSeek V3.1 Hybrid Reasoning

说明
能力Instruct + reasoning 合一
切换Chat prompt 模板(类初版 Qwen3)
权重链V3.1 ← V3.1-Base ← V3架构相同
TerminusV3.1 收尾版;128K;V3.2 续训基座 → 见 DeepSeek-V3.1 梗概§MLA 模式切换

4. DeepSeek V3.2-Exp and Sparse Attention

要点:V3.2-Exp 在 V3.1-Terminus续训加入 DSA。DSA = (1) lightning indexer + (2) token selector;从「看全长」变为「看学到的 top-$k$ 子集」。

表 4-1:滑动窗口注意力 vs DSA

滑动窗口(Gemma 3、Olmo 3 等)DSA
可见历史固定宽度 局部窗学习选择 的 $k$ 个位置
选择方式规则(距离)indexer 打分 + top-$k$
稀疏模式带状局部非局部、数据驱动
典型 $k$窗口宽 $w$$k=2048$(官方代码)

表 4-2:Lightning indexer 打分公式符号

公式:

$$ I_{t,s} = \sum_{j=1}^{H^I} w_{t,j},\mathrm{ReLU}!\left(q_{t,j}\cdot k_{s}\right) $$

符号含义
$t$当前 query token 位置
$s$历史 token 位置($0 \le s < t$)
$j$indexer head 索引($1 \ldots H^I$)
$q_{t,j}$位置 $t$、head $j$ 的 query 向量
$k_s$位置 $s$ 的 key(已压缩在 MLA KV cache
$w_{t,j}$可学习的 per-head 权重
top-$k$ 的 $k$与 key 的 $k$ 无关;selector 超参,= 2048

实现注

  • indexer 只对 query 多头;keys 已在 cache,无需再按 head 打分。
  • ReLU 本身难让分数为 0;真正稀疏来自 top-$k$ selector
  • 复杂度:$O(L^2) \to O(Lk)$。

原文 Figure 9–11:滑动窗 vs DSA 注意力图、DSA 流程图。 本地延伸Lightning Indexer 详解 · DSA 逻辑详解

DSA 两阶段:Lightning Indexer → Top-k → Core MLA;Indexer-Cache 与 Latent-Cache

5. DeepSeekMath V2

时间:2025-11-27(美国感恩节),V3.2 发布前 4 天。基座:V3.2-Exp-Base。角色:V3.2 的 数学能力 PoC

表 5-1:常规 RLVR 的局限

局限含义
答案对 ≠ 推理对错误逻辑也可能碰对答案
定理证明需要 逐步推导最终数值奖励不适用

5.1 Self-Verification

结构:训练 证明生成器 LLM1 + 证明验证器 LLM2;可选 meta-verifier LLM3 监督 LLM2。

表 5-2:证明验证 rubric

分数标准
1完整严谨,逻辑步骤清晰
0.5整体逻辑正确,有小错或省略
0根本性逻辑错误 or 关键缺口

表 5-3:三模型分工与训练

模型基座 / 训练推理时
LLM1 生成器用 LLM2 作 reward 训练最终 2-in-1(生成+自评)
LLM2 验证器V3.2-Exp-SFT + RL(format + 与人类标注分数对齐)训练后 不单独部署
LLM3 meta-verifierRL,评估 LLM2 的分析质量仅训练;meta 分 0.85→0.96(文引数据)

5.2 Self-Refinement

模式说明
经典 self-refinement同一 LLM 生成 → 自评 → 修订
DeepSeek 观察单模型自评易 盲目宣称正确
训练时独立 LLM2(+LLM3)提供严格反馈
推理时单一最终生成器 兼做验证(省算力)
迭代论文最多 8 轮;精度随轮次升,未饱和

原文 Figure 12–16:generator/verifier/meta-verifier、自 refine 流程、迭代精度曲线。


6. DeepSeek V3.2

要点:对标 GPT-5 / Gemini 3 Pro 级开源旗舰;架构与 V3.2-Exp 完全相同(MoE + MLA + DSA);差异在 训练与后训练。数学采用 Math V2 管线;强调 工具 / agent;训练芯片叙述为 回归 NVIDIA

6.1 Architecture

内容
架构声明V3.2-Exp 完全一致
效率动机MLA(V2/V3)+ DSA 降长上下文成本
原文 Figure 19DSA 带来的 推理成本节省(截图自 V3.2 报告)

6.2 Reinforcement Learning Updates

表 6-1:R1 vs V3.2 奖励设计

DeepSeek R1DeepSeek V3.2
Format reward❌ 移除
Language consistency
Verifier / outcome✅(数学/代码)✅ rule-based outcome(reasoning/agent)
Length penalty✅(agent 任务)
Generative RM + rubric✅(general 无符号验证任务)
Math V2 管线✅ 并入数据集与奖励

归纳:V3.2 = RLVR(可验证域)+ 生成式 RM(开放域) 混合,而非 R1 式纯 verifier RLVR。

6.3 GRPO Updates

文章先列 Olmo 3 采用的激进 GRPO 改动(DAPO / Dr. GRPO 系),再对比 V3.2 更保守 的补丁。

表 6-2:Olmo 3 的 GRPO 改动

改动来源
Zero gradient signal filteringDAPO
Active sampling(动态采样)DAPO
Token-level lossDAPO
No KL lossDAPO / Dr. GRPO
Clip higherDAPO
Truncated importance samplingYao et al.
No std normalization in advantageDr. GRPO

表 6-3:DeepSeek V3.2 的 GRPO 改动

改动说明
分域 KL 强度保留 KL;数学可 近零 KL,作超参而非全局删除
无偏 KL 估计KL 项用与主 loss 相同的 importance ratio 重加权
Off-policy sequence masking复用 rollout 时,丢弃 负 advantage 且过于 off-policy 的整条序列
MoE routing 固定rollout 记录专家路由,训练时 强制同路由
保留 top-p/k 采样 mask训练时 action space 与采样一致
保留原 GRPO advantage 归一化采用 Dr. GRPO / DAPO 的大改归一化

定位:比 Olmo 3 / DAPO 更接近原始 GRPO,靠 工程稳定性补丁 而非重写目标。

6.4 V3.2-Speciale

V3.2V3.2-Speciale
RL 数据多域仅 reasoning
Length penalty常规定减弱 → 更长输出
行为通用旗舰extended thinking;更高精度、更多 token(推理 scaling)

原文 Figure 17–18、20:benchmark、架构、Speciale 长度-精度权衡。


7. Conclusion

#Takeaway
1V3.2 架构与 V3 以来一脉相承
2主要结构变化 = V3.2-Exp 的 稀疏注意力 DSA
3数学提升 = 吸收 DeepSeekMath V2 自验证
4训练管线含 GRPO 稳定性 等多项更新
5文章 未展开:蒸馏、长上下文训练、工具集成(类 gpt-oss)等

8. Appendix: mHC

时间:2025-12-31 论文。焦点从 attention/FFN 转向 残差路径

表 8-1:Transformer 模块演进

模块演进链
NormalizationLayerNorm → RMSNorm → Dynamic TanH
AttentionGQA → sliding window(SWA)MLAsparse (DSA)
FFNGeLU → SiLU → SwiGLU → MoE
残差恒等残差(ResNet)→ Hyper-Connections (HC)mHC(流形约束、保范数)

mHC:在 HC(多路并行残差流 + 可学习混合)上,将混合矩阵约束在 结构化保范数流形,提升 训练稳定性;有少量开销。

V3.2 部署权重无直接对应;在 V4 与独立论文 mHC arXiv:2512.24880 中落地(本地 mHC 详解 · DeepSeek-V4)。


参考与本地映射

资源链接
原文https://magazine.sebastianraschka.com/p/technical-deepseek
梗概Raschka 要点速读
V3.1DeepSeek-V3.1 梗概
V3.2DeepSeek-V3.2 梗概
DSA 梗概DSA稀疏注意力
DSA 逻辑DSA逻辑详解
RLVRRLVR
演进总览版本演进总览