DeepSeek-V4 梗概

← 中文导读 · ← 仓库首页（EN） · ← 演进总览 §3.7 · ← 算法线导读 · ← 基础设施线导读 · ← MoE 线导读 · Hash MoE + FP4 详解 · Muon 详解 · ← 版本目录 · CSA/HCA 详解 · DSpark 投机解码 · 上游 DSA · 上游 MLA · mHC 详解 · Raschka §8 mHC

定位

2026 年 preview release，面向 百万 token 上下文与 Agentic Coding（100K–1M token 代码库、多轮 tool trace）。相对 V3.2 是架构级大步进：注意力、残差、优化器、MoE 路由、量化同时翻新，不利于做单一变量 ablation。

两个规格：

模型	总参数	激活参数	定位
V4-Pro	1.6T	49B	能力上限，含 Pro-Max 推理模式
V4-Flash	284B	13B	效率优先

核心架构变化

组件	说明
CSA / HCA	混合压缩注意力专文：CSA 4:1 + top-$k$；HCA 128:1 + dense
mHC	Manifold-Constrained Hyper-Connections（§3 双随机流形）：Sinkhorn–Knopp 投影，恢复 HC 恒等映射稳定性
Muon	Muon 优化器专文：矩阵正交化更新，更快收敛
Hash MoE / FP4	Hash MoE + FP4 专文：前几层 Hash 路由 + routed expert FP4 + QAT

继承自 V3：DeepSeekMoE 框架、MTP 配置。

DeepSeek-V4 异构 KV：CSA 4:1、HCA 128:1、SWA、Indexer、Tail buffer 与 HiSparse offload

图示详情 · 演进总览 §3.7

MoE 线位置

方向	文档
MoE 线 ⑤ Hash MoE + FP4	Hash MoE + FP4
MoE 线 hub	MoE 线导读
上游 ③④	aux-loss-free MoE 路由 · DeepSeek-V3

1M context 效率

模型	单 token FLOPs	累计 KV cache
V4-Pro @ 1M	27%	10%
V4-Flash @ 1M	10%	7%

推理 infra 关注点

V4 的 cache 异构，不再是单一 MLA latent：

KV 类型	特点
CSA 压缩 entry	4:1，稀疏 top-$k$
HCA 压缩 entry	128:1，dense
SWA	滑动窗口，独立 eviction
Indexer KV	CSA lightning indexer
Tail buffer	未凑满压缩块的尾 token

KV layout→ 专文：V4 KV Layout（Classical + State 双池；演进总览 §5.3）

HiSparse → 专文：V4 HiSparse（inactive C4 offload；§5.3）

磁盘 Prefix Cache→ 专文：V4 磁盘 Prefix Cache（SWA 三档策略；§5.3）

Decode 吞吐：V4 预览引擎 → 投机解码与 DSpark 专文（含 MTP、MTP-1 基线、DSpark；与 HiSparse 正交）。

V4 的 KV-offload 与 V3.2 ESS 完全不同，需围绕异构压缩 cache 重新设计内存层级。

基础设施线位置

方向	文档
本节点（⑤ V4 异构 KV + HiSparse）	基础设施线导读 §1 · KV layout · HiSparse · 磁盘 prefix
上游 ②–④	DSA 稀疏注意力 · Index Share 梗概 · ESS Latent offload
算法线 ③ CSA/HCA	CSA / HCA · 算法线导读
MoE 线 ⑤ Hash MoE	Hash MoE + FP4 · MoE 线导读

训练要点

32T+ tokens，渐进式上下文：4K dense → 16K → 64K 引入稀疏 → 1M
后训练：分域专家独立培养 + on-policy distillation 合并

算法线位置

方向	文档
算法线 ③ CSA/HCA	CSA / HCA · 算法线导读 §1
上游 ② DSA	DSA 稀疏注意力
并列 ④ mHC	mHC（残差路径，与 Attention 正交）

上下游

方向	关系
上游	V3.2（DSA 思想延续为 CSA 内嵌 indexer；算法线导读）
并行	Index Share 解决 V3.2 长上下文 indexer 瓶颈，与 V4 路线互补

DeepSeek 技术报告