DeepSeek-V4 梗概

← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.7 · ← 算法线导读 · ← 基础设施线导读 · ← MoE 线导读 · Hash MoE + FP4 详解 · Muon 详解 · ← 版本目录 · CSA/HCA 详解 · DSpark 投机解码 · 上游 DSA · 上游 MLA · mHC 详解 · Raschka §8 mHC


定位

2026 年 preview release,面向 百万 token 上下文Agentic Coding(100K–1M token 代码库、多轮 tool trace)。相对 V3.2 是架构级大步进:注意力、残差、优化器、MoE 路由、量化同时翻新,不利于做单一变量 ablation。

两个规格:

模型总参数激活参数定位
V4-Pro1.6T49B能力上限,含 Pro-Max 推理模式
V4-Flash284B13B效率优先

核心架构变化

组件说明
CSA / HCA混合压缩注意力专文:CSA 4:1 + top-$k$;HCA 128:1 + dense
mHCManifold-Constrained Hyper-Connections§3 双随机流形):Sinkhorn–Knopp 投影,恢复 HC 恒等映射稳定性
MuonMuon 优化器专文:矩阵正交化更新,更快收敛
Hash MoE / FP4Hash MoE + FP4 专文:前几层 Hash 路由 + routed expert FP4 + QAT

继承自 V3:DeepSeekMoE 框架、MTP 配置。

DeepSeek-V4 异构 KV:CSA 4:1、HCA 128:1、SWA、Indexer、Tail buffer 与 HiSparse offload

图示详情 · 演进总览 §3.7

MoE 线位置

方向文档
MoE 线 ⑤ Hash MoE + FP4Hash MoE + FP4
MoE 线 hubMoE 线导读
上游 ③④aux-loss-free MoE 路由 · DeepSeek-V3

1M context 效率

模型单 token FLOPs累计 KV cache
V4-Pro @ 1M27%10%
V4-Flash @ 1M10%7%

推理 infra 关注点

V4 的 cache 异构,不再是单一 MLA latent:

KV 类型特点
CSA 压缩 entry4:1,稀疏 top-$k$
HCA 压缩 entry128:1,dense
SWA滑动窗口,独立 eviction
Indexer KVCSA lightning indexer
Tail buffer未凑满压缩块的尾 token

KV layout专文:V4 KV Layout(Classical + State 双池;演进总览 §5.3

HiSparse专文:V4 HiSparse(inactive C4 offload;§5.3

磁盘 Prefix Cache专文:V4 磁盘 Prefix Cache(SWA 三档策略;§5.3

Decode 吞吐:V4 预览引擎 → 投机解码与 DSpark 专文(含 MTP、MTP-1 基线、DSpark;与 HiSparse 正交)。

V4 的 KV-offload 与 V3.2 ESS 完全不同,需围绕异构压缩 cache 重新设计内存层级。


基础设施线位置

方向文档
本节点(⑤ V4 异构 KV + HiSparse)基础设施线导读 §1 · KV layout · HiSparse · 磁盘 prefix
上游 ②–④DSA 稀疏注意力 · Index Share 梗概 · ESS Latent offload
算法线 ③ CSA/HCACSA / HCA · 算法线导读
MoE 线 ⑤ Hash MoEHash MoE + FP4 · MoE 线导读

训练要点

  • 32T+ tokens,渐进式上下文:4K dense → 16K → 64K 引入稀疏 → 1M
  • 后训练:分域专家独立培养 + on-policy distillation 合并

算法线位置

方向文档
算法线 ③ CSA/HCACSA / HCA · 算法线导读 §1
上游 ② DSADSA 稀疏注意力
并列 ④ mHCmHC(残差路径,与 Attention 正交)

上下游

方向关系
上游V3.2(DSA 思想延续为 CSA 内嵌 indexer;算法线导读
并行Index Share 解决 V3.2 长上下文 indexer 瓶颈,与 V4 路线互补

参考