DeepSeek-V4 梗概
← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §3.7 · ← 算法线导读 · ← 基础设施线导读 · ← MoE 线导读 · Hash MoE + FP4 详解 · Muon 详解 · ← 版本目录 · CSA/HCA 详解 · DSpark 投机解码 · 上游 DSA · 上游 MLA · mHC 详解 · Raschka §8 mHC
定位
2026 年 preview release,面向 百万 token 上下文与 Agentic Coding(100K–1M token 代码库、多轮 tool trace)。相对 V3.2 是架构级大步进:注意力、残差、优化器、MoE 路由、量化同时翻新,不利于做单一变量 ablation。
两个规格:
| 模型 | 总参数 | 激活参数 | 定位 |
|---|---|---|---|
| V4-Pro | 1.6T | 49B | 能力上限,含 Pro-Max 推理模式 |
| V4-Flash | 284B | 13B | 效率优先 |
核心架构变化
| 组件 | 说明 |
|---|---|
| CSA / HCA | 混合压缩注意力专文:CSA 4:1 + top-$k$;HCA 128:1 + dense |
| mHC | Manifold-Constrained Hyper-Connections(§3 双随机流形):Sinkhorn–Knopp 投影,恢复 HC 恒等映射稳定性 |
| Muon | Muon 优化器专文:矩阵正交化更新,更快收敛 |
| Hash MoE / FP4 | Hash MoE + FP4 专文:前几层 Hash 路由 + routed expert FP4 + QAT |
继承自 V3:DeepSeekMoE 框架、MTP 配置。
MoE 线位置
| 方向 | 文档 |
|---|---|
| MoE 线 ⑤ Hash MoE + FP4 | Hash MoE + FP4 |
| MoE 线 hub | MoE 线导读 |
| 上游 ③④ | aux-loss-free MoE 路由 · DeepSeek-V3 |
1M context 效率
| 模型 | 单 token FLOPs | 累计 KV cache |
|---|---|---|
| V4-Pro @ 1M | 27% | 10% |
| V4-Flash @ 1M | 10% | 7% |
推理 infra 关注点
V4 的 cache 异构,不再是单一 MLA latent:
| KV 类型 | 特点 |
|---|---|
| CSA 压缩 entry | 4:1,稀疏 top-$k$ |
| HCA 压缩 entry | 128:1,dense |
| SWA | 滑动窗口,独立 eviction |
| Indexer KV | CSA lightning indexer |
| Tail buffer | 未凑满压缩块的尾 token |
KV layout→ 专文:V4 KV Layout(Classical + State 双池;演进总览 §5.3)
HiSparse → 专文:V4 HiSparse(inactive C4 offload;§5.3)
磁盘 Prefix Cache→ 专文:V4 磁盘 Prefix Cache(SWA 三档策略;§5.3)
Decode 吞吐:V4 预览引擎 → 投机解码与 DSpark 专文(含 MTP、MTP-1 基线、DSpark;与 HiSparse 正交)。
V4 的 KV-offload 与 V3.2 ESS 完全不同,需围绕异构压缩 cache 重新设计内存层级。
基础设施线位置
| 方向 | 文档 |
|---|---|
| 本节点(⑤ V4 异构 KV + HiSparse) | 基础设施线导读 §1 · KV layout · HiSparse · 磁盘 prefix |
| 上游 ②–④ | DSA 稀疏注意力 · Index Share 梗概 · ESS Latent offload |
| 算法线 ③ CSA/HCA | CSA / HCA · 算法线导读 |
| MoE 线 ⑤ Hash MoE | Hash MoE + FP4 · MoE 线导读 |
训练要点
- 32T+ tokens,渐进式上下文:4K dense → 16K → 64K 引入稀疏 → 1M
- 后训练:分域专家独立培养 + on-policy distillation 合并
算法线位置
上下游
| 方向 | 关系 |
|---|---|
| 上游 | V3.2(DSA 思想延续为 CSA 内嵌 indexer;算法线导读) |
| 并行 | Index Share 解决 V3.2 长上下文 indexer 瓶颈,与 V4 路线互补 |
参考
- 论文:arXiv:2606.19348
- 部署解读:Together.ai — Serving DeepSeek-V4
- HuggingFace:deepseek-v4 collection