DeepSeek 算法线:MLA → DSA → CSA/HCA + mHC
← 中文导读 · ← 仓库首页(EN) · 更新:2026-06-27 ← 演进总览 §1 · 基础设施线导读 · MoE 线导读 · 版本梗概索引 · 《ds-技术报告》读本
V3 发布之后,DeepSeek 在 注意力与残差路径 上的算法演进可概括为(与 演进总览 §1 正文内联一致):
MLA → DSA 稀疏注意力 → CSA/HCA 混合压缩注意力 + mHC
本文是这条 算法线 的专题导读与双向跳转 hub;全景时间线(含 infra 线)见 版本演进总览。
1. 演进链
| 阶段 | 核心机制 | 首发 / 定型版本 | 本地文档 | 论文 |
|---|---|---|---|---|
| ① MLA | K/V 压入低维 latent 再缓存;Core 仍做多头注意力 | V2(2024-05)→ V3/R1/V3.1 沿用 | MLA 低秩注意力 | 2405.04434 |
| ② DSA | Lightning Indexer 选 top-$k$ → 仅对 $k$ 个 latent 做 MLA | V3.2-Exp / V3.2(2025) | DSA 稀疏注意力 · DSA 逻辑详解 | 2512.02556 |
| ③ CSA / HCA | 4:1 / 128:1 压缩 KV + 内嵌 indexer;百万 token | V4(2026) | CSA / HCA · DeepSeek-V4 | 2606.19348 |
| ④ mHC | 残差 Hyper-Connections → 双随机流形约束 | V4 落地 | mHC(含 §3 双随机流形)· HC 基础 | 2512.24880 |
注意:mHC 改的是 残差路径(与 Attention / KV 正交),在演进总览里与 CSA/HCA 并列 标注,便于对照 V4 全架构;详见 mHC §7。
2. 阅读顺序
- MLA 低秩注意力 — latent KV 压缩基座
- V3.1 Hybrid — Prefill MHA / Decode MQA(DSA 前置)
- DSA 梗概 → 逻辑详解 → Lightning Indexer
- CSA/HCA 混合压缩注意力 — 4:1 稀疏 + 128:1 dense
- V4 梗概 — 两个规格、MoE、训练与 infra 总览
- Hyper-Connections(HC) — 多路残差流基础
- mHC 流形约束超连接 — V4 残差组件
外部解读:Raschka 要点速读 §3–4 MLA/DSA · §8 mHC
3. 节点间关系
| 边 | 关系 |
|---|---|
| MLA → DSA | MLA 结构不变;在 latent 序列上加 indexer + top-$k$ 稀疏选择 |
| DSA → CSA/HCA | DSA 的「先选再看」思想延续;V4 先做 token 块压缩 再在压缩序列上稀疏 / dense |
| CSA/HCA ⊥ mHC | 前者改 Attention / KV;后者改 残差拓扑,V4 同期引入 |
4. 与 infra 线的交叉
完整 基础设施线 见 基础设施线导读。
| 算法阶段 | 常见 infra 补丁 | 文档 |
|---|---|---|
| DSA | Indexer/Latent 异构 cache、Index Share、ESS | infra 线 §②–④ |
| V4 CSA/HCA | HiSparse、磁盘 prefix cache、异构 KV layout | infra 线 §⑤ · KV layout · HiSparse · 磁盘 prefix |
MoE 线:MoE 线导读。
5. 反向引用
| 节点文档 | 文首应含 |
|---|---|
| MLA 低秩注意力 | [← 算法线导读](05-算法线导读.md) |
| DSA 稀疏注意力 | 同上 + 上游 MLA、下游 V4 |
| CSA / HCA | 同上 + 上游 DSA、下游 infra |
| DeepSeek-V4 | 同上 + 链 CSA/HCA 专文 |
| mHC | 同上 + 说明残差路径角色 |
维护约定见 DeepSeek 版本演进线文档引用约定。