DeepSeek 算法线:MLA → DSA → CSA/HCA + mHC

← 中文导读 · ← 仓库首页(EN) · 更新:2026-06-27 ← 演进总览 §1 · 基础设施线导读 · MoE 线导读 · 版本梗概索引 · 《ds-技术报告》读本

V3 发布之后,DeepSeek 在 注意力与残差路径 上的算法演进可概括为(与 演进总览 §1 正文内联一致):

MLADSA 稀疏注意力CSA/HCA 混合压缩注意力 + mHC

本文是这条 算法线 的专题导读与双向跳转 hub;全景时间线(含 infra 线)见 版本演进总览


1. 演进链

阶段核心机制首发 / 定型版本本地文档论文
① MLAK/V 压入低维 latent 再缓存;Core 仍做多头注意力V2(2024-05)→ V3/R1/V3.1 沿用MLA 低秩注意力2405.04434
② DSALightning Indexer 选 top-$k$ → 仅对 $k$ 个 latent 做 MLAV3.2-Exp / V3.2(2025)DSA 稀疏注意力 · DSA 逻辑详解2512.02556
③ CSA / HCA4:1 / 128:1 压缩 KV + 内嵌 indexer;百万 tokenV4(2026)CSA / HCA · DeepSeek-V42606.19348
④ mHC残差 Hyper-Connections → 双随机流形约束V4 落地mHC(含 §3 双随机流形)· HC 基础2512.24880

注意:mHC 改的是 残差路径(与 Attention / KV 正交),在演进总览里与 CSA/HCA 并列 标注,便于对照 V4 全架构;详见 mHC §7


2. 阅读顺序

  1. MLA 低秩注意力 — latent KV 压缩基座
  2. V3.1 Hybrid — Prefill MHA / Decode MQA(DSA 前置)
  3. DSA 梗概逻辑详解Lightning Indexer
  4. CSA/HCA 混合压缩注意力 — 4:1 稀疏 + 128:1 dense
  5. V4 梗概 — 两个规格、MoE、训练与 infra 总览
  6. Hyper-Connections(HC) — 多路残差流基础
  7. mHC 流形约束超连接 — V4 残差组件

外部解读Raschka 要点速读 §3–4 MLA/DSA · §8 mHC


3. 节点间关系

关系
MLA → DSAMLA 结构不变;在 latent 序列上加 indexer + top-$k$ 稀疏选择
DSA → CSA/HCADSA 的「先选再看」思想延续;V4 先做 token 块压缩 再在压缩序列上稀疏 / dense
CSA/HCA ⊥ mHC前者改 Attention / KV;后者改 残差拓扑,V4 同期引入

4. 与 infra 线的交叉

完整 基础设施线基础设施线导读

算法阶段常见 infra 补丁文档
DSAIndexer/Latent 异构 cache、Index Share、ESSinfra 线 §②–④
V4 CSA/HCAHiSparse、磁盘 prefix cache、异构 KV layoutinfra 线 §⑤ · KV layout · HiSparse · 磁盘 prefix

MoE 线MoE 线导读


5. 反向引用

节点文档文首应含
MLA 低秩注意力[← 算法线导读](05-算法线导读.md)
DSA 稀疏注意力同上 + 上游 MLA、下游 V4
CSA / HCA同上 + 上游 DSA、下游 infra
DeepSeek-V4同上 + 链 CSA/HCA 专文
mHC同上 + 说明残差路径角色

维护约定见 DeepSeek 版本演进线文档引用约定