deepseek-tech-notes · 中文导读

丝滑阅读 × 深度拆解 × 前沿跟进 — 非官方 DeepSeek 技术笔记（V1→V4）。与 DeepSeek 官方无隶属关系。

Smooth, deep notes on frontier DeepSeek tech. Unofficial; not affiliated with DeepSeek.

← English homepage

在线成书

推荐阅读

本笔记是双向引用 wiki：文首有反向回链，文内有正向深入链接。要发挥这套导航的价值，请用下面两种方式之一——不要用 GitHub 仓库内的 blob 预览。

方式	何时用	导航怎么玩
IDE Preview（VS Code / Cursor）	已 clone 仓库、本地精读或改稿	点文首 `←` 回链与文内链接即可跳转；可开预览分栏或沿预览历史回溯——正向 / 反向引用价值最大
GitHub Pages（mdBook）	在线阅读、无需 clone	公式、图示与 IDE 一致；用浏览器后退 / 前进沿阅读路径返回上一篇或再进下一篇，效果与 IDE 里点链接类似

小结：本地 IDE Preview 与 Pages 二选一即可；编辑与 PR 仍在本仓库 docs/ 进行。

善意提醒：正文里的 SVG 插图下方，通常都有 「图示详情」 链接——点进去可在新页查看可缩放的原图。不少机制就写在图里的箭头、分区与小字标注里，值得放慢节奏、仔细品读。

项目仍在完善中：梗概补全、书中镜像、链接与图示校验仍在推进。阅读时请以各篇文首的 arXiv / 官方 PDF 为准；发现断链、口径不一致或表述错误，欢迎提 issue。

这个项目在做什么

我从 DeepSeek V1 技术报告一路跟到 V4，并把大部分主要技术文章里的机制与细节拆开写清楚：架构怎么变、训练/推理在优化什么、版本之间如何衔接。

范围包括：

DeepSeek 主线（见算法线 · MoE 线）：MLA、DeepSeekMoE、aux-loss-free 路由、MTP、RLVR / R1、DSA、CSA / HCA、mHC、Hash MoE、V4 异构 KV 等。
V4 及衍生的推理技术（见基础设施线）：如 DSpark 投机解码（半自回归 draft + 置信度调度验证）、HiSparse、磁盘 Prefix Cache 等。
叠在 DeepSeek checkpoint 上的衍生工作——尤其 AI Infrastructure 向：
Index Share / IndexCache（清华 + 智谱）：跨层复用 DSA indexer 的 top-$k$ index，纯推理补丁；逻辑详解
ESS（百度百舸）：Latent-Cache CPU offload，与 DSA 算法正交；论文梗概

演进

版本演进总览 — 全系列唯一主线入口：时间线 + 算法 / 基础设施 / MoE 三线；各版本与 infra 补丁的内链均从此文展开。

图示详情 · 与演进总览 §1 对照阅读

PPO vs GRPO：RLHF 神经 RM + Critic 与 RLVR 验证器 + 组内 baseline 对比

图示详情 · RLVR / GRPO · R1

MTP 融合：主网单步 1 次前向，MTP 链补 draft，无需 K 遍完整前向

图示详情 · DSpark 投机解码 · MTP 融合 scheme

文章

主题	一句话
V1	DeepSeek-LLM 完整中文译文
V1 BBPE	Byte-level BPE 词表与预分词
V2	236B/21B；MLA + DeepSeekMoE 首次引入
V3	671B MoE + MLA 开源旗舰基座
V3 FP8	训练侧 FP8 块级动态量化
R1	V3-Base + RLVR；架构不变
RLVR / GRPO	可验证奖励 + 组内相对优化
V3.1	Hybrid 推理，128K
V3.2	DSA 稀疏注意力
DSA	indexer + top-$k$ + Core MLA
Index Share	IndexCache 纯 infra 补丁
ESS · 论文梗概	Latent-Cache CPU offload
V4	CSA + HCA + mHC；1M context
CSA / HCA	4:1 稀疏 + 128:1 dense 混合压缩注意力
mHC	双随机流形约束超连接
Hash MoE + FP4	Hash 路由 + routed expert FP4
V4 KV	Classical + State 双池
V4 HiSparse	inactive C4 CPU offload
V4 磁盘 Prefix	CSA/HCA 落盘 + SWA 三档策略
DSpark	V4 投机解码：半自回归 draft + 置信度验证
MLA	latent 压缩 KV
DeepSeekMoE	细粒度 routed + shared experts
MoE 路由	aux-loss-free 动态 bias 负载均衡
$L_{\mathrm{Bal}}$	序列内专家均衡损失
Hyper-Connections	$n$ 路并行残差流；mHC 前置

许可

范围	许可
导读、图示、成书读本	CC BY 4.0
`scripts/`	MIT
`docs/engram/`	Apache 2.0
`docs/material/` 镜像	上游 / 原论文许可

DeepSeek 论文、权重与官方代码库另有其许可；引用时请以 arXiv / 官方发布 为准。

DeepSeek 技术报告

deepseek-tech-notes · 中文导读

推荐阅读

这个项目在做什么

演进

文章

许可