版本 / MoE 答疑

← 版本梗概索引 · ← 演进总览 · 书中答疑

主题	来源	文件
V1：$C=M\cdot D$ vs $C=6ND$	演进总览 §3.1 V1 · V1 §3	为何 DeepSeek 用 $C=M\cdot D$ 而非 $C=6ND$？
MoE centroid vs gate-weight	DeepSeekMoE §前向公式	MoE 路由：gate-weight 还是 expert centroid？
Fine-grained vs GShard 粗专家	DeepSeekMoE §优化逻辑 (b)	Fine-grained Expert Segmentation：为何优于 GShard 式粗专家？
Expert Parallel（EP）与 gather/scatter	Hash MoE §1.3 · DeepSeekMoE §推理 infra	MoE 推理：Expert Parallel与 gather/scatter
Hash MoE 为何只改浅层	Hash MoE §1.2 · EP 答疑 §4	Hash MoE 为何只改浅层、深层仍用 centroid 路由？
V4 SWA（滑动窗口）	CSA/HCA 一句话 · KV Layout §State	V4 里的 SWA是什么？
V4 Indexer KV	CSA/HCA §4 · Lightning Indexer	V4 里的 Indexer KV 是什么？
V4 Tail buffer	CSA/HCA §4 · KV Layout §State	V4 里的 Tail buffer 是什么？
V4 分池 / 块对齐 / 尾缓冲	KV Layout §为何不够	V4 为何要分池？块对齐与尾缓冲怎么配合？
H2D / D2H、PCIe prefetch	ESS 论文梗概 §Fig.6&7	H2D / D2H 是什么？
FP8 partial sum 漂移	FP8 专文 §为何需要动态量化	FP8 动态量化里的 partial sum 漂移
投机解码 lossless / 接受路径	投机解码专文 §1.3	投机解码：为何接受率是 $\min$、修正分布是 $\max$
Compute-Bound vs Memory-Bound；DFlash / Eagle	专文 §1.1 · §4 · 酱紫君 §Speculative Decoding	投机解码：Compute-Bound vs Memory-Bound — DFlash / Eagle 如何对应？
SM（Streaming Multiprocessor）	专文 §1.1 · Compute vs Memory §2	名词解释：SM
MTP 中间 token 融合	专文 §2 · §1.1 链深度	MTP 融合 scheme · MTP draft 链深度图
Birkhoff 多面体	mHC §3.2 · §3 双随机流形	名词解释：Birkhoff 多面体
MMA / WGMMA 名词	FP8 专文一句话 · partial sum 答疑	名词解释：MMA

DeepSeek 技术报告

版本 / MoE 答疑