版本 / MoE 答疑

← 版本梗概索引 · ← 演进总览 · 书中答疑

主题来源文件
V1:$C=M\cdot D$ vs $C=6ND$演进总览 §3.1 V1 · V1 §3为何 DeepSeek 用 $C=M\cdot D$ 而非 $C=6ND$?
MoE centroid vs gate-weightDeepSeekMoE §前向公式MoE 路由:gate-weight 还是 expert centroid?
Fine-grained vs GShard 粗专家DeepSeekMoE §优化逻辑 (b)Fine-grained Expert Segmentation:为何优于 GShard 式粗专家?
Expert Parallel(EP)与 gather/scatterHash MoE §1.3 · DeepSeekMoE §推理 infraMoE 推理:Expert Parallel与 gather/scatter
Hash MoE 为何只改浅层Hash MoE §1.2 · EP 答疑 §4Hash MoE 为何只改浅层、深层仍用 centroid 路由?
V4 SWA(滑动窗口)CSA/HCA 一句话 · KV Layout §StateV4 里的 SWA是什么?
V4 Indexer KVCSA/HCA §4 · Lightning IndexerV4 里的 Indexer KV 是什么?
V4 Tail bufferCSA/HCA §4 · KV Layout §StateV4 里的 Tail buffer 是什么?
V4 分池 / 块对齐 / 尾缓冲KV Layout §为何不够V4 为何要分池?块对齐与尾缓冲怎么配合?
H2D / D2H、PCIe prefetchESS 论文梗概 §Fig.6&7H2D / D2H 是什么?
FP8 partial sum 漂移FP8 专文 §为何需要动态量化FP8 动态量化里的 partial sum 漂移
投机解码 lossless / 接受路径投机解码专文 §1.3投机解码:为何接受率是 $\min$、修正分布是 $\max$
Compute-Bound vs Memory-Bound;DFlash / Eagle专文 §1.1 · §4 · 酱紫君 §Speculative Decoding投机解码:Compute-Bound vs Memory-Bound — DFlash / Eagle 如何对应?
SM(Streaming Multiprocessor)专文 §1.1 · Compute vs Memory §2名词解释:SM
MTP 中间 token 融合专文 §2 · §1.1 链深度MTP 融合 scheme · MTP draft 链深度图
Birkhoff 多面体mHC §3.2 · §3 双随机流形名词解释:Birkhoff 多面体
MMA / WGMMA 名词FP8 专文 一句话 · partial sum 答疑名词解释:MMA