| V1:$C=M\cdot D$ vs $C=6ND$ | 演进总览 §3.1 V1 · V1 §3 | 为何 DeepSeek 用 $C=M\cdot D$ 而非 $C=6ND$? |
| MoE centroid vs gate-weight | DeepSeekMoE §前向公式 | MoE 路由:gate-weight 还是 expert centroid? |
| Fine-grained vs GShard 粗专家 | DeepSeekMoE §优化逻辑 (b) | Fine-grained Expert Segmentation:为何优于 GShard 式粗专家? |
| Expert Parallel(EP)与 gather/scatter | Hash MoE §1.3 · DeepSeekMoE §推理 infra | MoE 推理:Expert Parallel与 gather/scatter |
| Hash MoE 为何只改浅层 | Hash MoE §1.2 · EP 答疑 §4 | Hash MoE 为何只改浅层、深层仍用 centroid 路由? |
| V4 SWA(滑动窗口) | CSA/HCA 一句话 · KV Layout §State | V4 里的 SWA是什么? |
| V4 Indexer KV | CSA/HCA §4 · Lightning Indexer | V4 里的 Indexer KV 是什么? |
| V4 Tail buffer | CSA/HCA §4 · KV Layout §State | V4 里的 Tail buffer 是什么? |
| V4 分池 / 块对齐 / 尾缓冲 | KV Layout §为何不够 | V4 为何要分池?块对齐与尾缓冲怎么配合? |
| H2D / D2H、PCIe prefetch | ESS 论文梗概 §Fig.6&7 | H2D / D2H 是什么? |
| FP8 partial sum 漂移 | FP8 专文 §为何需要动态量化 | FP8 动态量化里的 partial sum 漂移 |
| 投机解码 lossless / 接受路径 | 投机解码专文 §1.3 | 投机解码:为何接受率是 $\min$、修正分布是 $\max$ |
| Compute-Bound vs Memory-Bound;DFlash / Eagle | 专文 §1.1 · §4 · 酱紫君 §Speculative Decoding | 投机解码:Compute-Bound vs Memory-Bound — DFlash / Eagle 如何对应? |
| SM(Streaming Multiprocessor) | 专文 §1.1 · Compute vs Memory §2 | 名词解释:SM |
| MTP 中间 token 融合 | 专文 §2 · §1.1 链深度 | MTP 融合 scheme · MTP draft 链深度图 |
| Birkhoff 多面体 | mHC §3.2 · §3 双随机流形 | 名词解释:Birkhoff 多面体 |
| MMA / WGMMA 名词 | FP8 专文 一句话 · partial sum 答疑 | 名词解释:MMA |