1. 中文导读
  2. 01 总览
  3. 1. DeepSeek 版本演进:V1 → V3 → V3.2 → V4,Index Share 与 KV-offload
  4. 2. DeepSeek 算法线:MLA → DSA → CSA/HCA + mHC
  5. 3. DeepSeek 基础设施线:MLA KV → 异构 Cache → Index Share → ESS → V4 HiSparse
  6. 4. DeepSeek MoE 线:稠密 FFN → DeepSeekMoE → aux-loss-free → Hash MoE
  7. 5. DeepSeek V1 → V2 → V3:前代到旗舰基座
  8. 6. DeepSeek 各版本梗概
  9. 7. DeepSeek 技术报告与外部解读
  10. 02 基座架构
  11. 8. DeepSeek-V3 梗概
  12. 9. MLA前向计算流程
  13. 10. DeepSeekMoE 架构
  14. 11. aux-loss-free MoE 路由逻辑
  15. 12. 序列均衡损失
  16. 13. DeepSeek-V3 FP8 动态量化
  17. 03 后训练与 R1
  18. 14. RLVR
  19. 15. DeepSeek-R1 梗概
  20. 16. RL / 后训练笔记
  21. 17. GRPO 长程任务局限
  22. 18. DeepSeek-R1 训练 Pipeline
  23. 04 版本代际
  24. 19. DeepSeek-LLM V1
  25. 20. DeepSeek-LLM V1:BBPE 词表与 Tokenizer
  26. 21. DeepSeek-V2 梗概
  27. 22. DeepSeek-V3.1 梗概
  28. 23. DeepSeek-V3.2 梗概
  29. 24. DeepSeek-V4 梗概
  30. 25. CSA / HCA 混合压缩注意力
  31. 26. Hyper-Connections
  32. 27. mHC
  33. 28. Hash MoE + FP4
  34. 29. Muon 优化器
  35. 05 DSA 稀疏注意力
  36. 30. DeepSeek DSA 与 Index Share 系列
  37. 31. DSA稀疏注意力
  38. 32. DSA逻辑详解
  39. 33. Lightning Indexer 详解
  40. 34. Index Share梗概
  41. 35. Index Share逻辑详解
  42. 06 推理基础设施
  43. 36. ESS:Latent-Cache Offload
  44. 37. ESS 论文梗概
  45. 38. 投机解码自测加速比
  46. 39. 投机解码与 DSpark
  47. 40. V4 KV Layout:Classical + State 双池
  48. 41. V4 HiSparse:inactive C4 entry CPU offload
  49. 42. V4 磁盘 Prefix Cache
  50. 07 Engram
  51. 43. 01-Engram官方README
  52. 44. DeepSeek Engram 系列导读
  53. 08 外部解读
  54. 45. Raschka 解读梗概:DeepSeek V3 → V3.2
  55. 46. Raschka 全文解析:From DeepSeek V3 to V3.2
  56. 47. 如何评价 DeepSeek 发布 DSpark?哪些亮点值得关注?
  57. 09 附录
  58. 48. Thinking with Visual Primitives — 论文要点
  59. 49. 开发索引
  60. 50. DeepSeek 文档系列结构审查
  61. 答疑
  62. 51. 01 总览 · 答疑索引
  63. 52. 01 总览 · H2D / D2H 是什么?
  64. 53. 01 总览 · 为何 DeepSeek 用 C=M·D 而非 C=6ND?
  65. 54. 02 基座架构 · 答疑索引
  66. 55. 02 基座架构 · 名词解释:MMA
  67. 56. 02 基座架构 · FP8 动态量化里的 partial sum 漂移
  68. 57. 02 基座架构 · Hash MoE 为何只改浅层、深层仍用 centroid 路由?
  69. 58. 02 基座架构 · MoE 路由:gate-weight 还是 expert centroid?
  70. 59. 02 基座架构 · MoE 推理:Expert Parallel与 gather/scatter
  71. 60. 02 基座架构 · Fine-grained Expert Segmentation:为何优于 GShard 式粗专家?
  72. 61. 04 版本代际 · Hash MoE 为何只改浅层、深层仍用 centroid 路由?
  73. 62. 04 版本代际 · 名词解释:Birkhoff 多面体
  74. 63. 04 版本代际 · MoE 推理:Expert Parallel与 gather/scatter
  75. 64. 04 版本代际 · 为何 DeepSeek 用 C=M·D 而非 C=6ND?
  76. 65. 04 版本代际 · V4 里的 Indexer KV 是什么?
  77. 66. 04 版本代际 · V4 为何要分池?块对齐与尾缓冲怎么配合?
  78. 67. 04 版本代际 · V4 里的 SWA是什么?
  79. 68. 04 版本代际 · V4 里的 Tail buffer 是什么?
  80. 69. 05 DSA 稀疏注意力 · V4 里的 Indexer KV 是什么?
  81. 70. 06 推理基础设施 · 名词解释:SM
  82. 71. 06 推理基础设施 · H2D / D2H 是什么?
  83. 72. 06 推理基础设施 · MTP 中间 token 融合方案
  84. 73. 06 推理基础设施 · 投机解码:Compute-Bound vs Memory-Bound — DFlash / Eagle 如何对应?
  85. 74. 06 推理基础设施 · 投机解码:为何接受率是 、修正分布是
  86. 75. 06 推理基础设施 · V4 为何要分池?块对齐与尾缓冲怎么配合?
  87. 76. 06 推理基础设施 · V4 里的 SWA是什么?
  88. 77. 06 推理基础设施 · V4 里的 Tail buffer 是什么?
  89. 78. 09 附录 · 答疑索引
  90. 79. 09 附录 · L1 HBM / L2 DRAM / L3 CXL.mem:三级存储区别
  91. 80. 09 附录 · Prefetch window:不是「CPU 比 GPU 强」,而是 CPU 先点火、GPU 腾出时间窗
  92. 81. 09 附录 · CXL vs RDMA:Engram 的两种「远程内存」通信 pattern
  93. 82. 09 附录 · 为何选 CXL 而非 RDMA?
  94. 83. 09 附录 · Step 6 上下文门控:依据与「记忆依赖过滤」
  95. 84. 09 附录 · Step 7 感受野 1→10:训练与推理差异
  96. 85. 09 附录 · Step 7 短卷积:感受野扩充常数

DeepSeek 技术报告

← 返回 Engram 系列导读 · 答疑目录 · ← 中文导读 · ← 仓库首页(EN)

Engram 系列 · 答疑

主文档公式/推导类细节放本目录;engram-series-overview.md 只保留一行跳转。

主题来源章节答疑
Step 6 门控依据 / 记忆依赖过滤§Step 6Step 6 上下文门控:依据与「记忆依赖过滤」
HBM / DRAM / CXL.mem(L1–L3)§CXL 三级存储L1 HBM / L2 DRAM / L3 CXL.mem:三级存储区别
prefetch window / CPU vs GPU§缓存访问逻辑Prefetch window:不是「CPU 比 GPU 强」,而是 CPU 先点火、GPU 腾出时间窗
CXL vs RDMA 通信 pattern§RDMA 对比 · 02c 图CXL vs RDMA:Engram 的两种「远程内存」通信 pattern
③ Engram-Nine 热/冷 flip§③ 核心发现 · 论文截图DeepSeek Engram 系列导读§③
为何选 CXL 而非 RDMA§Step 1 时间窗为何选 CXL 而非 RDMA?
Step 7 感受野扩充常数§Step 7Step 7 短卷积:感受野扩充常数
RF 1→10 对训练/推理的影响§Step 7Step 7 感受野 1→10:训练与推理差异
记忆过滤在哪一步?§Step 1–8 总表01c 前向图 + Step 6 门控说明