ESS:Latent-Cache Offload

← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §5.2 · ← 基础设施线导读 · ← DSA · 并列 Index Share · ESS 论文梗概 论文ESS arXiv:2512.10576An Offload-Centric Latent-Cache Management Architecture for DeepSeek-V3.2-Exp(Chen et al., 2025) 论文梗概ESS 论文梗概


一句话

ESS 是面向 V3.2 DSAKV offload 架构Indexer-Cache(~16.8%)常驻 GPULatent-Cache(~83.2%)卸载到 CPU DRAM,按 top-$k$ 稀疏访问 prefetch 热 entry 回 GPU。不改模型权重,依赖 DSA 把主 attention 限制在 $k{=}2048$ 个 latent 上。

归属:ESS 为 百度百舸(Baige AI) 提出(arXiv:2512.10576),优化 Latent-Cache 显存;与 清华 + 智谱Index Share / IndexCache(优化 indexer 计算正交,可同开。


为什么 V3.2 需要 ESS

问题说明
128K latent 线性涨即使用 MLA 压缩,全长 Latent-Cache 仍占 HBM 大头
V3 通用 offload 不好用同质 MLA latent 整条搬移,PCIe 小块传输带宽差
DSA 带来的机会Core MLA 每步只读 $k$ 个 latent entry → offload 粒度可变成 稀疏 entry,而非全长序列

DSA 先把 cache 拆成 Indexer + Latent 两类,ESS 专门管 Latent 那一侧的 CPU/GPU 分层


双 Cache 与 ESS 分工

MLA Decode 一步: Indexer 选 top-2048 位置 vs Latent-Cache 升维并做 Core MLA

图示详情 · 图源 Lightning Indexer · Decode 一步

读图要点(单层、第 $t$ 个 decode token)

组件存什么算什么不算什么
Indexer-Cache全长 $L$ 个 轻量 indexer 向量(~16.8%,GPU 常驻)对 $j{=}1..L$ 打分 → Top-2048 下标 $I$不读 $c_j^{KV}$、不做 MLA softmax
Latent-Cache每位置 $c_j^{KV}$ [512] + $k^R$(~83.2%,ESS 可 offload)仅 $j \in I$:prefetch → $W^{UK}/W^{UV}$ 升维 → Core MLA → $u_t$不对全长 $L$ 做稠密 attention

Indexer 回答「看哪 2048 个位置」;Latent-Cache 回答「这些位置的 MLA K/V 是多少、怎么加权」。详见 MLA 前向流程图

Cache占比ESS 策略原因
Indexer-Cache~16.8%GPU 常驻,不 offload每 decode step 要对全长跑 indexer
Latent-Cache~83.2%CPU offload + GPU LRU 热池主 attention 只 touch top-$k$;相邻 step index 重叠率高

DSA 异构 cache 同时支撑 ESS(搬 latent)Index Share(省 indexer 计算)


ESS 核心机制

组件作用
Latent-Cache → CPU冷 latent entry 放主机 DRAM,释放 GPU HBM
Sparse Memory Pool(GPU)LRU 维护 latent 子集;miss 时从 CPU prefetch
FlashTrans + UVA优化大量 656B 级小块 PCIe 传输 由 ~0.8 GB/s 提升至 ~37 GB/s)
Layer-wise overlap计算与传输 流水线,掩盖 prefetch 延迟

局部性依据:DSA 每步选出的 top-$k$ index 集合在相邻 decode step 间 高度相似 → 多数需要的 latent 已在 GPU 热池,少量 miss 再拉取。


与 Index Share / V4 的关系

ESSIndex ShareV4 HiSparse
改权重是(新模型)
省什么Latent 显存(offload)Indexer 算力(跨层复用 index)异构压缩 cache + inactive entry offload
适用V3.2 DSAV3.2 / GLM-5 DSAV4 CSA/HCA
叠加与 Index Share 正交可同开与 ESS 正交 V3.2 ESS 的简单放大

V4 的 KV-offload 围绕 CSA/HCA/SWA 异构 layout 重做,不是把 ESS 直接扩到 1M · DeepSeek-V4


论文收益

详见 论文梗概 §Table 2

上下文吞吐提升
32K+69.4%(MTP=2,batch 52→160,Ratio 1.0→0.21)
128K最高 +123%(MTP=2,batch 13→54,Ratio 1.0→0.1)

基础设施线位置

方向文档
本节点(④ ESS offload)基础设施线导读 §1
前置 ② 异构 cacheDSA稀疏注意力§异构 KV
并列 ③ Index ShareIndex Share 梗概(indexer 算力,可同开)
下游 ⑤ V4 infraDeepSeek-V4 梗概§推理 infra · KV layout · HiSparse · 磁盘 prefix ESS 简单放大)

在版本线中的位置

KV-offload 演进:V3 同质 MLA → V3.2 双 Cache → ESS / Index Share → V4

图示详情

前置DSA(必须先有双 cache 结构) 并列Index Share


延伸

资源说明
ESS 论文梗概论文梗概:Fig.1–9、Table 1–2 逐图逐表解读
DSA逻辑详解 §4异构 Cache 设计含义
Index Share逻辑详解与 ESS 正交性
DeepSeek-V3.2V3.2 梗概
演进总览 §5.4V3 / V3.2 ESS / V4 三代 offload 对比

论文arXiv:2512.10576