V4 HiSparse:inactive C4 entry CPU offload

← 中文导读 · ← 仓库首页(EN) · ← 演进总览 §5.3 HiSparse · ← 基础设施线导读 · CSA/HCA 算法专文 · V4 梗概 §推理 infra · 前置 KV layout · 并列 磁盘 Prefix Cache · 上游 ESS · 正交 DSpark 部署参考Together.ai — Serving DeepSeek-V4(2026-05,HGX B200 bring-up) 演进总览 §5.3 只保留梗概;HiSparse 机制与数据以本文为准


一句话

HiSparse 是面向 V4 CSA 4:1 压缩层(C4)GPU/CPU 分层 cache 策略:decode 每步仅 top-$k$ 稀疏激活 少量压缩 entry,其余 inactive entry offload 到 CPU pinned memory;GPU 只保留 active 热工作集,从而在单节点上把可服务 token 容量从约 1.2M 提升到 ~3.7M(约 ,B200 部署实测口径)。


为何需要 HiSparse

维度ESS(V3.2)HiSparse(V4)
Cache 结构同质 Latent-Cache([per-token MLA)CSA/HCA/SWA/Indexer/tail 异构](05-V4-KV-Layout.md)
Offload 粒度latent entry;依赖 DSA top-$k$ 时间局部性C4 压缩 entry;依赖 CSA 空间稀疏激活
IndexerGPU 常驻V4 indexer 仍参与 CSA 路径;layout 见 DeepSeek-V4
可否直接迁移 — 须先实现 §3.5.1 双池 layout

V3.2 上 Index Share + ESS 可同开;V4 则需要 HiSparse + 定制 layout + prefix 策略演进总览 §5.4)。


核心机制

组件作用
C4 压缩 entryCSA stride-4:每 4 token 一条 KV;1M context 约 250K 条(再经 top-$k$ 只读子集)
Active 集当前 decode step indexer 选中的 ~128 条 CSA entry + 必要 HCA/SWA 局部
Inactive 集全长 prefix 中 本步未参与 attention 的 C4 entry
CPU pinned poolInactive entry 驻留 主机 pinned memory;GPU miss 时 prefetch 回 HBM
GPU 热池LRU(或类似策略)维护 active 工作集;与 ESS Sparse Memory Pool 思想类似,但 entry 形态为压缩块
HiSparse:inactive C4 entries offload 到 CPU pinned memory

图示详情 · 图下半区标注 HiSparse offload

局部性依据:CSA 每步 top-$k$ 选中的压缩块在相邻 decode step 间 重叠率高(类比 ESS 的 index 时间相似度);多数所需 entry 已在 GPU,少量 cold entry 从 CPU 拉回。


部署数据

指标数值说明
平台NVIDIA HGX B200 单节点Together 早期 V4 bring-up
优化前容量~1.2M tokens默认 cache 策略下总 KV 预算
HiSparse + cache 策略后~3.7M tokens;主要释放来自 inactive C4 offload + SWA 复用策略
SWA 注意全量 SWA 时 per-token KV 可 高于 V3 路径Together 称早期瓶颈常在 SWA state 而非 CSA/HCA 压缩体本身

Together 文中同时提到:通过 只保留最可能被复用的 SWA state,在不改权重的情况下提升总容量——这与 C4 CPU offload 互补,共同构成 V4 serving 的 cache policy 层(非单一 knob)。


与磁盘 Prefix Cache / DSpark 的关系

技术关系
KV layout前置:须先分 Classical / State 池,HiSparse 主要动 Classical 中 C4 部分
磁盘 Prefix Cache互补:压缩 entry 可 跨请求落盘;HiSparse 管 单请求内 GPU↔CPU 热冷分层
DSpark正交:DSpark 优化 decode 步吞吐;HiSparse 优化 KV 驻留容量

与 ESS 对照

维度V3.2 (ESS)V4 (HiSparse)
Offload 对象Latent-CacheInactive C4 压缩 entry
局部性top-$k$ index 时间相似CSA 稀疏激活 + SWA 复用
传输优化FlashTrans / UVA分层内存池 +(引擎)PD 分离
与算法耦合中(依赖 DSA top-$k$)(依赖压缩比 $m{=}4$、$m'{=}128$)

完整表:演进总览 §5.4


基础设施线位置

方向文档
本节点(⑤ HiSparse)基础设施线导读 §1
前置 layoutV4 KV Layout
并列 prefixV4 磁盘 Prefix Cache
上游 ④ ESSESS Latent offload简单放大)
V4 总览DeepSeek-V4 梗概§推理 infra

延伸

资源说明
Together.ai — Serving V41.2M→3.7M、SWA 瓶颈、多 layout serving
ESS 概念V3.2 offload 基线对照
演进总览 §5.3总览反向链入口

论文背景arXiv:2606.19348(算法侧 CSA/HCA;HiSparse 为 社区/部署层命名,与 Together cache policy 实践一致)