V4 HiSparse：inactive C4 entry CPU offload

← 中文导读 · ← 仓库首页（EN） · ← 演进总览 §5.3 HiSparse · ← 基础设施线导读 · CSA/HCA 算法专文 · V4 梗概 §推理 infra · 前置 KV layout · 并列磁盘 Prefix Cache · 上游 ESS · 正交 DSpark 部署参考：Together.ai — Serving DeepSeek-V4（2026-05，HGX B200 bring-up） 演进总览 §5.3 只保留梗概；HiSparse 机制与数据以本文为准。

一句话

HiSparse 是面向 V4 CSA 4:1 压缩层（C4） 的 GPU/CPU 分层 cache 策略：decode 每步仅 top-$k$ 稀疏激活 少量压缩 entry，其余 inactive entry offload 到 CPU pinned memory；GPU 只保留 active 热工作集，从而在单节点上把可服务 token 容量从约 1.2M 提升到 ~3.7M（约 3×，B200 部署实测口径）。

为何需要 HiSparse

维度	ESS（V3.2）	HiSparse（V4）
Cache 结构	同质 Latent-Cache（[per-token MLA）	CSA/HCA/SWA/Indexer/tail 异构](05-V4-KV-Layout.md)
Offload 粒度	按 latent entry；依赖 DSA top-$k$ 时间局部性	按 C4 压缩 entry；依赖 CSA 空间稀疏激活
Indexer	GPU 常驻	V4 indexer 仍参与 CSA 路径；layout 见 DeepSeek-V4
可否直接迁移	—	否 — 须先实现 §3.5.1 双池 layout

V3.2 上 Index Share + ESS 可同开；V4 则需要 HiSparse + 定制 layout + prefix 策略（演进总览 §5.4）。

核心机制

组件	作用
C4 压缩 entry	CSA stride-4：每 4 token 一条 KV；1M context 约 250K 条（再经 top-$k$ 只读子集）
Active 集	当前 decode step indexer 选中的 ~128 条 CSA entry + 必要 HCA/SWA 局部
Inactive 集	全长 prefix 中本步未参与 attention 的 C4 entry
CPU pinned pool	Inactive entry 驻留主机 pinned memory；GPU miss 时 prefetch 回 HBM
GPU 热池	LRU（或类似策略）维护 active 工作集；与 ESS Sparse Memory Pool 思想类似，但 entry 形态为压缩块

HiSparse：inactive C4 entries offload 到 CPU pinned memory

图示详情 · 图下半区标注 HiSparse offload

局部性依据：CSA 每步 top-$k$ 选中的压缩块在相邻 decode step 间 重叠率高（类比 ESS 的 index 时间相似度）；多数所需 entry 已在 GPU，少量 cold entry 从 CPU 拉回。

部署数据

指标	数值	说明
平台	NVIDIA HGX B200 单节点	Together 早期 V4 bring-up
优化前容量	~1.2M tokens	默认 cache 策略下总 KV 预算
HiSparse + cache 策略后	~3.7M tokens	约 3×；主要释放来自 inactive C4 offload + SWA 复用策略
SWA 注意	全量 SWA 时 per-token KV 可高于 V3 路径	Together 称早期瓶颈常在 SWA state 而非 CSA/HCA 压缩体本身

Together 文中同时提到：通过 只保留最可能被复用的 SWA state，在不改权重的情况下提升总容量——这与 C4 CPU offload 互补，共同构成 V4 serving 的 cache policy 层（非单一 knob）。

与磁盘 Prefix Cache / DSpark 的关系

技术	关系
KV layout	前置：须先分 Classical / State 池，HiSparse 主要动 Classical 中 C4 部分
磁盘 Prefix Cache	互补：压缩 entry 可跨请求落盘；HiSparse 管单请求内 GPU↔CPU 热冷分层
DSpark	正交：DSpark 优化 decode 步吞吐；HiSparse 优化 KV 驻留容量

与 ESS 对照

维度	V3.2 (ESS)	V4 (HiSparse)
Offload 对象	仅 Latent-Cache	Inactive C4 压缩 entry
局部性	top-$k$ index 时间相似	CSA 稀疏激活 + SWA 复用
传输优化	FlashTrans / UVA	分层内存池 +（引擎）PD 分离
与算法耦合	中（依赖 DSA top-$k$）	高（依赖压缩比 $m{=}4$、$m'{=}128$）

完整表：演进总览 §5.4。

基础设施线位置

方向	文档
本节点（⑤ HiSparse）	基础设施线导读 §1
前置 layout	V4 KV Layout
并列 prefix	V4 磁盘 Prefix Cache
上游 ④ ESS	ESS Latent offload（非简单放大）
V4 总览	DeepSeek-V4 梗概§推理 infra

延伸

资源	说明
Together.ai — Serving V4	1.2M→3.7M、SWA 瓶颈、多 layout serving
ESS 概念	V3.2 offload 基线对照
演进总览 §5.3	总览反向链入口

论文背景：arXiv:2606.19348（算法侧 CSA/HCA；HiSparse 为 社区/部署层命名，与 Together cache policy 实践一致）

DeepSeek 技术报告