Index Share梗概

← 中文导读 · ← 仓库首页（EN） · ← 演进总览 §4 · ← 基础设施线导读 · ← 版本目录 · 上游 DSA §异构 KV · 并列 ESS · 逻辑详解

定位

社区昵称 Index Share / 「V3.3」；正式名 IndexCache（清华 + Z.ai，2026-03）。不是新模型，而是面向 DSA 架构的 纯推理 infra 补丁：零额外显存，在 V3.2 / GLM-5 等模型上即插即用。

典型体现「infra 归 infra，算法归算法」——算法仍是 V3.2 的 DSA，系统侧利用跨层冗余砍掉冗余 indexer 计算。

逻辑详解：Index Share逻辑详解 · 上游 DSA §异构 KV

方向	文档
本节点（③ Index Share）	基础设施线导读 §1
前置 ② 异构 cache	DSA稀疏注意力§异构 KV
并列 ④ ESS	ESS Latent offload（Latent offload，可同开）
下游 ⑤ V4	CSA / HCA · DeepSeek-V4（V4 自带 CSA indexer，路线互补）

#	要点
1	IndexCache / Index Share（跨层索引复用）不是 DeepSeek 原创，也不是百度百舸原创
2	DSA 稀疏注意力（含 Lightning Indexer）为 DeepSeek 自研，是被优化的模型侧基底
3	IndexCache 由清华大学计算机系 + 智谱 AI（Z.ai）联合提出（arXiv:2603.12201）
4	百度百舸（Baige AI）在 IndexCache 上主要是工程集成与云侧落地；其自研的同类 infra 是 ESS（Latent-Cache offload），与 IndexCache 正交

机构	角色	代表工作
DeepSeek	造出带 Lightning Indexer 的 DSA 模型（被优化对象）	DSA、arXiv:2512.02556；每层独立 top-$k$，$O(L^2)$ indexer + $O(Lk)$ Core MLA
清华 + 智谱（Z.ai）	提出 IndexCache / index-share 跨层索引复用（优化算法本体）	Full (F) 层算索引并 index-cache；Shared (S) 层 index-share 复用；`FFFS` 等模式
百度百舸	ESS 原创 + IndexCache 训推引擎适配/部署（落地方）	ESS arXiv:2512.10576（Latent-Cache offload）；百舸云侧集成 IndexCache、KV 缓存、并行调度等

（勿与 DSA 里的 Indexer-Cache 存储块混淆，见下节。）

论文术语	含义
index-cache	F（Full）层算出 top-$k$ 后，把索引集合缓存起来
index-share	S（Shared）层不跑 indexer，直接复用最近 F 层的缓存索引

相邻层索引重叠可达约 70%–100%；典型 FFFS 下约 75% 层可跳过 indexer 计算。

技术	归属	优化对象
IndexCache	清华 + 智谱发明；百舸集成部署	DSA indexer 计算（跨层复用 top-$k$ 下标）
ESS	百舸原创（Chen et al., 2025）	DSA Latent-Cache 显存（CPU offload + 热池）

逻辑详解：Index Share逻辑详解 §1

DSA 每层独立跑 lightning indexer，复杂度 $O(L^2)$。长上下文 prefill 时 indexer 成为显著瓶颈。观察：相邻层选出的 top-$k$ index 高度相似。

逻辑详解：Index Share逻辑详解 · DSA 前置

层划分为两类：

类型	行为
Full (F)	保留 indexer，正常计算 top-$k$
Shared (S)	不跑 indexer，复用最近 F 层的 cached indices

典型模式 FFFS 重复：每 4 层留 1 个 F 层，去掉 75% indexer 计算。

部署模式：