02c 图右下角 communication pattern 里 CXL 与 RDMA 各指什么通信方式？和主流程 Step 2 的箭头如何对应？

结论

	CXL pattern（Engram 用）	RDMA pattern（KV 池 / Mooncake 类）
语义	内存 load/store（像读本地 DRAM）	消息 get/put（像网络 RPC）
寻址	`mmap(cxl_base)` + `offset[i]` 字节地址	远端对象句柄 + 显式请求
粒度	cache-line / 数百字节随机读	适合 MB–GB 大块
典型路径	L3 CXL → PCIe P2P → GPU staging（或经 CPU memcpy）	GPU → host bounce → NIC RDMA → 远端 DRAM
Engram 5KB×多段离散读	延迟 ≈ DRAM，可塞进 ~56 μs 窗口	小包效率差，延迟远高于 DRAM

02c 主流程画的是 CXL；灰色 RDMA pool 面板是 对比参照（同一需求若走 RDMA 为何不行）。

→ 时间窗 + 56 μs 如何推出这一结论：为何选 CXL 而非 RDMA？

1. CXL pattern

CXL.mem 把扩展内存挂进 CPU/GPU 的 统一地址空间。进程 mmap 后，读 embedding 就是 ordinary load/store：

cxl_ptr = mmap(DAX device)
row = load(cxl_ptr + offset[i]) // 离散 320B 行

图元素	pattern
黄框 L3 CXL Pool	`mmap: cxl_base+offset[i]` · CXL.mem: load/store
橙色虚线 path B	CXL load/store + PCIe P2P（推荐）
绿框 path A	CXL→CPU OpenMP memcpy，再进 GPU
蓝框 L1 staging	`cxl2vram_copy` 终点
右侧橙条 CXL: fetch @ layer k	与 GPU 算 0..k-1 并行的 CXL 读

不是发「请给我第 i 行」的网络消息，而是 CPU/GPU DMA 直接按地址读。

RDMA 内存池：GPU/CPU 通过 NIC 对远端内存发 get/put：

put(remote_buf, local_chunk) // 消息式
get(local_buf, remote_handle) // 需 NIC 参与、常经 bounce buffer

面向 大块、连续 传输（整段 KV cache）；对 Engram 这种 每 token 每层 ~5 KB、16 段离散 320B 访问：