← 返回 Engram 系列导读 · 答疑目录 · ← 中文导读 · ← 仓库首页（EN）

不是算力放大 10×，而是门控记忆流 $\tilde{V}$ 沿序列的有效依赖跨度 从 1 个位置 扩到 10 个 token 索引范围（默认 $w=4,d=3$）。

$$ \mathrm{RF}_{\mathrm{seq}}:\ 1 ;\rightarrow; 1+(w-1)d = 10 $$

影响总览

1. 能力上差什么

	RF = 1（仅 Step 6）	RF = 10（Step 7 后）
每位置输入	仅 $\tilde{v}_t$	$\tilde{v}t,\tilde{v}{t-3},\tilde{v}{t-6},\tilde{v}{t-9}$
表达	每 token 独立的过滤记忆	跨位置组合已过滤记忆 + SiLU 非线性
与 n-gram 关系	查表已见 2–3 token input	在记忆向量序列上再对齐 n-gram 间隔 $d$ 做融合
仍不做的事	—	不替代 Attention（全局仍靠 Attn/MoE）

直觉：Step 1–4 给每个位置一张「局部词典卡片」；Step 6 决定信不信；Step 7 把 间隔为 3 的多张卡片 合成一句更长的「记忆短语」，再写入 backbone。

效应	说明
更强局部组合	超出单次 n-gram 槽位的短语级静态先验（仍局部）
非线性	SiLU(Conv(·)) 在残差旁路；纯线性叠加 $w=4$ 的表达能力有限
因果安全	因果卷积不看未来 token，训练/推理一致
序列前端	$t<9$ 时有效 tap 变少（边界），与因果 LM 常见行为一致

相对 Engram 查表 + gate：增量很小。
Depthwise Conv1d：每 token 仅 $w=4$ 次 tap 乘加（按 channel 分组），与 $d_{\mathrm{model}}$ 线性，远低于同层 Attention。
反向：多 4 个历史位置的 gate/投影梯度，仍 $O(w)$ 常数。

项	RF=1	RF=10（有 Step 7）
每 decode step 查表	$O(1)$ / token	不变 $O(1)$
Gate	1 次 / token	不变
额外 Conv	无	$w=4$ tap depthwise，$O(w\cdot d_{\mathrm{hc}})$，常数级
相对 Attention	Engram 仍偏 memory-bound 查表	Conv 通常 < 5% Engram 块（实现依赖）

要点：跨度 10 不等于每步读 10 次表；只是卷积多读 3 个历史 $\tilde{v}$（间隔 3），计算量由 $w$ 决定，不由 10 决定。

Decode 需保留最近 $\tilde{v}$（至少 $t{-}9$）供 dilated conv 取用，或等价地保留 Conv 环形缓冲。
额外显存：$\approx 9 \times d_{\mathrm{mem}} \times \mathrm{sizeof}(\mathrm{fp})$ 每序列每 Engram 层，相对 KV cache 通常可忽略。
Prefill：全长并行，与训练前向同构；仍无未来泄漏。