Hyper-Connections

← 中文导读 · ← 仓库首页（EN） · ← mHC 主文档 · ← 算法线导读 · mHC §3 双随机流形 · V4 梗概 · Raschka §8 论文：mHC arXiv:2512.24880 §2（HC 为 mHC 前置）· 落地：V4 arXiv:2606.19348

一句话

Hyper-Connections（HC） 把 Transformer 每层 单条残差流 扩成 $n$ 条并行残差流，用可学习矩阵 pre / post / comb 在流与子层（Attention / FFN）之间混合；动机是 加宽残差信息高速公路，但无约束时 破坏恒等映射 → 深层信号可 指数放大，需 mHC 的 双随机流形 约束后才可大规模训练。

算法线位置

方向	文档
本文（HC 基础）	mHC 节点前置概念；算法线 ④ 的上游
下游（约束版）	mHC（含 §3 双随机流形）
正交模块	CSA/HCA（Attention / KV）· MoE 线（FFN 路由）

1. 标准残差 vs HC

1.1 标准 Transformer 残差

一层子模块（Attention 或 FFN）的典型写法：

$$ x_{l+1} = x_l + F_l(x_l) $$

性质	含义
单流	隐状态 $x_l \in \mathbb{R}^d$ 只有一条载体
恒等路径	即使 $F_l \approx 0$，仍有 $x_{l+1} \approx x_l$
深度可训	梯度可沿 $+x_l$ 直通浅层

1.2 HC 改了什么

HC 不替换 Attention / FFN 内部算子，而是改 残差拓扑：

把每层隐状态扩成 $n$ 条并行残差流（扩展率 $n$，mHC / V4 常见 $n{=}4$）；
子层输入由 $n$ 条流 加权汇聚 得到；
子层输出再写回 $n$ 条流（可与原流 组合混合）。

直觉：$n$ 条并行「信息高速公路」，层间连接比单流残差 更丰富。

HC 残差拓扑：单流 vs n 路并行流 + H^pre / F_l / H^post+H^comb

图示详情

2. 多路残差流

记第 $l$ 层、第 $t$ 个 token 处 $n$ 条残差流为：

$$ \mathbf{r}l = (r{l,1}, \ldots, r_{l,n}), \quad r_{l,i} \in \mathbb{R}^d $$

符号	含义
$n$	扩展率（parallel stream count）
$r_{l,i}$	第 $i$ 条残差流上的隐状态切片（实现上常为 $d$ 维向量或 $d/n$ 维分片，依实现而定）
初始化	通常由 embedding 或上一层输出复制 / 投影到 $n$ 路

相对单流 $x_l$，HC 在宽度上多了 $n$ 路，参数与激活的 读写模式 从「一条链」变成「$n$ 路网状混合」。

3. 三组混合矩阵

mHC 论文对每层子模块（Attention 或 FFN）使用三组可学习混合（裸 HC 为 无约束实矩阵；mHC 再投影到双随机流形）：

矩阵	形状（直觉）	作用
$H^{\mathrm{pre}}$	$1 \times n$（或列向量）	$n$ 条残差流 → 汇聚成子层输入 $\tilde{x}_l = \sum_i H^{\mathrm{pre}}i , r{l,i}$
$H^{\mathrm{post}}$	$n \times 1$	子层输出 $F_l(\tilde{x}_l)$ → 写入某条主流的权重
$H^{\mathrm{comb}}$	$n \times n$	子层输出与各路残差的组合混合（写回 $n$ 条流）

另有层间或块级 $H_l^{\mathrm{res}}$（$n \times n$）在 相邻层 / 子层之间 混合 $n$ 条流；深层复合 $\prod_l H_l^{\mathrm{res}}$ 是 不稳定性的主要来源（见 §5）。

4. 单层数据流

与 mHC 主文档 §4 及 vLLM MHCPreOp / MHCPostOp 对齐：

Pre（进 Attention / FFN 前）

对 $n$ 条残差流做 Norm（如 RMSNorm）。
由归一化后的流（及可选分支特征）算 mix logits → 得 $H^{\mathrm{pre}}$。
子层输入：$\tilde{x}_l = \sum_i H^{\mathrm{pre}}i \cdot r{l,i}$。

子层

$$ y_l = F_l(\tilde{x}_l) \quad (F_l = \text{Attention 或 FFN/MoE}) $$

Post（出子层后）

$$ r_{l+1,j} = H^{\mathrm{post}}j \cdot y_l + \sum_i H^{\mathrm{comb}}{ji} \cdot r_{l,i} $$

即：子层输出与各路残差按 post / comb 权重写回第 $l{+}1$ 层的 $n$ 条流。

阶段	单流残差	HC
输入	$x_l$ 直连 $F_l$	$n$ 路先混合再进 $F_l$
输出	$x_l + F_l(x_l)$	$F_l$ 输出分流写回 $n$ 路
恒等性	$F_l{=}0 \Rightarrow x_{l+1}{=}x_l$	一般不成立（混合矩阵任意）

5. 为何裸 HC 不稳定

问题	机制
恒等映射被破坏	即使 $F_l \approx 0$，$H^{\mathrm{pre/post/comb}}$ 仍可对 $n$ 路特征重分配、放大
深层复合放大	$\prod_l H_l^{\mathrm{res}}$ 若谱半径 $>1$，范数可指数增长
论文观测	无约束 HC 可出现 ~3000× 量级信号放大，训练万步级崩溃

标准残差把「子层增量」与「恒等捷径」解耦；HC 把二者都变成 可学习线性混合，表达力↑，但 缺少保范数结构。

mHC 的修复：把上述混合矩阵 投影到双随机流形 $\mathcal{B}_n$，使混合变为 凸组合 / 加权平均 → 见 mHC §3。

6. HC 与 mHC、V4 的关系

	HC	mHC
残差拓扑	$n$ 路并行 + 可学习混合	同 HC 拓扑
混合矩阵	无约束（或弱约束）	Sinkhorn–Knopp → 双随机
训练	大规模易不稳	V4 / 论文报告可训可部署
文档	本文	mHC

版本	HC / mHC
V3 / V3.2	无 HC、mHC
独立论文 2512.24880	提出 HC + mHC
V4	mHC 作为残差路径标准组件（与 CSA/HCA 等正交）

7. 与 Attention / MoE 的边界

模块	HC 是否涉及
MLA / DSA / CSA / HCA	否 — 改 Attention 与 KV，不改残差拓扑
MoE 路由	否 — HC 在子层前后混合残差流；expert 选择在 FFN 内部
ESS / KV layout	否 — infra 管 cache，不管残差宽化

HC 回答：残差路径加宽时如何连，不回答长上下文或稀疏注意力本身。

8. 上下游

方向	文档
下游	mHC（§3 双随机流形）
同代 V4	DeepSeek-V4 · CSA/HCA
外部解读	Raschka §8

参考

Xie et al. mHC: Manifold-Constrained Hyper-Connections. arXiv:2512.24880, 2025（§2 Hyper-Connections）.
DeepSeek-AI. DeepSeek-V4. arXiv:2606.19348, 2026.
Raschka. From DeepSeek V3 to V3.2 — §8 mHC 附录.

DeepSeek 技术报告