名词解释:Birkhoff 多面体

← 返回 mHC §3.2 · §3 双随机流形 · HC 基础 · 答疑目录


一句话

Birkhoff 多面体 $\mathcal{B}_n$ = 所有 $n \times n$ 双随机矩阵 的集合 = $n$ 阶 置换矩阵凸包;mHC 把 HC 混合矩阵投影到 $\mathcal{B}_n$,使多路残差流混合为 凸组合


1. 双随机矩阵

$H \in \mathbb{R}^{n \times n}$ 若满足:

$$ H_{ij} \ge 0;\quad \sum_j H_{ij}=1;\forall i;\quad \sum_i H_{ij}=1;\forall j $$

则称 $H$ 为 双随机矩阵(doubly stochastic):每行、每列都是 非负且和为 1 的概率分布。


2. Birkhoff 多面体 = 置换矩阵的凸包

记 $\mathcal{B}_n$ 为 全体 $n \times n$ 双随机矩阵的集合,则(Birkhoff–von Neumann 定理):

$$ \mathcal{B}n = \mathrm{conv},{, P\pi \mid \pi \in S_n ,} $$

概念含义
置换矩阵 $P_\pi$每行、每列 恰有一个 1,其余为 0(对应排列 $\pi$)
凸包 $\mathrm{conv}{\cdots}$允许对顶点做 非负权重加权平均,权重和为 1
Birkhoff 多面体双随机矩阵在 $\mathbb{R}^{n \times n}$ 中形成的 凸多面体(有界、闭、凸)

直觉:任意双随机矩阵都可以写成「若干个置换矩阵的加权平均」;极端点(顶点)就是置换矩阵本身。

$n{=}2$ 小例:$H=\begin{pmatrix}0.7&0.3\0.4&0.6\end{pmatrix}$ 可视为两个置换矩阵(恒等与交换)的凸组合。


3. 为何 mHC 论文叫它「流形」

说法含义
严格几何$\mathcal{B}_n$ 是 多面体(polytope),维数 $n^2-n$
论文 / 工程口语训练时在 $\mathbb{R}^{n^2}$ 上优化 logits,前向用 Sinkhorn 把矩阵 约束回 $\mathcal{B}_n$ → 称 Manifold-Constrained双随机流形

mHC §3.4Sinkhorn–Knopp 投影配合:无约束 $\tilde{H}$ → 逼近 $H \in \mathcal{B}_n$。


4. 对残差混合的含义

把 $n$ 条残差流堆叠为 $X$,混合 $H \in \mathcal{B}_n$ 后第 $i$ 行:

$$ (X')i = \sum{j=1}^{n} H_{ij} X_j, \quad H_{ij}\ge 0,; \sum_j H_{ij}=1 $$

即 $(X')_i$ 是各条流的 凸组合单层不放大 最大流范数


5. 易混名词

名词领域与 Birkhoff 多面体
SWA优化 / 训练Stochastic Weight Averaging;与 Birkhoff 无关
SWA(V4)AttentionSWA(Sliding Window Attention)
单纯形概率行随机矩阵集合;双随机 = 行 + 列 都随机,更严
置换矩阵线性代数$\mathcal{B}_n$ 的 顶点,不是全体

6. 相关阅读

文档内容
mHC§3双随机定义 · Sinkhorn · 与 HC 对照
Hyper-Connections无约束 HC 为何不 stable