《LLM Interview Handbook》第 14 章：语言模型的优化与数学基础（全译文）

说明
底本为 Language Models Interview Handbook（© 2026 Lamhot Siagian, AI Engineering Insider）；个人学习整理，转载请注明出处，勿用于商业再发行。

第 14 章　语言模型的优化与数学基础

本章概述

面试官经常用数学类问题检验候选人是否真正理解 Transformer 为何有效，而不是只会背系统设计词汇。目标很少是让你凭记忆推出每一个方程；更重要的是表明你理解注意力分数如何变成概率、梯度如何穿过嵌入表与线性层，以及为何 交叉熵、KL 散度 这类函数在训练流程里如此常见。

本章聚焦在 LLM 工作中反复出现的那一小撮数学工具：softmax、点积、交叉熵、梯度、雅可比矩阵、特征值/特征向量分析、KL 散度，以及激活函数的导数。最强的回答会解释方程在操作上意味着什么，以及工程师为何要在意。

Interview Anchor　面试锚点

维度	内容
面试官真正想测的	能否在讲清训练循环与优化选择时，不丢掉工程实务这条主线。
高质量回答套路	先定义数学对象，说明优化器在最小化什么，再把它连到硬件效率、稳定性与泛化。
常见低分答法	把答案变成孤立的公式，却不说它们在真实系统里为何重要。

INTERVIEW CHEATSHEET　面试速记条

项	要点
要表达的亮点	优化解释在算力约束下，模型参数如何从随机初始化走向有用行为。
最佳举例	交叉熵、梯度、批量大小与学习率都重要，因为它们共同塑造稳定性与收敛速度。
可追问方向	提到梯度累积、优化器选择与混合精度。
资深补充	把数学层面的选择与服务成本、模型质量挂钩。
切忌这样说	只背方程，却不把它系到训练动态或失效模式。

下面的优化示意图把训练循环压缩为核心机制：让后文的数学讨论始终锚定在梯度流、损失信号与参数更新上，而不是飘在抽象公式里。

图 14.1（A minimal forward-and-backward training view.）：

What Strong Candidates Sound Like

书里有一句可背的口述（译文）：「数学之所以重要，是因为每一个优化选择不仅影响训练损失，还影响稳定性、硬件效率，以及经济上能达到的质量水平。」

问答（沿用书中编号 Q122–Q131）

Q122. softmax 在注意力机制里如何被使用？

答。 Softmax 把原始相似度分数变成在 token 上的归一化分布。在自注意力里，模型先算当前 token 的 query 与其它 token 的 key 的相似度；Softmax 再把这些分数变成和为 1 的权重，让模型按权重比例混合 value 向量，而不是对单个 token 做硬选择。

实务直觉是：Softmax 让注意力可微，且在不同候选之间可比。没有它，注意力分数会无界，也更难解释成相对重要性。

Q123. 自注意力里为何会出现点积？

答。点积给出两个向量之间对齐程度的一种快速度量。在注意力中，query–key 点积相当于在问：「对当前 token 来说，另一个 token 看起来有多相关？」 数值越大，对齐越强，经 softmax 后注意力权重也越大。

好的面试回答还会提到缩放：由于原始点积会随向量维度变大，Transformer 会除以 key 维度的平方根，以在训练过程中保持分数的数值稳定（Vaswani et al., 2017）。

Q124. 为何语言建模的标准损失是交叉熵？

答。交叉熵衡量预测概率分布与真实目标分布有多接近。在下一词预测里，真实分布几乎把所有概率质量放在正确的下一词上；若模型给该词的概率太低，交叉熵就会惩罚它。

工程师偏爱交叉熵，因为它给出清晰的梯度、与 softmax 输出自然配合，且与概率预测质量一致。人们谈到困惑度（perplexity）时，通常指的是平均交叉熵的指数变换。

Q125. 反向传播时，如何计算嵌入的梯度？

答。每个 token 的查表相当于从嵌入矩阵里取出一行。反向传播时，损失梯度会沿用到前向里实际出现过的那些行；优化器再更新这些行，使类似上下文在将来产生更好的预测。

直觉很简单：嵌入表不过是又一个可训练参数矩阵。主要差别在于稀疏性：每一步里，只有本 batch 中出现的 token 对应的嵌入会得到直接更新。

Q126. 深度学习里雅可比矩阵表示什么？

答。雅可比矩阵包含向量值函数对其输入的全部偏导数。在深度学习中，它描述输入每个维度的小变化如何影响输出的每个维度。当某一层把一向量变换成另一向量、且梯度必须准确回传穿过该变换时，这就很重要。

面试官未必要你完整推导；很多时候他们想看你懂不懂：向量函数的反向传播依赖的是结构化的偏导数，而不是单一的标量斜率。

Q127. 特征值与特征向量如何与降维相联系？

答。在 PCA 等降维方法里，特征向量标识数据变化的主要方向，特征值说明每个方向解释了多少方差。保留领先的特征向量可以在尽量保留重要结构的同时压缩数据。

在 LLM 实务中，你通常不会在 Transformer 里现场算 PCA；但要理解为何低维投影、潜空间与压缩的特征表示仍能保留有用结构，这套想法仍然有用。

Q128. 什么是 KL 散度，在 LLM 训练里何时有用？

答。 KL 散度度量一个概率分布与另一个相差多少。在 LLM 工作中，它出现在：把模型预测分布与参考分布比较、用教师蒸馏学生、或约束更新后的策略不要偏离基线太远等场景。

强答应强调：KL 散度不是对称的「距离」，而是一种有方向的惩罚。语言模型训练与对齐常常依赖以受控方式保持分布接近，而不仅是最大化逐点准确率。

Q129. 为何 ReLU 的导数在深层网络里重要？

答。 ReLU 对负输入输出 0，对正输入原样通过；因此其导数在负侧为 0，在正侧为 1。这使得它计算简单，并在许多设定下比旧的饱和型非线性（如 sigmoid）更利于梯度流动。

实务要点不是「ReLU 完美」，而是其导数规避了部分严重收缩行为——而那正是早年深层网络难以优化的原因之一。讨论梯度消失时，这一历史教训仍然值得提。

Q130. 链式法则如何使反向传播成为可能？

答。神经网络是许多函数的复合。链式法则让我们通过从输出层向输入逐步相乘局部导数，来计算整个复合函数的导数。反向传播本质上就是高效地记账，重复应用链式法则。

面试里可以把链式法则框定为：正是它把深层模型从黑箱变成可训练系统。没有它，就很难把最终预测误差分配到更靠前的层。

Q131. 残差连接与归一化如何缓解梯度消失？

答。残差连接提供短路路径，让梯度可以直接流过，降低信号在穿过多层时消失的概率。归一化有助于把激活与更新保持在稳定的数值范围，使优化不那么脆弱。

Transformer 尤其受益于这一组合：若没有它，很深的注意力堆栈会难训练得多。强答应把数学连到工程结果：这些机制是极深 Transformer 在实务上可行的一部分原因。

下面的损失函数小例是为了让优化数学保持可解释。公式重要，但代码帮助读者把它们系回概率分布与训练信号。

Listing 14.1（书中摘录）：A tiny Python example for cross-entropy and KL divergence

import numpy as np

target = np.array([0.0, 1.0, 0.0])
pred   = np.array([0.1, 0.8, 0.1])
eps = 1e-12

cross_entropy = -(target * np.log(pred + eps)).sum()

teacher = np.array([0.05, 0.9, 0.05])
kl = (teacher * (np.log(teacher + eps) - np.log(pred + eps))).sum()

print(f"cross_entropy={cross_entropy:.4f}")
print(f"kl_divergence={kl:.4f}")

第 14 章 语言模型的优化与数学基础