说明
底本为 Language Models Interview Handbook(© 2026 Lamhot Siagian, AI Engineering Insider);个人学习整理,转载请注明出处,勿用于商业再发行。
第 14 章 语言模型的优化与数学基础
本章概述
面试官经常用数学类问题检验候选人是否真正理解 Transformer 为何有效,而不是只会背系统设计词汇。目标很少是让你凭记忆推出每一个方程;更重要的是表明你理解注意力分数如何变成概率、梯度如何穿过嵌入表与线性层,以及为何 交叉熵、KL 散度 这类函数在训练流程里如此常见。
本章聚焦在 LLM 工作中反复出现的那一小撮数学工具:softmax、点积、交叉熵、梯度、雅可比矩阵、特征值/特征向量分析、KL 散度,以及激活函数的导数。最强的回答会解释方程在操作上意味着什么,以及工程师为何要在意。
Interview Anchor 面试锚点
| 维度 | 内容 |
|---|---|
| 面试官真正想测的 | 能否在讲清训练循环与优化选择时,不丢掉工程实务这条主线。 |
| 高质量回答套路 | 先定义数学对象,说明优化器在最小化什么,再把它连到硬件效率、稳定性与泛化。 |
| 常见低分答法 | 把答案变成孤立的公式,却不说它们在真实系统里为何重要。 |
INTERVIEW CHEATSHEET 面试速记条
| 项 | 要点 |
|---|---|
| 要表达的亮点 | 优化解释在算力约束下,模型参数如何从随机初始化走向有用行为。 |
| 最佳举例 | 交叉熵、梯度、批量大小与学习率都重要,因为它们共同塑造稳定性与收敛速度。 |
| 可追问方向 | 提到梯度累积、优化器选择与混合精度。 |
| 资深补充 | 把数学层面的选择与服务成本、模型质量挂钩。 |
| 切忌这样说 | 只背方程,却不把它系到训练动态或失效模式。 |
下面的优化示意图把训练循环压缩为核心机制:让后文的数学讨论始终锚定在梯度流、损失信号与参数更新上,而不是飘在抽象公式里。
图 14.1(A minimal forward-and-backward training view.):

What Strong Candidates Sound Like
书里有一句可背的口述(译文):「数学之所以重要,是因为每一个优化选择不仅影响训练损失,还影响稳定性、硬件效率,以及经济上能达到的质量水平。」
问答(沿用书中编号 Q122–Q131)
Q122. softmax 在注意力机制里如何被使用?
答。 Softmax 把原始相似度分数变成在 token 上的归一化分布。在自注意力里,模型先算当前 token 的 query 与其它 token 的 key 的相似度;Softmax 再把这些分数变成和为 1 的权重,让模型按权重比例混合 value 向量,而不是对单个 token 做硬选择。
实务直觉是:Softmax 让注意力可微,且在不同候选之间可比。没有它,注意力分数会无界,也更难解释成相对重要性。
Q123. 自注意力里为何会出现点积?
答。 点积给出两个向量之间对齐程度的一种快速度量。在注意力中,query–key 点积相当于在问:「对当前 token 来说,另一个 token 看起来有多相关?」 数值越大,对齐越强,经 softmax 后注意力权重也越大。
好的面试回答还会提到缩放:由于原始点积会随向量维度变大,Transformer 会除以 key 维度的平方根,以在训练过程中保持分数的数值稳定(Vaswani et al., 2017)。
Q124. 为何语言建模的标准损失是交叉熵?
答。 交叉熵衡量预测概率分布与真实目标分布有多接近。在下一词预测里,真实分布几乎把所有概率质量放在正确的下一词上;若模型给该词的概率太低,交叉熵就会惩罚它。
工程师偏爱交叉熵,因为它给出清晰的梯度、与 softmax 输出自然配合,且与概率预测质量一致。人们谈到困惑度(perplexity)时,通常指的是平均交叉熵的指数变换。
Q125. 反向传播时,如何计算嵌入的梯度?
答。 每个 token 的查表相当于从嵌入矩阵里取出一行。反向传播时,损失梯度会沿用到前向里实际出现过的那些行;优化器再更新这些行,使类似上下文在将来产生更好的预测。
直觉很简单:嵌入表不过是又一个可训练参数矩阵。主要差别在于稀疏性:每一步里,只有本 batch 中出现的 token 对应的嵌入会得到直接更新。
Q126. 深度学习里雅可比矩阵表示什么?
答。 雅可比矩阵包含向量值函数对其输入的全部偏导数。在深度学习中,它描述输入每个维度的小变化如何影响输出的每个维度。当某一层把一向量变换成另一向量、且梯度必须准确回传穿过该变换时,这就很重要。
面试官未必要你完整推导;很多时候他们想看你懂不懂:向量函数的反向传播依赖的是结构化的偏导数,而不是单一的标量斜率。
Q127. 特征值与特征向量如何与降维相联系?
答。 在 PCA 等降维方法里,特征向量标识数据变化的主要方向,特征值说明每个方向解释了多少方差。保留领先的特征向量可以在尽量保留重要结构的同时压缩数据。
在 LLM 实务中,你通常不会在 Transformer 里现场算 PCA;但要理解为何低维投影、潜空间与压缩的特征表示仍能保留有用结构,这套想法仍然有用。
Q128. 什么是 KL 散度,在 LLM 训练里何时有用?
答。 KL 散度度量一个概率分布与另一个相差多少。在 LLM 工作中,它出现在:把模型预测分布与参考分布比较、用教师蒸馏学生、或约束更新后的策略不要偏离基线太远等场景。
强答应强调:KL 散度不是对称的「距离」,而是一种有方向的惩罚。语言模型训练与对齐常常依赖以受控方式保持分布接近,而不仅是最大化逐点准确率。
Q129. 为何 ReLU 的导数在深层网络里重要?
答。 ReLU 对负输入输出 0,对正输入原样通过;因此其导数在负侧为 0,在正侧为 1。这使得它计算简单,并在许多设定下比旧的饱和型非线性(如 sigmoid)更利于梯度流动。
实务要点不是「ReLU 完美」,而是其导数规避了部分严重收缩行为——而那正是早年深层网络难以优化的原因之一。讨论梯度消失时,这一历史教训仍然值得提。
Q130. 链式法则如何使反向传播成为可能?
答。 神经网络是许多函数的复合。链式法则让我们通过从输出层向输入逐步相乘局部导数,来计算整个复合函数的导数。反向传播本质上就是高效地记账,重复应用链式法则。
面试里可以把链式法则框定为:正是它把深层模型从黑箱变成可训练系统。没有它,就很难把最终预测误差分配到更靠前的层。
Q131. 残差连接与归一化如何缓解梯度消失?
答。 残差连接提供短路路径,让梯度可以直接流过,降低信号在穿过多层时消失的概率。归一化有助于把激活与更新保持在稳定的数值范围,使优化不那么脆弱。
Transformer 尤其受益于这一组合:若没有它,很深的注意力堆栈会难训练得多。强答应把数学连到工程结果:这些机制是极深 Transformer 在实务上可行的一部分原因。
下面的损失函数小例是为了让优化数学保持可解释。公式重要,但代码帮助读者把它们系回概率分布与训练信号。
Listing 14.1(书中摘录):A tiny Python example for cross-entropy and KL divergence
1 | import numpy as np |