《LLM Interview Handbook》第 5 章：预训练目标、模型家族与经典对照（全译文）

说明
底本为 Language Models Interview Handbook（© 2026 Lamhot Siagian, AI Engineering Insider）；个人学习整理，转载请注明出处，勿用于商业再发行。

第 5 章　预训练目标、模型家族与经典对照

本章概述

现代语言模型并非一蹴而就。它们经历了一连串设计转向：从 n-gram 统计到分布式表示，从循环序列模型到 transformer，再从窄任务模型到广泛预训练的基础模型（foundation model）。理解预训练目标之所以重要，是因为它塑造了模型天然擅长什么。BERT 式目标强调双向表征学习，GPT 式目标则强调下一 token 生成与开放式续写（Devlin et al., 2019; Brown et al., 2020）。

本章还要厘清面试里常被混用的模型家族用语。自回归（autoregressive）、掩码（masked）、生成式（generative）、判别式（discriminative）、序列到序列（sequence-to-sequence）与基础模型指向的是不同比较维度。高分回答会把这些轴分开讲，而不是把它们当成可互换的标签。

Interview Anchor　面试锚点

维度	内容
面试官真正想测的	能否按目标与用例比较模型家族，而不是只背品牌名。
高质量回答套路	讲清预训练目标、它鼓励的行为类型，再连到下游长短板与适配手段。
常见低分答法	抽象地说自回归与掩码模型谁「更好」。应绑定任务契合度。

INTERVIEW CHEATSHEET　面试速记条

项	要点
要表达的亮点	目标决定模型高效学会什么：续写、双向用上下文、指令遵循，还是迁移行为。
最佳举例	对照 GPT 式下一 token 预测与 BERT 式掩码预测，说明各自在何种设定下出彩。
可追问方向	讨论任务统一时，可提 T5 式「文本到文本」 framing。
资深补充	会在一次回答里同时比较训练目标、推理行为与适配成本。
切忌这样说	问题其实在问架构或训练目标，却只用某家公司产品名来答。

作者在表前说，这张模型家族表是给预训练章节做的紧凑参照，让人在扎进面试题之前，先把训练目标和架构家族对上号。

表 5.1（A compact map of major model families）译文：

家族思路	典型目标	最佳心智模型
自回归语言模型（Autoregressive LM）	预测下一 token	极适合自由生成与续写
掩码语言模型（Masked LM）	从周围上下文恢复被隐藏的 token	强在表征学习与理解类任务
Seq2Seq 模型	把一个序列映射成另一个序列	输入与输出角色分明时很有用
基础模型（Foundation model）	广泛预训练后再做适配	一个通用底座在多下游任务上复用

What Strong Candidates Sound Like

书里有一句可背的口述（译文）：「从学习目标出发比较模型家族会更轻松，因为目标悄悄决定了模型在下游使用时擅长高效完成什么。」

问答（沿用书中编号 Q31–Q40）

Q31. 什么定义了「语言模型」，为何又叫「大（large）」？

答。语言模型估计 token 序列的概率。简单说，它学习在给定语境下下一个 token 更可能是谁，或哪个 token 最贴合上下文——取决于训练目标。之所以叫「大」，是因为现代版本以极大参数量、极大数据与极高算力预算训练，从而内化了关于语言及许多下游任务的广泛统计规律。

高分面试回应会把规模与能力挂钩，也会挂钩成本。「大」不只等于更多参数，还意味着更长训练、更复杂基础设施、更大的上下文管理难题，以及幻觉、分布偏移、部署成本高昂等新失败模式。

Q32. 自回归模型与掩码模型有何不同？

答。 自回归模型学习在已有前缀条件下预测下一 token；生成时从左到右读文本，天然适合补全、对话、摘要与编程辅助。掩码模型则遮住部分 token，让模型从左右两侧上下文恢复它们，因而在表征学习、分类与偏检索的理解任务上很强。

最干净的讲法是把生成与表征分开：自回归目标训练模型续写序列；掩码目标训练模型构建丰富的上下文内部表示。两者都强，但为模型准备的默认强项不同。

Q33. 什么是掩码语言建模（MLM），它教会模型什么？

答。 掩码语言建模（masked language modeling, MLM）随机隐藏一部分 token，要求模型从周围上下文预测它们。由于被遮 token 可同时依赖前后词，模型学到的是双向上下文表征，而非纯从左到右的生成策略。

面试里可说：MLM 的价值在于教语境理解，而不只是下一 token 续写。这也是 BERT 式预训练在搜索、排序、分类与句对任务上如此有效的原因（Devlin et al., 2019）。

Q34. 什么是下一句预测（NSP），历史上为何重要？

答。 下一句预测（next sentence prediction, NSP）是一种预训练任务：模型判断一句是否自然接在另一句之后。在原始 BERT 设定里，它帮助模型学习句对之间的粗粒度篇章关系，对自然语言推断、问答等任务尤其有用（Devlin et al., 2019）。

如今，NSP 作为万能配方的地位已不如当年，更像历史里程碑：后续工作表明，某些句级任务不必单独依赖 NSP loss 也能学会；但面试官仍会问，因为它说明预训练目标如何塑造下游行为。

Q35. 语言模型如何处理未登录词（OOV）？

答。现代语言模型通常用子词分词来避免「硬」OOV：不必每个整词都在词表里，而是把陌生词拆成更小的已知片段。罕见的医学术语或新产品名，因此仍可当作一串熟悉的子词单元处理。

实务教训是：OOV 处理从词典设计转向了分词器设计。模型对全新术语的语义未必很准，但仍能摄入与操作文本，因为分词器能把它分解成已知碎片。

Q36. 什么是序列到序列（Seq2Seq）模型，何处最有用？

答。 序列到序列（sequence-to-sequence, Seq2Seq）模型把一个序列映射成另一个序列，长度与表面形式常不同。翻译、摘要与结构化转换是经典例子：都有明确的源序列与目标序列。

有面试水准的答法是：Seq2Seq 是一种任务 framing，不是单一架构。旧式 Seq2Seq 多用带注意力的 RNN；新式常用 encoder–decoder transformer。核心仍是：在保留正确信息的前提下，把输入序列变成目标序列。

Q37. Transformer 为何取代了许多基于 RNN 的 Seq2Seq 系统？

答。 Transformer 取代大量循环 Seq2Seq，是因为自注意力更好地处理长程依赖，且训练时并行度高得多。循环模型必须逐步处理 token，训练慢，远距离信号传播也更难。Transformer 让同一层里每个 token 都能 attend 到其它相关 token，从而同时提升规模与表现（Vaswani et al., 2017）。

面试里可连到运维与精度：更快的并行训练使更大数据与更大模型可行，这是基础模型规模兴起的关键一环。

Q38. 基础模型与任务专用模型有何区别？

答。 基础模型在大而多样的语料上广泛预训练，之后可适配多种任务。任务专用模型则通常为较窄工作训练或微调，如情感分类、实体抽取或领域检索。权衡是广度对专精。

强答会讲：基础模型把精力从重复的单任务训练转向适配、提示、检索或轻量调参。强大之处在于一个底座可支撑多种产品；广度也会带来可控性、安全与成本方面的挑战。

Q39. 生成式模型与判别式模型有何区别？

答。 生成式模型学习建模或近似数据如何产生，因而能生成新样本（如文本续写）。判别式模型专注把输入映射到标签或决策，如预测评论正面或负面。实务中界线不总清晰：很强的生成模型也常能通过提示完成判别任务。

清晰的面试说法是：生成式通常更灵活；判别式在窄任务上往往更省算、更易校准。选哪类取决于产品要开放式生成还是受控预测。

Q40. LLM 与传统统计语言模型有何不同？

答。传统统计语言模型（如 n-gram）从局部 token 计数估计概率，通常依赖短而固定的历史。大语言模型则学习分布式表示，用深层架构捕捉更长、更丰富的上下文，从而超越单纯记忆计数，并在多任务间迁移。

有帮助的面试 framing：经典语言模型大体是带平滑的查表式；现代 LLM是表征学习者。经典系统可解释、便宜，但难以匹敌基于 transformer 的 LLM 在语境灵活性、推理式行为与迁移学习上的能力。

第 5 章 预训练目标、模型家族与经典对照