fooSynaptic

Good luck

《LLM Interview Handbook》第 13 章:微调、PEFT 与适配策略(全译文)

说明
底本为 Language Models Interview Handbook(© 2026 Lamhot Siagian, AI Engineering Insider);个人学习整理,转载请注明出处,勿用于商业再发行。


第 13 章 微调、PEFT 与适配策略

本章概述

基础模型起点,但生产系统常需要更窄的行为:更好的指令遵循领域适配更低延迟,或更稳定的输出。微调是路径之一,但它处在一个谱系上:包括监督微调指令微调偏好优化,以及 LoRA参数高效适配(Ouyang et al., 2022; Hu et al., 2021)。

最强的面试回答会区分微调能修什么不能修什么。微调在行为塑造与专门化上很强,但替代不了检索质量、评估纪律或产品级控制


Interview Anchor 面试锚点

维度 内容
面试官真正想测的 能否用预算意识的工程视角比较提示工程、PEFT、LoRA、QLoRA全量微调
高质量回答套路 从要补齐的行为缺口出发,再谈适配强度、数据质量、算力成本、可迁移性与运维风险
常见低分答法 把 LoRA 或 QLoRA 说成普适最优。它们是强折中,不是万能答案

INTERVIEW CHEATSHEET 面试速记条

要点
要表达的亮点 适配策略应匹配行为缺口、算力预算、延迟目标与部署灵活性
最佳举例 先改进提示与检索,再在需要持久行为改变且成本适中时用 PEFT
可追问方向 提到灾难性遗忘评估集与回滚策略
资深补充 讨论部署与治理,不止训练机理。
切忌这样说 在证明问题不是检索或提示设计之前就全量微调

适配选择表帮助把「提示 vs PEFT vs 全量微调」的边界答成原则决策,而不是个人偏好。

表 13.1:在提示改动、PEFT 与全量微调之间做选择

选项 最适用 取舍
提示与检索更新 行为缺口主要在指令或证据 最快、最安全,但对更深层的风格或策略适配有限
LoRA 需要持久行为改变且算力可承受 对许多企业场景是质量与效率的较好平衡
QLoRA 硬件紧张内存是瓶颈 适合实验,但仍需严谨评估
全量微调 任务关键且适配必须很深 成本与运维复杂度最高

Listing 13.1(书中摘录):面试里常讨论的 PEFT 配置片段——锚定 adapter、rank、alpha、目标模块 等术语。

1
2
3
4
5
6
7
8
9
10
from peft import LoraConfig

config = LoraConfig(
r=16,
lora_alpha=32,
lora_dropout=0.05,
bias="none",
target_modules=["q_proj", "v_proj"],
task_type="CAUSAL_LM",
)

What Strong Candidates Sound Like

书里有一句可背的口述(译文):「正确的适配方法是最便宜、能可靠关闭已度量的行为缺口、且不制造治理与维护痛苦的那一种。」


图 13.1:模型适配与对齐的简化阶梯(基座模型 → SFT/指令微调 → 偏好微调 → 可上线策略模型;全调或 PEFT/LoRA 标注在途中)。

图 13.1:模型适配与对齐的简化阶梯

表 13.2:实务中的适配策略

方法 最擅长 主要取舍
提示 快速迭代与多变任务 难任务上一致性较弱
检索 知识锚定与新鲜度 质量取决于证据选择
LoRA / PEFT 高效的领域或任务适配 仍要数据、评估与模型治理
全量微调 最大专门化 算力与维护成本最高

问答(Q111–Q121)

Q111. 全量微调与参数高效微调有何区别?

答。全量微调更新全部或大部分权重,可带来强适配,但在算力、内存与部署复杂度上昂贵。参数高效方法只更新一小部分参数或增加轻量可训模块,使适配便宜得多

面试中要说:PEFT 在你需要许多任务变体、更快迭代或更低服务开销时很吸引人;全量微调在需要最大任务适配且资源允许时仍有价值。

Q112. 什么是 LoRA 与 QLoRA?二者如何不同?

答。LoRA(低秩适配)冻结基座模型,学习小的低秩矩阵以高效修改选定的 Transformer 权重。QLoRA在相同适配思路上,把冻结的基座以低比特量化,从而在有限内存下也能微调大得多的模型。

实务区别:LoRA重在减少可训参数;QLoRA还显著压低训练期内存占用——因此在普通硬件上适配大型开放模型时非常有用(Hu et al., 2021; Dettmers et al., 2023)。

Listing 13.2(书中摘录):带 LoRA 适配器的最小 PEFT 工作流示例。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
from transformers import AutoModelForCausalLM
from peft import LoraConfig, get_peft_model

base_model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.1-8B")

config = LoraConfig(
r=16,
lora_alpha=32,
lora_dropout=0.05,
target_modules=["q_proj", "v_proj"]
)

model = get_peft_model(base_model, config)
model.print_trainable_parameters()

Q113. 监督微调、指令微调与偏好优化有何区别?

答。监督微调输入—输出对教模型。指令微调是其特化:任务以自然语言指令呈现,使模型更擅长跨任务听从请求偏好优化排序或成对反馈把模型推向人类更偏好的输出

强回答是:这些方法塑造不同侧面的行为。SFT 教任务模式;指令微调拓宽可用性;偏好方法在纯模仿之外改善有用性、安全性或风格(Ouyang et al., 2022)。

Q114. 什么是模型蒸馏?何时有用?

答。模型蒸馏训练较小的学生模仿较大的教师,常通过学习教师的软概率分布而非仅有硬标签。目标是在降低延迟、内存与部署成本的同时,尽量保留教师行为。

蒸馏在约束不只是准确率还包括效率时有用——在移动、边缘或高吞吐场景,前沿模型直接服务太贵。面试中要区分蒸馏与 PEFT:蒸馏产出新的更小模型;PEFT更便宜地适配现有大模型(Hinton et al., 2015)。

Q115. 何时微调才真正值得投入?

答。当提示与检索已触顶、任务稳定、有标注数据,且业务上奖励更高一致性更低单次请求成本时,微调值得。同一行为需大规模重复时尤其有说服力。

面试中要克制:弱提示后的下一步不一定是微调——真问题有时是数据差、切块糟或缺工具

Q116. 什么使微调数据集「高质量」?

答。高质量数据清晰、有代表性、标注正确、在边界案例上多样,并与生产中要的确切行为对齐。小而干净的数据集常胜大而嘈杂——模型也会忠实地学你的不一致

最佳面试回答是:数据质量决定上限。微调放大数据中的模式;它不会发明比你给的更好目标

Q117. 什么是灾难性遗忘?为何重要?

答。灾难性遗忘指微调把模型强烈推向新领域或任务,以致丧失先前有用的通用能力。当产品仍依赖广域推理、风格跨度微调样例之外的知识时,这就成问题。

面试中应提缓解:平衡数据混合、更轻的适配方法,以及在新能力与保留能力上同时评估。好的专门化不应无谓摧毁通用能力。

Q118. 发布前应如何评估微调后的模型?

答。同时评估目标任务收益意外回退:任务准确率、安全行为、格式稳定性、拒绝正确性、延迟,以及对真实提示而非仅训练式样本的泛化。

成熟回答是:应把微调模型与基座以及最便宜的不微调方案对比——否则无法判断微调是否对得起复杂度

Q119. 对齐与微调是什么关系?

答。对齐指塑造模型,使其行为更贴合人类意图、安全要求与产品策略。微调是对齐机制之一,但对齐也依赖偏好数据、护栏、工具、检索约束与评估方法

面试中解释:对齐宽于礼貌或拒绝——它是在真实应用中把模型导向有用、合适且符合策略的行为。

Q120. 微调项目的主要成本权衡是什么?

答。主要成本包括数据制作、训练算力、评估投入、模型存储、服务复杂度,以及跨版本的运维维护。只有微调在质量、速度或单次成本上相对「只提示」带来可度量增益时,这些成本才站得住脚。

强回答是:微调既有前期也有生命周期成本——团队有时盯着训练成本,却忽略长期管理多个适配模型的负担。

Q121. 团队何时应完全避免微调?

答。当任务快速变化、数据集薄弱、行为主要是知识检索而非技能适配,或产品能用更好的提示、检索或工具解决时,应避免微调。微调可能增加复杂度却解决不了真正瓶颈

面试中这体现纪律:好工程师不优化错误的那一层栈


0%