说明
底本为 Language Models Interview Handbook(© 2026 Lamhot Siagian, AI Engineering Insider);个人学习整理,转载请注明出处,勿用于商业再发行。
第 6 章 基于大语言模型的分类
本章概述
尽管许多团队最初是把 LLM 当作对话系统来用,它们同样也是强有力的分类引擎:可以通过提示直接把输入映射到标签、为审计生成理由(rationales),并快速适配新的分类体系(taxonomy)。话虽如此,并非每一种分类负载都适合交给通用生成模型;有些场景仍更适合更小的判别式模型或混合流水线。
扎实的工程回答会比较不同方案,而不是把「用 LLM 做分类」当成放之四海皆准的升级。正确选择取决于类别复杂度、数据量、可解释性需求、延迟目标,以及标签空间是否频繁变化。
Interview Anchor 面试锚点
| 维度 | 内容 |
|---|---|
| 面试官真正想测的 | 能否在提示(prompting)、零样本分类、少样本分类与专用分类器之间做出选择,并给出清晰的业务理由。 |
| 高质量回答套路 | 从标签稳定性与成本承受度出发,说明何时生成式模型够用,何时更小的监督学习模型才是更好的生产选型。 |
| 常见低分答法 | 用生成式输出做分类时,忘了校准、类别不平衡与模式约束(schema enforcement)。 |
INTERVIEW CHEATSHEET 面试速记条
| 项 | 要点 |
|---|---|
| 要表达的亮点 | 分类方案设计取决于标签清晰度、数据量、漂移、可解释性与单次预测价格。 |
| 最佳举例 | 标签经常变时用带提示的 LLM;体量巨大且标签集合稳定时用紧凑的分类器。 |
| 可追问方向 | 提到置信度阈值、结构化输出以及对模糊类别的人工复核。 |
| 资深补充 | 区分产品实验与生产吞吐下的经济账。 |
| 切忌这样说 | 预设最强的生成模型永远是最好的分类器。 |
下面的分类表把模型选型翻译成可运维的判据。请逐行阅读,把它当作关于标签稳定性、迭代速度与成本画像的决策工具。
表 6.1(Choosing the right classification strategy in practice)译文:
| 方法 | 最适用 | 运维备注 |
|---|---|---|
| 带提示的 LLM(Prompted LLM) | 标签仍在演进,或类别细腻、需自然语言界定 | 易迭代,但成本与一致性需要管控。 |
| 少样本 LLM(Few-shot LLM) | 边界情况重要,且示例能改善对任务的理解与输出格式 | 适合试点阶段与强政策/合规类任务。 |
| 微调分类器(Fine-tuned classifier) | 标签已稳定,且数据量/调用量大 | 一旦分类法定型,在吞吐与成本上往往更优。 |
| 混合方案(Hybrid approach) | 既要自动化,又要人工升级/复核 | 当不确定样本必须被安全分流时特别有用。 |
What Strong Candidates Sound Like
书里有一句可背的口述(译文):「真正的分类决策不只是准确率;而是产品在标签漂移、歧义、规模与治理上能承受多少。」
若你要和纸版逐页对,后面还有承载问答的版面;本篇按全书摘录整理,正式内容以正文问答为准。
问答(沿用书中编号 Q41–Q50)
Q41. 生成式 LLM 如何做分类?
答。 生成式 LLM 可以通过提示,把输入映射到预先定义集合中的某一个标签来完成分类。它不必单独学一个专用分类头(classifier head),而是借助指令遵循与语言理解能力产出目标类别,并常常附带理由或结构化输出。
这在类别用自然语言即可描述、输入杂乱,或标注样本稀缺时特别好用。代价是:除非你对输出约束得当,否则生成式分类往往比传统分类器更慢、更不稳定。
Q42. 分类任务何时该用提示,何时该用微调?
答。 用提示:分类体系经常变、有标注数据有限、需要快速推进时。若解释质量很重要,提示也很有吸引力——同一套系统可以一次完成分类并给出依据。
用微调:标签稳定、体量大、延迟敏感,且需要更紧的一致性时。面试里要强调:提示买的是灵活性,微调买的是专精。二者没有天然谁更优;更好选择取决于任务的运维画像。
Q43. 零样本分类与少样本分类有何区别?
答。 零样本分类只给模型标签定义或任务说明。少样本分类还会提供少量示例,展示输入应如何映射到各类别。少样本示例有助于模型更可靠地推断边界、边界情况与格式预期。
好的面试回答会指出:当标签细微、彼此重叠或高度组织化/专有时,少样本示例尤其有用——它们把提示变成一丁点即时上下文里的训练信号。GPT-3 推广了这种上下文学习(in-context learning)风格:选好示例后,性能可以显著提升(Brown et al., 2020)。
Q44. 面向 LLM 分类器,应如何设计标签体系(taxonomy)?
答。 标签体系应彼此可理解、在业务上可用,并尽可能互不重叠。每个标签要用清晰边界、纳入规则、排除规则与示例来定义。若标签过于抽象或语义上缠在一起,模型会复刻这种模糊性。
有力的生产向回答是:把分类体系设计当成产品设计,而不只是建模问题。许多分类失败来自类别定义不清,而不是模型太弱。若人都无法稳定一致地打标,LLM 也不会替你修好本体论。
Q45. 基于 LLM 的分类里,如何处理类别不平衡?
答。 可通过更好的示例、有针对性的评测集、代价敏感的复核策略,或用平衡或重加权数据做微调来缓解。纯提示系统往往会过预测宽泛的多数类,除非提示明确描述少数类与边界情形。
面试里应提到:不平衡既是数据问题,也是决策策略问题。在欺诈、安全或医疗分诊等场景,你可能更在意少数类召回,而不是总体准确率。对的评测指标应反映这一优先级。
Q46. 多标签分类与单标签分类有何不同?
答。 单标签分类必须且只能选一个类。多标签分类则允许多个标签同时成立。因此提示、模式(schema)与评测策略都要改:不是选「一个最佳标签」,而是要判断哪些标签越过纳入阈值。
实务难点在校准。多标签输出需要更强的阈值设定、校验与审计逻辑,因为模型可能少标或多标。面试里要强调:多标签工作不只是单标签的小扩展——它改变了决策结构。
Q47. 用 LLM 搭建的分类系统,哪些指标最重要?
答。 准确率可以是起点,但精确率、召回率、F1、混淆矩阵与校准往往信息量更大。在不平衡场景下,宏平均 F1或逐类召回可能比总体准确率重要得多。对人工复核工作流,你可能还关心弃权率与复核员推翻率。
资深候选人会把指标连到业务风险:若假阴性代价高,就优化召回;若假阳性会触发繁重人工审核,就优化精确率。最好的指标是与犯错成本对齐的那一个。
Q48. 如何估计 LLM 分类器的置信度?
答。 可通过受约束的标签概率、自洽性(self-consistency)检查、二级模型、校准集,或多种提示变体之间的一致性来估计。模型口头说的「我很自信」不足以作为唯一置信信号。
好的面试回答是:只要可能,置信度应在外部度量。生产系统常把模型分数、检索证据、模式合法性与历史错误模式组合起来,决定是自动路由还是升级人工复核。
Q49. 分类流水线何时应包含人工参与(human in the loop)?
答。 当决策影响大、模糊、新颖或合规敏感时,适合人工复核。当模型置信度低、证据冲突,或某些类经常被混淆时也有用。来自这些案例的人工反馈,往往能成为最有价值的训练与评测数据。
面试里应把人工复核当成提高精度的手段,而不是系统软弱的标志。成熟设计会自动处理简单案例,把稀缺的复核资源留给最能降低风险的样本。
Q50. LLM 分类系统在生产里常见的失效模式有哪些?
答。 常见失败包括:分类法改动后的标签漂移、提示脆弱、隐性格式错误、对少数类处理不佳,以及在模糊输入上的虚假自信。另一类常见问题是:上游检索或预处理改变了分类器实际看到的输入时,出现静默退化。
最强回答是系统级的:分类质量取决于提示、数据定义、评测集、路由策略与复核闭环。若你只盯着一个准确率数字,就会错过系统真正成败的原因。