fooSynaptic

Good luck

《LLM Interview Handbook》第 6 章:基于大语言模型的分类(全译文)

说明
底本为 Language Models Interview Handbook(© 2026 Lamhot Siagian, AI Engineering Insider);个人学习整理,转载请注明出处,勿用于商业再发行。


第 6 章 基于大语言模型的分类

本章概述

尽管许多团队最初是把 LLM 当作对话系统来用,它们同样也是强有力的分类引擎:可以通过提示直接把输入映射到标签、为审计生成理由(rationales),并快速适配新的分类体系(taxonomy)。话虽如此,并非每一种分类负载都适合交给通用生成模型;有些场景仍更适合更小的判别式模型混合流水线

扎实的工程回答会比较不同方案,而不是把「用 LLM 做分类」当成放之四海皆准的升级。正确选择取决于类别复杂度数据量可解释性需求延迟目标,以及标签空间是否频繁变化


Interview Anchor 面试锚点

维度 内容
面试官真正想测的 能否在提示(prompting)零样本分类少样本分类专用分类器之间做出选择,并给出清晰的业务理由
高质量回答套路 标签稳定性成本承受度出发,说明何时生成式模型够用,何时更小的监督学习模型才是更好的生产选型。
常见低分答法 用生成式输出做分类时,忘了校准类别不平衡模式约束(schema enforcement)

INTERVIEW CHEATSHEET 面试速记条

要点
要表达的亮点 分类方案设计取决于标签清晰度数据量漂移可解释性单次预测价格
最佳举例 标签经常变时用带提示的 LLM;体量巨大标签集合稳定时用紧凑的分类器。
可追问方向 提到置信度阈值结构化输出以及对模糊类别人工复核
资深补充 区分产品实验生产吞吐下的经济账
切忌这样说 预设最强的生成模型永远是最好的分类器

下面的分类表把模型选型翻译成可运维的判据。请逐行阅读,把它当作关于标签稳定性迭代速度成本画像的决策工具。

表 6.1Choosing the right classification strategy in practice)译文:

方法 最适用 运维备注
带提示的 LLM(Prompted LLM) 标签仍在演进,或类别细腻、需自然语言界定 易迭代,但成本一致性需要管控。
少样本 LLM(Few-shot LLM) 边界情况重要,且示例能改善对任务的理解与输出格式 适合试点阶段强政策/合规类任务。
微调分类器(Fine-tuned classifier) 标签已稳定,且数据量/调用量 一旦分类法定型,在吞吐成本上往往更优。
混合方案(Hybrid approach) 既要自动化,又要人工升级/复核 不确定样本必须被安全分流时特别有用。

What Strong Candidates Sound Like

书里有一句可背的口述(译文):「真正的分类决策不只是准确率;而是产品在标签漂移、歧义、规模与治理能承受多少。」

若你要和纸版逐页对,后面还有承载问答的版面;本篇按全书摘录整理,正式内容以正文问答为准。


问答(沿用书中编号 Q41–Q50)

Q41. 生成式 LLM 如何做分类?

答。 生成式 LLM 可以通过提示,把输入映射到预先定义集合中的某一个标签来完成分类。它不必单独学一个专用分类头(classifier head),而是借助指令遵循语言理解能力产出目标类别,并常常附带理由结构化输出

这在类别用自然语言即可描述、输入杂乱,或标注样本稀缺时特别好用。代价是:除非你对输出约束得当,否则生成式分类往往比传统分类器更慢更不稳定


Q42. 分类任务何时该用提示,何时该用微调?

答。 用提示:分类体系经常变有标注数据有限、需要快速推进时。若解释质量很重要,提示也很有吸引力——同一套系统可以一次完成分类并给出依据

用微调:标签稳定体量大、延迟敏感,且需要更紧的一致性时。面试里要强调:提示买的是灵活性,微调买的是专精。二者没有天然谁更优;更好选择取决于任务的运维画像


Q43. 零样本分类与少样本分类有何区别?

答。 零样本分类只给模型标签定义任务说明少样本分类还会提供少量示例,展示输入应如何映射到各类别。少样本示例有助于模型更可靠地推断边界边界情况格式预期

好的面试回答会指出:当标签细微彼此重叠高度组织化/专有时,少样本示例尤其有用——它们把提示变成一丁点即时上下文里的训练信号GPT-3 推广了这种上下文学习(in-context learning)风格:选好示例后,性能可以显著提升(Brown et al., 2020)。


Q44. 面向 LLM 分类器,应如何设计标签体系(taxonomy)?

答。 标签体系应彼此可理解在业务上可用,并尽可能互不重叠。每个标签要用清晰边界纳入规则排除规则示例来定义。若标签过于抽象或语义上缠在一起,模型会复刻这种模糊性。

有力的生产向回答是:把分类体系设计当成产品设计,而不只是建模问题。许多分类失败来自类别定义不清,而不是模型太弱。若都无法稳定一致地打标,LLM 也不会替你修好本体论。


Q45. 基于 LLM 的分类里,如何处理类别不平衡?

答。 可通过更好的示例有针对性的评测集代价敏感的复核策略,或用平衡或重加权数据做微调来缓解。纯提示系统往往会过预测宽泛的多数类,除非提示明确描述少数类与边界情形。

面试里应提到:不平衡既是数据问题,也是决策策略问题。在欺诈、安全或医疗分诊等场景,你可能更在意少数类召回,而不是总体准确率对的评测指标应反映这一优先级。


Q46. 多标签分类与单标签分类有何不同?

答。 单标签分类必须且只能选一个类。多标签分类则允许多个标签同时成立。因此提示、模式(schema)评测策略都要改:不是选「一个最佳标签」,而是要判断哪些标签越过纳入阈值

实务难点在校准。多标签输出需要更强的阈值设定校验审计逻辑,因为模型可能少标多标。面试里要强调:多标签工作不只是单标签的小扩展——它改变了决策结构


Q47. 用 LLM 搭建的分类系统,哪些指标最重要?

答。 准确率可以是起点,但精确率、召回率、F1、混淆矩阵与校准往往信息量更大。在不平衡场景下,宏平均 F1逐类召回可能比总体准确率重要得多。对人工复核工作流,你可能还关心弃权率复核员推翻率

资深候选人会把指标连到业务风险:若假阴性代价高,就优化召回;若假阳性会触发繁重人工审核,就优化精确率最好的指标是与犯错成本对齐的那一个。


Q48. 如何估计 LLM 分类器的置信度?

答。 可通过受约束的标签概率自洽性(self-consistency)检查二级模型校准集,或多种提示变体之间的一致性来估计。模型口头说的「我很自信」不足以作为唯一置信信号。

好的面试回答是:只要可能,置信度应在外部度量。生产系统常把模型分数检索证据模式合法性历史错误模式组合起来,决定是自动路由还是升级人工复核


Q49. 分类流水线何时应包含人工参与(human in the loop)?

答。 当决策影响大模糊新颖合规敏感时,适合人工复核。当模型置信度低、证据冲突,或某些类经常被混淆时也有用。来自这些案例的人工反馈,往往能成为最有价值的训练与评测数据

面试里应把人工复核当成提高精度的手段,而不是系统软弱的标志。成熟设计会自动处理简单案例,把稀缺的复核资源留给最能降低风险的样本。


Q50. LLM 分类系统在生产里常见的失效模式有哪些?

答。 常见失败包括:分类法改动后的标签漂移、提示脆弱隐性格式错误、对少数类处理不佳,以及在模糊输入上的虚假自信。另一类常见问题是:上游检索预处理改变了分类器实际看到的输入时,出现静默退化

最强回答是系统级的:分类质量取决于提示数据定义评测集路由策略复核闭环。若你只盯着一个准确率数字,就会错过系统真正成败的原因。


0%