《LLM Interview Handbook》第 6 章：基于大语言模型的分类（全译文）

说明
底本为 Language Models Interview Handbook（© 2026 Lamhot Siagian, AI Engineering Insider）；个人学习整理，转载请注明出处，勿用于商业再发行。

第 6 章　基于大语言模型的分类

本章概述

尽管许多团队最初是把 LLM 当作对话系统来用，它们同样也是强有力的分类引擎：可以通过提示直接把输入映射到标签、为审计生成理由（rationales），并快速适配新的分类体系（taxonomy）。话虽如此，并非每一种分类负载都适合交给通用生成模型；有些场景仍更适合更小的判别式模型或混合流水线。

扎实的工程回答会比较不同方案，而不是把「用 LLM 做分类」当成放之四海皆准的升级。正确选择取决于类别复杂度、数据量、可解释性需求、延迟目标，以及标签空间是否频繁变化。

Interview Anchor　面试锚点

维度	内容
面试官真正想测的	能否在提示（prompting）、零样本分类、少样本分类与专用分类器之间做出选择，并给出清晰的业务理由。
高质量回答套路	从标签稳定性与成本承受度出发，说明何时生成式模型够用，何时更小的监督学习模型才是更好的生产选型。
常见低分答法	用生成式输出做分类时，忘了校准、类别不平衡与模式约束（schema enforcement）。

INTERVIEW CHEATSHEET　面试速记条

项	要点
要表达的亮点	分类方案设计取决于标签清晰度、数据量、漂移、可解释性与单次预测价格。
最佳举例	标签经常变时用带提示的 LLM；体量巨大且标签集合稳定时用紧凑的分类器。
可追问方向	提到置信度阈值、结构化输出以及对模糊类别的人工复核。
资深补充	区分产品实验与生产吞吐下的经济账。
切忌这样说	预设最强的生成模型永远是最好的分类器。

下面的分类表把模型选型翻译成可运维的判据。请逐行阅读，把它当作关于标签稳定性、迭代速度与成本画像的决策工具。

表 6.1（Choosing the right classification strategy in practice）译文：

方法	最适用	运维备注
带提示的 LLM（Prompted LLM）	标签仍在演进，或类别细腻、需自然语言界定	易迭代，但成本与一致性需要管控。
少样本 LLM（Few-shot LLM）	边界情况重要，且示例能改善对任务的理解与输出格式	适合试点阶段与强政策/合规类任务。
微调分类器（Fine-tuned classifier）	标签已稳定，且数据量/调用量大	一旦分类法定型，在吞吐与成本上往往更优。
混合方案（Hybrid approach）	既要自动化，又要人工升级/复核	当不确定样本必须被安全分流时特别有用。

What Strong Candidates Sound Like

书里有一句可背的口述（译文）：「真正的分类决策不只是准确率；而是产品在标签漂移、歧义、规模与治理上能承受多少。」

若你要和纸版逐页对，后面还有承载问答的版面；本篇按全书摘录整理，正式内容以正文问答为准。

问答（沿用书中编号 Q41–Q50）

Q41. 生成式 LLM 如何做分类？

答。生成式 LLM 可以通过提示，把输入映射到预先定义集合中的某一个标签来完成分类。它不必单独学一个专用分类头（classifier head），而是借助指令遵循与语言理解能力产出目标类别，并常常附带理由或结构化输出。

这在类别用自然语言即可描述、输入杂乱，或标注样本稀缺时特别好用。代价是：除非你对输出约束得当，否则生成式分类往往比传统分类器更慢、更不稳定。

Q42. 分类任务何时该用提示，何时该用微调？

答。 用提示：分类体系经常变、有标注数据有限、需要快速推进时。若解释质量很重要，提示也很有吸引力——同一套系统可以一次完成分类并给出依据。

用微调：标签稳定、体量大、延迟敏感，且需要更紧的一致性时。面试里要强调：提示买的是灵活性，微调买的是专精。二者没有天然谁更优；更好选择取决于任务的运维画像。

Q43. 零样本分类与少样本分类有何区别？

答。 零样本分类只给模型标签定义或任务说明。少样本分类还会提供少量示例，展示输入应如何映射到各类别。少样本示例有助于模型更可靠地推断边界、边界情况与格式预期。

好的面试回答会指出：当标签细微、彼此重叠或高度组织化/专有时，少样本示例尤其有用——它们把提示变成一丁点即时上下文里的训练信号。GPT-3 推广了这种上下文学习（in-context learning）风格：选好示例后，性能可以显著提升（Brown et al., 2020）。

Q44. 面向 LLM 分类器，应如何设计标签体系（taxonomy）？

答。标签体系应彼此可理解、在业务上可用，并尽可能互不重叠。每个标签要用清晰边界、纳入规则、排除规则与示例来定义。若标签过于抽象或语义上缠在一起，模型会复刻这种模糊性。

有力的生产向回答是：把分类体系设计当成产品设计，而不只是建模问题。许多分类失败来自类别定义不清，而不是模型太弱。若人都无法稳定一致地打标，LLM 也不会替你修好本体论。

Q45. 基于 LLM 的分类里，如何处理类别不平衡？

答。可通过更好的示例、有针对性的评测集、代价敏感的复核策略，或用平衡或重加权数据做微调来缓解。纯提示系统往往会过预测宽泛的多数类，除非提示明确描述少数类与边界情形。

面试里应提到：不平衡既是数据问题，也是决策策略问题。在欺诈、安全或医疗分诊等场景，你可能更在意少数类召回，而不是总体准确率。对的评测指标应反映这一优先级。

Q46. 多标签分类与单标签分类有何不同？

答。 单标签分类必须且只能选一个类。多标签分类则允许多个标签同时成立。因此提示、模式（schema）与评测策略都要改：不是选「一个最佳标签」，而是要判断哪些标签越过纳入阈值。

实务难点在校准。多标签输出需要更强的阈值设定、校验与审计逻辑，因为模型可能少标或多标。面试里要强调：多标签工作不只是单标签的小扩展——它改变了决策结构。

Q47. 用 LLM 搭建的分类系统，哪些指标最重要？

答。 准确率可以是起点，但精确率、召回率、F1、混淆矩阵与校准往往信息量更大。在不平衡场景下，宏平均 F1或逐类召回可能比总体准确率重要得多。对人工复核工作流，你可能还关心弃权率与复核员推翻率。

资深候选人会把指标连到业务风险：若假阴性代价高，就优化召回；若假阳性会触发繁重人工审核，就优化精确率。最好的指标是与犯错成本对齐的那一个。

Q48. 如何估计 LLM 分类器的置信度？

答。可通过受约束的标签概率、自洽性（self-consistency）检查、二级模型、校准集，或多种提示变体之间的一致性来估计。模型口头说的「我很自信」不足以作为唯一置信信号。

好的面试回答是：只要可能，置信度应在外部度量。生产系统常把模型分数、检索证据、模式合法性与历史错误模式组合起来，决定是自动路由还是升级人工复核。

Q49. 分类流水线何时应包含人工参与（human in the loop）？

答。当决策影响大、模糊、新颖或合规敏感时，适合人工复核。当模型置信度低、证据冲突，或某些类经常被混淆时也有用。来自这些案例的人工反馈，往往能成为最有价值的训练与评测数据。

面试里应把人工复核当成提高精度的手段，而不是系统软弱的标志。成熟设计会自动处理简单案例，把稀缺的复核资源留给最能降低风险的样本。

Q50. LLM 分类系统在生产里常见的失效模式有哪些？

答。常见失败包括：分类法改动后的标签漂移、提示脆弱、隐性格式错误、对少数类处理不佳，以及在模糊输入上的虚假自信。另一类常见问题是：上游检索或预处理改变了分类器实际看到的输入时，出现静默退化。

最强回答是系统级的：分类质量取决于提示、数据定义、评测集、路由策略与复核闭环。若你只盯着一个准确率数字，就会错过系统真正成败的原因。

第 6 章 基于大语言模型的分类