用于 LLM 分类的邮件分拣分类体系
邮件分类器最重要的部分不是模型,而是标签集。
大多数人关注提示词(prompt)的措辞。他们忽略了标签才是承担重任的关键。如果分类体系设计正确,廉价的模型也能表现出色。如果设计错误,再好的模型也无济于事。
一个成功的邮件分类体系应遵循以下规则:
- 使用四个类别。三个类别会丢失细节,五个类别会导致混乱。
- 将标签映射到行动。不要使用主题,而要使用响应义务(response obligations)。
- 使用示例来定义标签。使用具体的实例而非形容词。
- 保持输入量精简。使用发件人、主题和一段简短的内容摘要。
考虑采用这种四部分结构:
- URGENT:生产事故或高管请求。需在 1 小时内回复。
- ACTION:代码审查或后续跟进。需在当天回复。
- FYI:仅供信息参考。无需回复。
- NOISE:新闻通讯或营销邮件。直接存档。
每个标签都映射到一个特定的行为。如果两个标签指向相同的行动,请合并它们;如果一个标签指向两个不同的行动,请将其拆分。
这种方法使智能体(agents)的行为具有可预测性。你可以按计划运行它们,而无需持续监督。在进行分类时,请将 temperature 设置为 0 以确保输出的确定性;在撰写草稿时,请使用较高的 temperature 以获得自然的文笔。
不要使用自由格式的标签。每一个新标签都会创建一个你必须测试的新代码路径。封闭的词汇表(closed vocabulary)能让你的系统易于审计和扩展。
尝试这个练习: 取你最近的 50 封邮件。使用这四个类别进行标注。记录下你感到犹豫的地方。这些空白点说明你的定义需要更多的示例。
来源:https://dev.to/qasim157/email-triage-taxonomies-for-llm-classification-3o1j
可选学习社区:https://t.me/GyaanSetuAi