用于 LLM 分类的邮件分拣分类体系

Machine-translated. Read the original.

📅3 hours ago⏱1 min read

用于 LLM 分类的邮件分拣分类体系

邮件分类器最重要的部分不是模型，而是标签集。

大多数人关注提示词（prompt）的措辞。他们忽略了标签才是承担重任的关键。如果分类体系设计正确，廉价的模型也能表现出色。如果设计错误，再好的模型也无济于事。

一个成功的邮件分类体系应遵循以下规则：

考虑采用这种四部分结构：

每个标签都映射到一个特定的行为。如果两个标签指向相同的行动，请合并它们；如果一个标签指向两个不同的行动，请将其拆分。

这种方法使智能体（agents）的行为具有可预测性。你可以按计划运行它们，而无需持续监督。在进行分类时，请将 temperature 设置为 0 以确保输出的确定性；在撰写草稿时，请使用较高的 temperature 以获得自然的文笔。

不要使用自由格式的标签。每一个新标签都会创建一个你必须测试的新代码路径。封闭的词汇表（closed vocabulary）能让你的系统易于审计和扩展。

尝试这个练习：取你最近的 50 封邮件。使用这四个类别进行标注。记录下你感到犹豫的地方。这些空白点说明你的定义需要更多的示例。

Continue reading