LLM分類のためのメールトリアージ・タクソノミー
メール分類器において最も重要なのは、モデルではありません。ラベルのセットです。
多くの人はプロンプトの言い回しに集中しがちです。しかし、実際に大きな役割を果たすのはラベルであることを忘れてはいけません。タクソノミーが正しければ、安価なモデルでも十分に機能します。逆に、タクソノミーが間違っていれば、どんなモデルを使っても救いようがありません。
成功するメール・タクソノミーは、以下のルールに従うべきです。
- 4つのカテゴリを使用する。3つでは詳細が不足し、5つでは混乱を招きます。
- ラベルをアクションに紐付ける。トピック(話題)ではなく、返信の義務に基づいたものにします。
- 例を用いてラベルを定義する。形容詞ではなく、具体的な事例を使用します。
- 入力を最小限に抑える。送信者、件名、および短いスニペットのみを使用します。
次のような4部構成の構造を検討してください。
- URGENT(緊急):本番環境のインシデントや役員からの依頼。1時間以内に返信する。
- ACTION(対応):コードレビューやフォローアップ。当日中に返信する。
- FYI(参考):情報共有のみ。返信不要。
- NOISE(ノイズ):ニュースレターやマーケティング。アーカイブする。
各ラベルは、一つの特定のアクションに紐付いている必要があります。もし2つのラベルが同じアクションにつながるなら、それらを統合してください。逆に、一つのラベルが2つの異なるアクションにつながるなら、分割してください。
このアプローチにより、エージェントの挙動が予測可能になります。常に監視することなく、スケジュールに従って実行できるようになります。分類を行う際は、出力を決定論的にするために temperature を 0 に設定してください。ドラフト(下書き)作成の際は、自然な文章を得るために、より高い temperature を使用します。
自由形式のタグは使用しないでください。新しいタグを追加するたびに、テストが必要な新しいコードパスが生まれてしまいます。語彙を限定(クローズド・ボキャブラリー)することで、システムの監査とスケーリングが容易になります。
次の演習を試してみてください。 直近のメール50通を取り出し、これら4つのバケットを使ってラベル付けをしてみます。判断に迷った箇所をメモしてください。その「迷い」こそが、定義にさらなる具体例が必要な箇所を示しています。
出典: https://dev.to/qasim157/email-triage-taxonomies-for-llm-classification-3o1j
オプションの学習コミュニティ: https://t.me/GyaanSetuAi