Hệ thống Phân loại Email (Email Triage Taxonomies) cho Phân loại LLM
Phần quan trọng nhất của một bộ phân loại email không phải là mô hình. Đó là bộ nhãn (label set).
Hầu hết mọi người đều tập trung vào cách đặt câu lệnh (prompt phrasing). Họ quên rằng các nhãn mới là thứ thực hiện phần việc nặng nhọc nhất. Nếu bạn xây dựng hệ thống phân loại đúng, một mô hình rẻ tiền vẫn hoạt động tốt. Nếu bạn làm sai, không mô hình nào có thể cứu vãn được.
Một hệ thống phân loại email thành công nên tuân theo các quy tắc sau:
- Sử dụng bốn danh mục. Ba danh mục sẽ làm mất chi tiết. Năm danh mục sẽ gây ra sự nhầm lẫn.
- Ánh xạ nhãn với các hành động. Đừng sử dụng các chủ đề. Hãy sử dụng các nghĩa vụ phản hồi.
- Định nghĩa nhãn bằng các ví dụ. Sử dụng các trường hợp cụ thể thay vì các tính từ.
- Giữ đầu vào nhỏ gọn. Sử dụng người gửi, tiêu đề và một đoạn trích ngắn.
Hãy cân nhắc cấu trúc bốn phần này:
- KHẨN CẤP (URGENT): Các sự cố hệ thống hoặc yêu cầu từ ban điều hành. Phản hồi trong vòng 1 giờ.
- HÀNH ĐỘNG (ACTION): Kiểm duyệt mã (code review) hoặc theo dõi công việc. Phản hồi trong cùng ngày.
- THÔNG TIN (FYI): Chỉ để biết thông tin. Không cần phản hồi.
- NHIỄU (NOISE): Bản tin hoặc tiếp thị. Lưu trữ chúng.
Mỗi nhãn ánh xạ tới một hành vi cụ thể. Nếu hai nhãn dẫn đến cùng một hành động, hãy gộp chúng lại. Nếu một nhãn dẫn đến hai hành động khác nhau, hãy chia nhỏ nó ra.
Cách tiếp cận này giúp các tác nhân (agents) trở nên dễ dự đoán. Bạn có thể chạy chúng theo lịch trình mà không cần giám sát liên tục. Sử dụng mức nhiệt độ (temperature) bằng 0 cho việc phân loại để đảm bảo đầu ra có tính xác định (deterministic). Sử dụng mức nhiệt độ cao hơn cho việc soạn thảo để có văn phong tự nhiên hơn.
Đừng sử dụng các thẻ tự do (free-form tags). Mỗi thẻ mới sẽ tạo ra một luồng mã (code path) mới mà bạn phải kiểm thử. Một từ vựng đóng (closed vocabulary) giúp hệ thống của bạn dễ dàng kiểm chứng và mở rộng.
Hãy thử bài tập này: Lấy 50 email gần nhất của bạn. Gán nhãn chúng bằng bốn nhóm này. Lưu ý những chỗ bạn cảm thấy do dự. Những khoảng trống đó cho thấy các định nghĩa của bạn cần thêm ví dụ.
Nguồn: https://dev.to/qasim157/email-triage-taxonomies-for-llm-classification-3o1j
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi