Hệ thống Phân loại Email (Email Triage Taxonomies) cho Phân loại LLM

Phần quan trọng nhất của một bộ phân loại email không phải là mô hình. Đó là bộ nhãn (label set).

Hầu hết mọi người đều tập trung vào cách đặt câu lệnh (prompt phrasing). Họ quên rằng các nhãn mới là thứ thực hiện phần việc nặng nhọc nhất. Nếu bạn xây dựng hệ thống phân loại đúng, một mô hình rẻ tiền vẫn hoạt động tốt. Nếu bạn làm sai, không mô hình nào có thể cứu vãn được.

Một hệ thống phân loại email thành công nên tuân theo các quy tắc sau:

Hãy cân nhắc cấu trúc bốn phần này:

Mỗi nhãn ánh xạ tới một hành vi cụ thể. Nếu hai nhãn dẫn đến cùng một hành động, hãy gộp chúng lại. Nếu một nhãn dẫn đến hai hành động khác nhau, hãy chia nhỏ nó ra.

Cách tiếp cận này giúp các tác nhân (agents) trở nên dễ dự đoán. Bạn có thể chạy chúng theo lịch trình mà không cần giám sát liên tục. Sử dụng mức nhiệt độ (temperature) bằng 0 cho việc phân loại để đảm bảo đầu ra có tính xác định (deterministic). Sử dụng mức nhiệt độ cao hơn cho việc soạn thảo để có văn phong tự nhiên hơn.

Đừng sử dụng các thẻ tự do (free-form tags). Mỗi thẻ mới sẽ tạo ra một luồng mã (code path) mới mà bạn phải kiểm thử. Một từ vựng đóng (closed vocabulary) giúp hệ thống của bạn dễ dàng kiểm chứng và mở rộng.

Hãy thử bài tập này: Lấy 50 email gần nhất của bạn. Gán nhãn chúng bằng bốn nhóm này. Lưu ý những chỗ bạn cảm thấy do dự. Những khoảng trống đó cho thấy các định nghĩa của bạn cần thêm ví dụ.

Nguồn: https://dev.to/qasim157/email-triage-taxonomies-for-llm-classification-3o1j

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi