Cách ngăn chặn AI gắn nhãn sai Suy luận thành Sự thật
Các tác nhân nghiên cứu AI thường trộn lẫn sự thật với những phỏng đoán. Một trang web có thể nêu giá trị thị trường. Sau đó, tác nhân kết luận rằng thị trường đang tăng trưởng nhanh. Cả hai câu khẳng định đều trông giống nhau trong văn bản cuối cùng. Sự pha trộn giữa dữ liệu và ý kiến này rất nguy hiểm.
Bạn không thể khắc phục điều này bằng các câu lệnh (prompt) tốt hơn. Prompt mang tính xác suất. Dưới áp lực, mô hình sẽ đưa ra phỏng đoán.
Giải pháp nằm ở cấu trúc. Hãy chuyển việc đưa ra quyết định từ LLM sang mã nguồn (code) của bạn.
Chia công việc thành hai phần:
LLM thực hiện:
- Trích xuất các khẳng định từ một trang.
- Tóm tắt văn bản.
Mã nguồn xác định (Deterministic code) thực hiện:
- Chấm điểm các khẳng định.
- Kiểm tra chéo các nguồn.
- Gắn nhãn các khẳng định là SỰ THẬT (FACT) hoặc SUY LUẬN (INFERENCE).
- Quyết định xem dữ liệu có còn mới hay không.
Một khẳng định chỉ được gắn nhãn SỰ THẬT nếu nó đáp ứng các quy tắc nghiêm ngặt. Ví dụ, nó phải đến từ hai nguồn độc lập hoặc một API chính thức. Mọi thứ khác sẽ trở thành SUY LUẬN.
Sử dụng quy trình (pipeline) này:
- PLAN (LẬP KẾ HOẠCH): Chuyển câu hỏi thành các truy vấn con.
- HARVEST (THU THẬP): Lấy dữ liệu từ nhiều con đường khác nhau.
- NORMALIZE (CHUẨN HÓA): Sử dụng LLM để trích xuất các khẳng định có cấu trúc. Đây là bước duy nhất sử dụng LLM.
- CORROBORATE (XÁC MINH): Nhóm các khẳng định và đếm số lượng nguồn độc lập.
- SCORE (CHẤM ĐIỂM): Áp dụng các quy tắc để gán nhãn.
- RENDER (HIỂN THỊ): Hiển thị sự thật, suy luận và thông tin còn thiếu.
Tính độc lập là then chốt. Một blog trích dẫn một blog khác không phải là hai nguồn. Bạn cần các tên miền (domain) khác nhau hoặc một API chính thức để xác nhận một sự thật.
Tuân thủ các quy tắc sau để có một tác nhân đáng tin cậy:
- Sử dụng cơ chế leo thang (escalation): Thử tìm kiếm web trước. Chỉ chuyển sang công cụ tìm kiếm tin tức hoặc tìm kiếm học thuật nếu bước đầu tiên thất bại.
- Theo dõi độ mới: Gắn nhãn dữ liệu cũ là lỗi thời. Đừng để các sự thật cũ được coi là hiện tại.
- Chỉ ra các lỗ hổng: Liệt kê những gì bạn không thể tìm thấy. Một lỗ hổng im lặng là một sự thất bại.
- Đảm bảo tính tái lập: Cùng một truy vấn phải tạo ra các nhãn giống nhau mọi lúc. Nếu các nhãn thay đổi, có nghĩa là một LLM đang chấm điểm dữ liệu. Hãy thay thế lời gọi LLM đó bằng một hàm (function).
Phương pháp này cho phép mô hình làm điều mà nó làm tốt nhất: đọc và trích xuất. Nó ngăn mô hình tự quyết định điều gì là đúng.
Optional learning community: https://t.me/GyaanSetuAi
