Độ tin cậy của LLM-as-Judge vào năm 2026
LLM-as-Judge đang vận hành hầu hết các bảng xếp hạng (leaderboard) và mô hình phần thưởng (reward model) hiện nay. Tám nghiên cứu mới từ tháng 6 năm 2026 cho thấy một vấn đề cực kỳ nghiêm trọng. Những "trọng tài" này thường không đáng tin cậy.
Phát hiện lớn nhất: các trọng tài tự mâu thuẫn với chính mình thường xuyên như việc tung đồng xu. Một nghiên cứu đã sử dụng hai trọng tài OpenAI cho 29 tác vụ. Họ đã thực hiện 50 lần thử nghiệm cho mỗi tác vụ. Kết quả không nhất quán đến mức các nhà nghiên cứu gọi đó là "Trọng tài Tung đồng xu" (The Coin Flip Judge).
Dưới đây là những cách chính mà các trọng tài này thất bại:
- Độ tin cậy thấp: Ngay cả khi các thiết lập được cố định, các trọng tài vẫn đưa ra những người chiến thắng khác nhau cho cùng một đầu vào. Vị trí dẫn đầu trên bảng xếp hạng chỉ sau một lần chạy thường chỉ là nhiễu (noise).
- Định kiến về tính toán (Compute bias): Một mô hình trông có vẻ tốt hơn hoặc tệ hơn tùy thuộc vào mức độ tính toán mà quá trình đánh giá cho phép. Nếu giới hạn thử nghiệm quá thấp, bạn sẽ bỏ lỡ khả năng thực sự của mô hình.
- Sai lệch mục tiêu: Trong giáo dục, các mô hình chiến thắng trong các bài kiểm tra chuẩn (benchmarks) thường thất bại trong việc thực sự dạy học sinh. Chúng giải quyết các tác vụ nhưng không hỗ trợ việc học.
- Định kiến thương hiệu: Các trọng tài thể hiện sự ưu tiên cho các cái tên nổi tiếng như GPT hoặc Claude. Điều này làm sai lệch kết quả.
Bạn nên hành động như thế nào:
- Đối với các nhà phát triển độc lập: Hãy bỏ qua LLM-as-Judge. Thay vào đó, hãy dán nhãn thủ công 30 kết quả đầu ra. Một trọng tài tồi sẽ tạo ra sự tự tin giả tạo.
- Đối với các đội ngũ: Hãy chọn một công cụ giúp việc dán nhãn bởi con người trở nên dễ dàng. Công cụ quan trọng ít hơn việc thực sự thực hiện công việc thủ công.
- Đối với các tác vụ khối lượng lớn: Hãy chạy ít nhất từ 20 đến 50 lần thử nghiệm cho mỗi mục. Sử dụng phương pháp bỏ phiếu đa số để tìm ra người chiến thắng thực sự.
- Đối với các chủ doanh nghiệp: Nếu một nhà cung cấp tuyên bố dẫn trước ít hơn 10 điểm, hãy coi đó là một kết quả hòa. Độ nhiễu từ trọng tài có khả năng lớn hơn cả khoảng cách dẫn trước đó.
Đừng hỏi trọng tài nào là tốt nhất nữa. Hãy hỏi công cụ nào giúp bạn xác thực kết quả so với các nhãn do con người thực hiện một cách nhanh nhất.
Nguồn: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca