Độ tin cậy của LLM-as-Judge vào năm 2026
LLM-as-Judge đang vận hành hầu hết các bảng xếp hạng (leaderboards) và các bài đánh giá hiện nay. Tám nghiên cứu mới từ tháng 6 năm 2026 đã chỉ ra một vấn đề. Những "trọng tài" này thường đưa ra các kết quả mâu thuẫn với chính chúng với tỷ lệ tương đương như tung đồng xu.
Nếu bạn chỉ dựa vào một lần chạy đánh giá duy nhất, bạn đang đối mặt với nhiễu (noise).
Các phát hiện chính từ nghiên cứu gần đây:
- Độ tin cậy thấp: Một nghiên cứu đã chạy hai trọng tài OpenAI trên 29 tác vụ. Ngay cả với cùng một đầu vào, các trọng tài vẫn đưa ra các kết quả thắng cuộc khác nhau. Điều này khiến các bảng xếp hạng chỉ chạy một lần trở nên không đáng tin cậy.
- Định kiến tính toán (Compute bias): Điểm số của mô hình thay đổi dựa trên lượng tài nguyên tính toán bạn cho phép trong quá trình kiểm thử. Một mô hình có thể trông có vẻ kém chỉ vì bài kiểm tra có giới hạn token thấp.
- Định kiến thương hiệu (Brand bias): Các trọng tài cho thấy sự ưu tiên đối với các tên mô hình nổi tiếng. Điều này làm kết quả nghiêng về các thương hiệu lớn.
- Sự không tương thích về mục tiêu (Goal mismatch): Trong các công cụ giáo dục, một mô hình có thể chiến thắng trong các bài kiểm tra giải quyết tác vụ nhưng lại thất bại trong việc thực sự giúp học sinh học tập.
Bạn nên hành động như thế nào:
- Nhà phát triển độc lập: Tạm thời bỏ qua LLM-as-Judge. Thay vào đó, hãy dán nhãn thủ công 30 kết quả đầu ra. Một trọng tài chưa được xác thực sẽ tạo ra sự tự tin giả tạo.
- Nhóm nhỏ: Chọn các công cụ giúp bạn nhanh chóng có được dữ liệu được dán nhãn bởi con người. Công cụ quan trọng ít hơn việc xác thực thực tế bởi con người.
- Khối lượng công việc theo lô lớn: Chạy ít nhất từ 20 đến 50 lần thử cho mỗi mục. Sử dụng phương pháp bỏ phiếu đa số để loại bỏ nhiễu.
- Chủ doanh nghiệp: Hãy coi bất kỳ khoảng cách dẫn đầu nào trong bảng xếp hạng dưới 10 điểm là một kết quả hòa. Các phép toán cho thấy những khoảng cách này thường biến mất khi thực hiện tái lập.
Đừng hỏi trọng tài nào có điểm số cao nhất. Hãy hỏi công cụ trọng tài nào giúp bạn dễ dàng xác thực kết quả so với các nhãn do con người thực hiện nhất.
Nguồn: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi