Độ tin cậy của LLM-as-Judge vào năm 2026

LLM-as-Judge đang vận hành hầu hết các bảng xếp hạng (leaderboard) và mô hình phần thưởng (reward model) hiện nay. Tám nghiên cứu mới từ tháng 6 năm 2026 cho thấy một vấn đề cực kỳ nghiêm trọng. Những "trọng tài" này thường không đáng tin cậy.

Phát hiện lớn nhất: các trọng tài tự mâu thuẫn với chính mình thường xuyên như việc tung đồng xu. Một nghiên cứu đã sử dụng hai trọng tài OpenAI cho 29 tác vụ. Họ đã thực hiện 50 lần thử nghiệm cho mỗi tác vụ. Kết quả không nhất quán đến mức các nhà nghiên cứu gọi đó là "Trọng tài Tung đồng xu" (The Coin Flip Judge).

Dưới đây là những cách chính mà các trọng tài này thất bại:

Bạn nên hành động như thế nào:

Đừng hỏi trọng tài nào là tốt nhất nữa. Hãy hỏi công cụ nào giúp bạn xác thực kết quả so với các nhãn do con người thực hiện một cách nhanh nhất.

Nguồn: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca