Độ tin cậy của LLM-as-Judge vào năm 2026

LLM-as-Judge đang vận hành hầu hết các bảng xếp hạng (leaderboards) và các bài đánh giá hiện nay. Tám nghiên cứu mới từ tháng 6 năm 2026 đã chỉ ra một vấn đề. Những "trọng tài" này thường đưa ra các kết quả mâu thuẫn với chính chúng với tỷ lệ tương đương như tung đồng xu.

Nếu bạn chỉ dựa vào một lần chạy đánh giá duy nhất, bạn đang đối mặt với nhiễu (noise).

Các phát hiện chính từ nghiên cứu gần đây:

Bạn nên hành động như thế nào:

Đừng hỏi trọng tài nào có điểm số cao nhất. Hãy hỏi công cụ trọng tài nào giúp bạn dễ dàng xác thực kết quả so với các nhãn do con người thực hiện nhất.

Nguồn: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi