2026년 LLM-as-Judge 신뢰성

오늘날 거의 모든 리더보드와 보상 모델(reward model)은 LLM-as-Judge 방식으로 운영됩니다. 2026년 6월에 발표된 8개의 새로운 연구는 심각한 문제를 보여줍니다. 이러한 판독기(judges)들은 종종 신뢰할 수 없습니다.

가장 중요한 발견은 판독기들이 동전 던지기만큼이나 자주 서로 다른 판단을 내린다는 것입니다. 한 연구에서는 29개의 작업에 대해 두 개의 OpenAI 판독기를 사용했습니다. 각 작업당 50회의 테스트를 수행했습니다. 결과가 너무 일관성이 없어서 연구자들은 이를 "동전 던지기 판독기(The Coin Flip Judge)"라고 불렀습니다.

이러한 판독기들이 실패하는 주요 방식은 다음과 같습니다:

대응 방법:

어떤 판독기가 가장 좋은지 묻는 것을 멈추십시오. 대신 어떤 도구가 인간의 라벨링과 대조하여 결과를 가장 빠르게 검증할 수 있게 도와주는지 물으십시오.

출처: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca