𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝗮𝘀 𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗱𝗮𝗹𝗮𝗺 𝟮𝟬𝟮𝟲

LLM-as-Judge menjalankan hampir setiap leaderboard dan reward model saat ini. Delapan studi baru dari Juni 2026 menunjukkan masalah besar. Para hakim ini sering kali tidak dapat diandalkan.

Temuan terbesar: para hakim tidak sepakat dengan diri mereka sendiri sesering lemparan koin. Satu studi menggunakan dua hakim OpenAI pada 29 tugas. Mereka menjalankan 50 uji coba untuk masing-masing tugas. Hasilnya sangat tidak konsisten sehingga para peneliti menyebutnya "The Coin Flip Judge."

Berikut adalah cara-cara utama kegagalan para hakim ini:

Apa yang harus Anda lakukan:

Berhentilah bertanya hakim mana yang terbaik. Bertanyalah alat mana yang membantu Anda memvalidasi hasil terhadap label manusia dengan paling cepat.

Sumber: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca