𝗞𝗲𝗯𝗼𝗹𝗲𝗵𝗽𝗲𝗿𝗰𝗮𝘆𝗮𝗮𝗻 𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗶𝗻 𝟮𝟬𝟮𝟲

LLM-as-Judge mengendalikan hampir setiap papan pendahulu (leaderboard) dan model ganjaran hari ini. Lapan kajian baharu dari Jun 2026 menunjukkan masalah besar. Hakim-hakim ini sering kali tidak boleh dipercayai.

Penemuan terbesar: hakim tidak bersetuju dengan diri mereka sendiri sekerap lambungan syiling. Satu kajian menggunakan dua hakim OpenAI pada 29 tugasan. Mereka menjalankan 50 percubaan untuk setiap satu. Keputusannya sangat tidak konsisten sehingga penyelidik menggelarnya "The Coin Flip Judge."

Berikut adalah cara utama hakim-hakim ini gagal:

Cara anda harus bertindak:

Berhenti bertanya hakim mana yang terbaik. Tanya alat mana yang membantu anda mengesahkan keputusan berbanding label manusia dengan paling pantas.

Sumber: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca