𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝗮𝘀 𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗱𝗮𝗹𝗮𝗺 𝟮𝟬𝟮𝟲
LLM-as-Judge menjalankan hampir setiap leaderboard dan reward model saat ini. Delapan studi baru dari Juni 2026 menunjukkan masalah besar. Para hakim ini sering kali tidak dapat diandalkan.
Temuan terbesar: para hakim tidak sepakat dengan diri mereka sendiri sesering lemparan koin. Satu studi menggunakan dua hakim OpenAI pada 29 tugas. Mereka menjalankan 50 uji coba untuk masing-masing tugas. Hasilnya sangat tidak konsisten sehingga para peneliti menyebutnya "The Coin Flip Judge."
Berikut adalah cara-cara utama kegagalan para hakim ini:
- Reliabilitas rendah: Bahkan dengan pengaturan yang tetap, hakim memberikan pemenang yang berbeda untuk input yang sama. Keunggulan di leaderboard dari satu kali jalan sering kali hanyalah noise.
- Bias komputasi: Sebuah model tampak lebih baik atau lebih buruk tergantung pada seberapa banyak komputasi yang diizinkan oleh evaluasi tersebut. Jika batas pengujian terlalu rendah, Anda akan melewatkan kemampuan asli model tersebut.
- Ketidaksesuaian tujuan: Dalam pendidikan, model yang memenangkan benchmark sering kali gagal untuk benar-benar mengajar siswa. Mereka menyelesaikan tugas tetapi tidak mendukung pembelajaran.
- Bias merek: Hakim menunjukkan preferensi terhadap nama-nama terkenal seperti GPT atau Claude. Hal ini memiringkan hasil.
Apa yang harus Anda lakukan:
- Untuk pengembang solo: Lewati LLM-as-Judge. Sebagai gantinya, beri label secara manual pada 30 output. Hakim yang buruk menciptakan kepercayaan diri palsu.
- Untuk tim: Pilih alat yang memudahkan pelabelan manusia. Alat bantu kurang penting dibandingkan melakukan pekerjaan manual itu sendiri.
- Untuk tugas bervolume tinggi: Jalankan setidaknya 20 hingga 50 uji coba per item. Gunakan voting mayoritas untuk menemukan pemenang yang sebenarnya.
- Untuk pemilik bisnis: Jika vendor mengklaim keunggulan kurang dari 10 poin, anggaplah itu sebagai seri. Noise dari hakim kemungkinan lebih besar daripada keunggulan tersebut.
Berhentilah bertanya hakim mana yang terbaik. Bertanyalah alat mana yang membantu Anda memvalidasi hasil terhadap label manusia dengan paling cepat.
Sumber: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca