𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲
LLM-as-Judge menggerakkan sebagian besar leaderboard dan postingan evaluasi saat ini. Delapan studi baru dari Juni 2026 menunjukkan sebuah masalah. Para juri ini sering kali tidak sepakat dengan diri mereka sendiri dengan tingkat ketidakpastian yang sama seperti lemparan koin.
Jika Anda mengandalkan satu kali proses penjurian, Anda hanya melihat noise.
Temuan utama dari penelitian terbaru:
- Reliabilitas rendah: Satu studi menjalankan dua juri OpenAI pada 29 tugas. Meskipun dengan input yang sama, para juri memberikan pemenang yang berbeda. Hal ini membuat leaderboard single-run menjadi tidak andal.
- Bias komputasi: Skor model berubah berdasarkan seberapa banyak komputasi yang Anda izinkan selama pengujian. Sebuah model mungkin terlihat buruk hanya karena pengujian tersebut memiliki batas token yang rendah.
- Bias merek: Juri menunjukkan preferensi terhadap nama-nama model yang terkenal. Hal ini memiringkan hasil ke arah merek-merek ternama.
- Ketidaksesuaian tujuan: Dalam alat pendidikan, sebuah model mungkin memenangkan benchmark penyelesaian tugas tetapi gagal benar-benar membantu siswa belajar.
Apa yang harus Anda lakukan:
- Pengembang solo: Lewati LLM-as-Judge untuk saat ini. Sebagai gantinya, beri label secara manual pada 30 output. Juri yang tidak divalidasi menciptakan kepercayaan diri palsu.
- Tim kecil: Pilih alat yang membantu Anda mendapatkan data berlabel manusia dengan cepat. Tooling kurang penting dibandingkan validasi manusia yang sebenarnya.
- Beban kerja batch besar: Jalankan setidaknya 20 hingga 50 percobaan per item. Gunakan majority vote untuk mengatasi noise.
- Pemilik bisnis: Anggap keunggulan benchmark di bawah 10 poin sebagai hasil seri. Perhitungan matematika menunjukkan bahwa celah ini sering kali hilang saat dilakukan replikasi.
Berhentilah bertanya juri mana yang mendapat skor tertinggi. Bertanyalah alat juri mana yang paling memudahkan Anda untuk memvalidasi hasil terhadap label manusia yang sebenarnya.
Sumber: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca
Komunitas belajar opsional: https://t.me/GyaanSetuAi