𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

LLM-as-Judge menggerakkan sebagian besar leaderboard dan postingan evaluasi saat ini. Delapan studi baru dari Juni 2026 menunjukkan sebuah masalah. Para juri ini sering kali tidak sepakat dengan diri mereka sendiri dengan tingkat ketidakpastian yang sama seperti lemparan koin.

Jika Anda mengandalkan satu kali proses penjurian, Anda hanya melihat noise.

Temuan utama dari penelitian terbaru:

Apa yang harus Anda lakukan:

Berhentilah bertanya juri mana yang mendapat skor tertinggi. Bertanyalah alat juri mana yang paling memudahkan Anda untuk memvalidasi hasil terhadap label manusia yang sebenarnya.

Sumber: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

Komunitas belajar opsional: https://t.me/GyaanSetuAi