𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

📅2 hours ago⏱1 min read

𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

LLM-as-Judge menggerakkan sebagian besar leaderboard dan postingan evaluasi saat ini. Delapan studi baru dari Juni 2026 menunjukkan sebuah masalah. Para juri ini sering kali tidak sepakat dengan diri mereka sendiri dengan tingkat ketidakpastian yang sama seperti lemparan koin.

Jika Anda mengandalkan satu kali proses penjurian, Anda hanya melihat noise.

Temuan utama dari penelitian terbaru:

Reliabilitas rendah: Satu studi menjalankan dua juri OpenAI pada 29 tugas. Meskipun dengan input yang sama, para juri memberikan pemenang yang berbeda. Hal ini membuat leaderboard single-run menjadi tidak andal.
Bias komputasi: Skor model berubah berdasarkan seberapa banyak komputasi yang Anda izinkan selama pengujian. Sebuah model mungkin terlihat buruk hanya karena pengujian tersebut memiliki batas token yang rendah.
Bias merek: Juri menunjukkan preferensi terhadap nama-nama model yang terkenal. Hal ini memiringkan hasil ke arah merek-merek ternama.
Ketidaksesuaian tujuan: Dalam alat pendidikan, sebuah model mungkin memenangkan benchmark penyelesaian tugas tetapi gagal benar-benar membantu siswa belajar.

Apa yang harus Anda lakukan:

Pengembang solo: Lewati LLM-as-Judge untuk saat ini. Sebagai gantinya, beri label secara manual pada 30 output. Juri yang tidak divalidasi menciptakan kepercayaan diri palsu.
Tim kecil: Pilih alat yang membantu Anda mendapatkan data berlabel manusia dengan cepat. Tooling kurang penting dibandingkan validasi manusia yang sebenarnya.
Beban kerja batch besar: Jalankan setidaknya 20 hingga 50 percobaan per item. Gunakan majority vote untuk mengatasi noise.
Pemilik bisnis: Anggap keunggulan benchmark di bawah 10 poin sebagai hasil seri. Perhitungan matematika menunjukkan bahwa celah ini sering kali hilang saat dilakukan replikasi.

Berhentilah bertanya juri mana yang mendapat skor tertinggi. Bertanyalah alat juri mana yang paling memudahkan Anda untuk memvalidasi hasil terhadap label manusia yang sebenarnya.

Sumber: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

Komunitas belajar opsional: https://t.me/GyaanSetuAi

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

Continue reading

Alignment Faking pada LLM

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲