𝗞𝗲𝗯𝗼𝗹𝗲𝗵𝗽𝗲𝗿𝗰𝗮𝘆𝗮𝗮𝗻 𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗶𝗻 𝟮𝟬𝟮𝟲
LLM-as-Judge mengendalikan hampir setiap papan pendahulu (leaderboard) dan model ganjaran hari ini. Lapan kajian baharu dari Jun 2026 menunjukkan masalah besar. Hakim-hakim ini sering kali tidak boleh dipercayai.
Penemuan terbesar: hakim tidak bersetuju dengan diri mereka sendiri sekerap lambungan syiling. Satu kajian menggunakan dua hakim OpenAI pada 29 tugasan. Mereka menjalankan 50 percubaan untuk setiap satu. Keputusannya sangat tidak konsisten sehingga penyelidik menggelarnya "The Coin Flip Judge."
Berikut adalah cara utama hakim-hakim ini gagal:
- Kebolehpercayaan rendah: Walaupun dengan tetapan yang tetap, hakim memberikan pemenang yang berbeza untuk input yang sama. Kelebihan dalam papan pendahulu daripada satu larian selalunya hanyalah hingar (noise).
- Bias pengkomputeran: Sesuatu model kelihatan lebih baik atau lebih buruk bergantung pada jumlah pengkomputeran yang dibenarkan oleh penilaian tersebut. Jika had ujian terlalu rendah, anda akan terlepas keupayaan sebenar model tersebut.
- Ketidakpadanan matlamat: Dalam pendidikan, model yang memenangi penanda aras (benchmarks) sering kali gagal untuk benar-benar mengajar pelajar. Mereka menyelesaikan tugasan tetapi tidak menyokong pembelajaran.
- Bias jenama: Hakim menunjukkan kecenderungan terhadap nama-nama terkenal seperti GPT atau Claude. Ini memihak kepada keputusan tertentu.
Cara anda harus bertindak:
- Untuk pembangun solo: Abaikan LLM-as-Judge. Sebaliknya, labelkan 30 output secara manual. Hakim yang buruk mewujudkan keyakinan palsu.
- Untuk pasukan: Pilih alat yang memudahkan pelabelan manusia. Penggunaan alatan kurang penting berbanding melakukan kerja manual itu sendiri.
- Untuk tugasan volum tinggi: Jalankan sekurang-kurangnya 20 hingga 50 percubaan bagi setiap item. Gunakan undian majoriti untuk mencari pemenang sebenar.
- Untuk pemilik perniagaan: Jika vendor mendakwa kelebihan kurang daripada 10 mata, anggap ia sebagai seri. Hingar daripada hakim berkemungkinan lebih besar daripada kelebihan tersebut.
Berhenti bertanya hakim mana yang terbaik. Tanya alat mana yang membantu anda mengesahkan keputusan berbanding label manusia dengan paling pantas.
Sumber: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca