𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

📅3 hours ago⏱1 min read

𝗞𝗲𝗯𝗼𝗹𝗲𝗵𝗽𝗲𝗿𝗰𝗮𝘆𝗮𝗮𝗻 𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗶𝗻 𝟮𝟬𝟮𝟲

LLM-as-Judge mengendalikan hampir setiap papan pendahulu (leaderboard) dan model ganjaran hari ini. Lapan kajian baharu dari Jun 2026 menunjukkan masalah besar. Hakim-hakim ini sering kali tidak boleh dipercayai.

Penemuan terbesar: hakim tidak bersetuju dengan diri mereka sendiri sekerap lambungan syiling. Satu kajian menggunakan dua hakim OpenAI pada 29 tugasan. Mereka menjalankan 50 percubaan untuk setiap satu. Keputusannya sangat tidak konsisten sehingga penyelidik menggelarnya "The Coin Flip Judge."

Berikut adalah cara utama hakim-hakim ini gagal:

Kebolehpercayaan rendah: Walaupun dengan tetapan yang tetap, hakim memberikan pemenang yang berbeza untuk input yang sama. Kelebihan dalam papan pendahulu daripada satu larian selalunya hanyalah hingar (noise).
Bias pengkomputeran: Sesuatu model kelihatan lebih baik atau lebih buruk bergantung pada jumlah pengkomputeran yang dibenarkan oleh penilaian tersebut. Jika had ujian terlalu rendah, anda akan terlepas keupayaan sebenar model tersebut.
Ketidakpadanan matlamat: Dalam pendidikan, model yang memenangi penanda aras (benchmarks) sering kali gagal untuk benar-benar mengajar pelajar. Mereka menyelesaikan tugasan tetapi tidak menyokong pembelajaran.
Bias jenama: Hakim menunjukkan kecenderungan terhadap nama-nama terkenal seperti GPT atau Claude. Ini memihak kepada keputusan tertentu.

Cara anda harus bertindak:

Untuk pembangun solo: Abaikan LLM-as-Judge. Sebaliknya, labelkan 30 output secara manual. Hakim yang buruk mewujudkan keyakinan palsu.
Untuk pasukan: Pilih alat yang memudahkan pelabelan manusia. Penggunaan alatan kurang penting berbanding melakukan kerja manual itu sendiri.
Untuk tugasan volum tinggi: Jalankan sekurang-kurangnya 20 hingga 50 percubaan bagi setiap item. Gunakan undian majoriti untuk mencari pemenang sebenar.
Untuk pemilik perniagaan: Jika vendor mendakwa kelebihan kurang daripada 10 mata, anggap ia sebagai seri. Hingar daripada hakim berkemungkinan lebih besar daripada kelebihan tersebut.

Berhenti bertanya hakim mana yang terbaik. Tanya alat mana yang membantu anda mengesahkan keputusan berbanding label manusia dengan paling pantas.

Sumber: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

Skor Penanda Aras LLM yang Anda Perlukan Tidak Wujud

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲