قابلیت اطمینان LLM-as-Judge در سال ۲۰۲۶

امروزه LLM-as-Judge قدرت‌بخش اکثر جدول‌های رده‌بندی (leaderboards) و پست‌های ارزیابی است. هشت مطالعه جدید از ژوئن ۲۰۲۶ نشان می‌دهند که مشکلی وجود دارد. این داوران اغلب با همان نرخ پرتاب سکه، با خودشان اختلاف نظر دارند.

اگر به یک بار اجرای داور تکیه کنید، در واقع با نویز (noise) روبرو هستید.

یافته‌های کلیدی از تحقیقات اخیر:

نحوه اقدام شما:

از پرسیدن اینکه کدام داور بالاترین امتیاز را می‌گیرد دست بردارید. بپرسید کدام ابزار داوری، اعتبارسنجی نتایج را در برابر برچسب‌های واقعی انسانی برای شما آسان‌تر می‌کند.

منبع: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi