قابلیت اطمینان LLM-as-Judge در سال ۲۰۲۶
امروزه LLM-as-Judge قدرتبخش اکثر جدولهای ردهبندی (leaderboards) و پستهای ارزیابی است. هشت مطالعه جدید از ژوئن ۲۰۲۶ نشان میدهند که مشکلی وجود دارد. این داوران اغلب با همان نرخ پرتاب سکه، با خودشان اختلاف نظر دارند.
اگر به یک بار اجرای داور تکیه کنید، در واقع با نویز (noise) روبرو هستید.
یافتههای کلیدی از تحقیقات اخیر:
- قابلیت اطمینان پایین: یک مطالعه، دو داور OpenAI را روی ۲۹ وظیفه اجرا کرد. حتی با ورودی یکسان، داوران برندگان متفاوتی را اعلام کردند. این امر باعث میشود جدولهای ردهبندی تکاجرایی غیرقابل اعتماد باشند.
- سوگیری محاسباتی (Compute bias): امتیاز مدلها بر اساس میزان محاسباتی که در طول آزمایش اجازه میدهید، تغییر میکند. یک مدل ممکن است صرفاً به این دلیل که آزمایش محدودیت توکن (token cap) کمی داشته است، ضعیف به نظر برسد.
- سوگیری برند (Brand bias): داوران تمایلی به نامهای مدلهای شناختهشده نشان میدهند. این موضوع نتایج را به سمت برندهای مشهور منحرف میکند.
- عدم تطابق هدف (Goal mismatch): در ابزارهای آموزشی، یک مدل ممکن است در بنچمارک حل مسئله برنده شود، اما در کمک کردن واقعی به یادگیری دانشآموز شکست بخورد.
نحوه اقدام شما:
- توسعهدهندگان مستقل: فعلاً از LLM-as-Judge صرفنظر کنید. در عوض، ۳۰ خروجی را به صورت دستی برچسبگذاری کنید. یک داور تأییدنشده، اعتماد کاذب ایجاد میکند.
- تیمهای کوچک: ابزارهایی را انتخاب کنید که به شما کمک میکنند سریعتر به دادههای برچسبگذاری شده توسط انسان برسید. ابزارها اهمیت کمتری نسبت به اعتبارسنجی واقعی توسط انسان دارند.
- حجم کاریهای دستهای بزرگ: برای هر مورد حداقل ۲۰ تا ۵۰ بار آزمایش انجام دهید. از رای اکثریت برای غلبه بر نویز استفاده کنید.
- صاحبان کسبوکار: هر پیشتازی در بنچمارک که کمتر از ۱۰ امتیاز باشد را به عنوان تساوی در نظر بگیرید. محاسبات نشان میدهد که این شکافها اغلب در هنگام بازتولید (replication) از بین میروند.
از پرسیدن اینکه کدام داور بالاترین امتیاز را میگیرد دست بردارید. بپرسید کدام ابزار داوری، اعتبارسنجی نتایج را در برابر برچسبهای واقعی انسانی برای شما آسانتر میکند.
منبع: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi