قابلیت اطمینان LLM-as-judge در سال ۲۰۲۶
ابزارهای LLM-as-judge امروزه قدرتبخش اکثر جدولهای ردهبندی (leaderboards) و پستهای ارزیابی هستند.
هشت مطالعه جدید از ژوئن ۲۰۲۶ نشاندهنده یک مشکل بزرگ هستند. این مطالعات فاش میکنند که داوران هوش مصنوعی اغلب با خودشان اختلاف نظر دارند. آنها مانند پرتاب سکه عمل میکنند.
دادهها سه شکست اصلی را نشان میدهند:
• قابلیت اطمینان پایین: یک مطالعه، دو داور OpenAI را در ۲۹ وظیفه مورد آزمایش قرار داد. آنها هر آزمایش را ۵۰ بار تکرار کردند. نتایج چنان متناقض بود که نویسندگان آن را «داور پرتاب سکه» نامیدند. یک حکم تکمرحلهای عمدتاً چیزی جز نویز نیست.
• حساسیت به محاسبات: عملکرد مدل بر اساس میزان محاسباتی که در طول آزمایش اجازه میدهید، تغییر میکند. یک مدل ممکن است صرفاً به این دلیل که آزمایش سقف توکن پایینی داشته، در جدول ردهبندی ضعیف به نظر برسد. بودجه را تغییر دهید تا رتبهبندی کاملاً عوض شود.
• سوگیری برند: داوران تمایلی به نامهای شناختهشدهای مانند GPT یا Claude نشان میدهند. این سوگیری نتایج را منحرف کرده و مقایسهها را ناعادلانه میکند.
نحوه اقدام شما:
برای توسعهدهندگان مستقل: فعلاً از LLM-as-judge صرفنظر کنید. ۳۰ خروجی را به صورت دستی برچسبگذاری کنید. یک داور تأیید نشده، اعتماد به نفس کاذب ایجاد میکند.
برای تیمها: ابزاری را انتخاب کنید که برچسبگذاری انسانی را آسان میکند. ابزارها اهمیت کمتری نسبت به اعتبارسنجی واقعی توسط انسان دارند.
برای حجم کاری دستهای: برای هر مورد حداقل ۲۰ تا ۵۰ بار آزمایش انجام دهید. از رای اکثریت برای غلبه بر نویز استفاده کنید.
برای مالکان محصول: اگر یک فروشنده برتری کمتر از ۱۰ امتیازی نشان داد، فرض کنید نتیجه مساوی است. سطح نویز بسیار بالاست و نمیتوان به شکافهای کوچک اعتماد کرد.
از پرسیدن اینکه کدام داور بالاترین امتیاز را میگیرد دست بردارید. بپرسید کدام ابزار داوری به شما کمک میکند تا با کمترین هزینه، نتایج را در برابر انسانها اعتبارسنجی کنید.
منبع: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca