قابلیت اطمینان LLM-as-judge در سال ۲۰۲۶

ابزارهای LLM-as-judge امروزه قدرت‌بخش اکثر جدول‌های رده‌بندی (leaderboards) و پست‌های ارزیابی هستند.

هشت مطالعه جدید از ژوئن ۲۰۲۶ نشان‌دهنده یک مشکل بزرگ هستند. این مطالعات فاش می‌کنند که داوران هوش مصنوعی اغلب با خودشان اختلاف نظر دارند. آن‌ها مانند پرتاب سکه عمل می‌کنند.

داده‌ها سه شکست اصلی را نشان می‌دهند:

قابلیت اطمینان پایین: یک مطالعه، دو داور OpenAI را در ۲۹ وظیفه مورد آزمایش قرار داد. آن‌ها هر آزمایش را ۵۰ بار تکرار کردند. نتایج چنان متناقض بود که نویسندگان آن را «داور پرتاب سکه» نامیدند. یک حکم تک‌مرحله‌ای عمدتاً چیزی جز نویز نیست.

حساسیت به محاسبات: عملکرد مدل بر اساس میزان محاسباتی که در طول آزمایش اجازه می‌دهید، تغییر می‌کند. یک مدل ممکن است صرفاً به این دلیل که آزمایش سقف توکن پایینی داشته، در جدول رده‌بندی ضعیف به نظر برسد. بودجه را تغییر دهید تا رتبه‌بندی کاملاً عوض شود.

سوگیری برند: داوران تمایلی به نام‌های شناخته‌شده‌ای مانند GPT یا Claude نشان می‌دهند. این سوگیری نتایج را منحرف کرده و مقایسه‌ها را ناعادلانه می‌کند.

نحوه اقدام شما:

از پرسیدن اینکه کدام داور بالاترین امتیاز را می‌گیرد دست بردارید. بپرسید کدام ابزار داوری به شما کمک می‌کند تا با کمترین هزینه، نتایج را در برابر انسان‌ها اعتبارسنجی کنید.

منبع: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca