قابلیت اطمینان LLM به عنوان داور در سال ۲۰۲۶

📅2 hours ago⏱1 min read

قابلیت اطمینان LLM-as-Judge در سال ۲۰۲۶

امروزه LLM-as-Judge قدرت‌بخش اکثر جدول‌های رده‌بندی (leaderboards) و پست‌های ارزیابی است. هشت مطالعه جدید از ژوئن ۲۰۲۶ نشان می‌دهند که مشکلی وجود دارد. این داوران اغلب با همان نرخ پرتاب سکه، با خودشان اختلاف نظر دارند.

اگر به یک بار اجرای داور تکیه کنید، در واقع با نویز (noise) روبرو هستید.

یافته‌های کلیدی از تحقیقات اخیر:

قابلیت اطمینان پایین: یک مطالعه، دو داور OpenAI را روی ۲۹ وظیفه اجرا کرد. حتی با ورودی یکسان، داوران برندگان متفاوتی را اعلام کردند. این امر باعث می‌شود جدول‌های رده‌بندی تک‌اجرایی غیرقابل اعتماد باشند.
سوگیری محاسباتی (Compute bias): امتیاز مدل‌ها بر اساس میزان محاسباتی که در طول آزمایش اجازه می‌دهید، تغییر می‌کند. یک مدل ممکن است صرفاً به این دلیل که آزمایش محدودیت توکن (token cap) کمی داشته است، ضعیف به نظر برسد.
سوگیری برند (Brand bias): داوران تمایلی به نام‌های مدل‌های شناخته‌شده نشان می‌دهند. این موضوع نتایج را به سمت برندهای مشهور منحرف می‌کند.
عدم تطابق هدف (Goal mismatch): در ابزارهای آموزشی، یک مدل ممکن است در بنچمارک حل مسئله برنده شود، اما در کمک کردن واقعی به یادگیری دانش‌آموز شکست بخورد.

نحوه اقدام شما:

توسعه‌دهندگان مستقل: فعلاً از LLM-as-Judge صرف‌نظر کنید. در عوض، ۳۰ خروجی را به صورت دستی برچسب‌گذاری کنید. یک داور تأییدنشده، اعتماد کاذب ایجاد می‌کند.
تیم‌های کوچک: ابزارهایی را انتخاب کنید که به شما کمک می‌کنند سریع‌تر به داده‌های برچسب‌گذاری شده توسط انسان برسید. ابزارها اهمیت کمتری نسبت به اعتبارسنجی واقعی توسط انسان دارند.
حجم کاری‌های دسته‌ای بزرگ: برای هر مورد حداقل ۲۰ تا ۵۰ بار آزمایش انجام دهید. از رای اکثریت برای غلبه بر نویز استفاده کنید.
صاحبان کسب‌وکار: هر پیشتازی در بنچمارک که کمتر از ۱۰ امتیاز باشد را به عنوان تساوی در نظر بگیرید. محاسبات نشان می‌دهد که این شکاف‌ها اغلب در هنگام بازتولید (replication) از بین می‌روند.

از پرسیدن اینکه کدام داور بالاترین امتیاز را می‌گیرد دست بردارید. بپرسید کدام ابزار داوری، اعتبارسنجی نتایج را در برابر برچسب‌های واقعی انسانی برای شما آسان‌تر می‌کند.

منبع: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi

قابلیت اطمینان LLM به عنوان داور در سال ۲۰۲۶

Continue reading

جعل هم‌سویی در LLMها

امتیاز بنچمارک LLM که به آن نیاز دارید وجود ندارد

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

قابلیت اطمینان LLM به عنوان داور در سال ۲۰۲۶

قابلیت اطمینان استفاده از LLM به عنوان داور در سال ۲۰۲۶