قابلیت اطمینان استفاده از LLM به عنوان داور در سال ۲۰۲۶

📅4 hours ago⏱1 min read

قابلیت اطمینان LLM-as-judge در سال ۲۰۲۶

ابزارهای LLM-as-judge امروزه قدرت‌بخش اکثر جدول‌های رده‌بندی (leaderboards) و پست‌های ارزیابی هستند.

هشت مطالعه جدید از ژوئن ۲۰۲۶ نشان‌دهنده یک مشکل بزرگ هستند. این مطالعات فاش می‌کنند که داوران هوش مصنوعی اغلب با خودشان اختلاف نظر دارند. آن‌ها مانند پرتاب سکه عمل می‌کنند.

داده‌ها سه شکست اصلی را نشان می‌دهند:

• قابلیت اطمینان پایین: یک مطالعه، دو داور OpenAI را در ۲۹ وظیفه مورد آزمایش قرار داد. آن‌ها هر آزمایش را ۵۰ بار تکرار کردند. نتایج چنان متناقض بود که نویسندگان آن را «داور پرتاب سکه» نامیدند. یک حکم تک‌مرحله‌ای عمدتاً چیزی جز نویز نیست.

• حساسیت به محاسبات: عملکرد مدل بر اساس میزان محاسباتی که در طول آزمایش اجازه می‌دهید، تغییر می‌کند. یک مدل ممکن است صرفاً به این دلیل که آزمایش سقف توکن پایینی داشته، در جدول رده‌بندی ضعیف به نظر برسد. بودجه را تغییر دهید تا رتبه‌بندی کاملاً عوض شود.

• سوگیری برند: داوران تمایلی به نام‌های شناخته‌شده‌ای مانند GPT یا Claude نشان می‌دهند. این سوگیری نتایج را منحرف کرده و مقایسه‌ها را ناعادلانه می‌کند.

نحوه اقدام شما:

برای توسعه‌دهندگان مستقل: فعلاً از LLM-as-judge صرف‌نظر کنید. ۳۰ خروجی را به صورت دستی برچسب‌گذاری کنید. یک داور تأیید نشده، اعتماد به نفس کاذب ایجاد می‌کند.
برای تیم‌ها: ابزاری را انتخاب کنید که برچسب‌گذاری انسانی را آسان می‌کند. ابزارها اهمیت کمتری نسبت به اعتبارسنجی واقعی توسط انسان دارند.
برای حجم کاری دسته‌ای: برای هر مورد حداقل ۲۰ تا ۵۰ بار آزمایش انجام دهید. از رای اکثریت برای غلبه بر نویز استفاده کنید.
برای مالکان محصول: اگر یک فروشنده برتری کمتر از ۱۰ امتیازی نشان داد، فرض کنید نتیجه مساوی است. سطح نویز بسیار بالاست و نمی‌توان به شکاف‌های کوچک اعتماد کرد.

از پرسیدن اینکه کدام داور بالاترین امتیاز را می‌گیرد دست بردارید. بپرسید کدام ابزار داوری به شما کمک می‌کند تا با کمترین هزینه، نتایج را در برابر انسان‌ها اعتبارسنجی کنید.

منبع: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

قابلیت اطمینان استفاده از LLM به عنوان داور در سال ۲۰۲۶

Continue reading

جعل هم‌سویی در LLMها

امتیاز بنچمارک LLM که به آن نیاز دارید وجود ندارد

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

قابلیت اطمینان LLM به عنوان داور در سال ۲۰۲۶

قابلیت اطمینان LLM به عنوان داور در سال ۲۰۲۶