מהימנות LLM-as-judge בשנת 2026

כלי LLM-as-judge מניעים את רוב לוחות המובילים (leaderboards) ופוסטים של הערכה כיום.

שמונה מחקרים חדשים מיוני 2026 מראים בעיה עצומה. מחקרים אלו חושפים ששופטי AI לעיתים קרובות אינם מסכימים עם עצמם. הם פועלים כמו הטלת מטבע.

הנתונים מראים שלושה כשלונות עיקריים:

מהימנות נמוכה: מחקר אחד בחן שני שופטי OpenAI ב-29 משימות. הם חזרו על כל בדיקה 50 פעמים. התוצאות היו כל כך לא עקביות שהמחברים כינו זאת "The Coin Flip Judge". פסיקה של הרצה בודדת היא ברובה רעש.

רגישות למחשוב (Compute Sensitivity): ביצועי המודל משתנים בהתאם לכמות המחשוב המוקצית במהלך הבדיקה. מודל עשוי להיראות גרוע בלוח מובילים פשוט כי לבדיקה הייתה מגבלת טוקנים (token cap) נמוכה. שנו את התקציב והדירוג ישתנה.

הטיית מותג (Brand Bias): שופטים מראים העדפה לשמות מוכרים כמו GPT או Claude. הטיה זו מעוותת את התוצאות והופכת השוואות לבלתי הוגנות.

איך כדאי לכם לפעול:

הפסיקו לשאול איזה שופט מקבל את הציון הגבוה ביותר. שאלו איזה כלי שופט עוזר לכם לבצע אימות מול בני אדם בצורה הזולה ביותר.

Source: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca