𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

آج کل زیادہ تر لیڈر بورڈز اور ایویلیوایشن (evaluation) پوسٹس LLM-as-judge ٹولز کے ذریعے چلائی جا رہی ہیں۔

جون 2026 کی آٹھ نئی تحقیقات ایک بڑے مسئلے کی نشاندہی کرتی ہیں۔ یہ تحقیقات ظاہر کرتی ہیں کہ AI ججز اکثر اپنے ہی فیصلوں سے اختلاف کرتے ہیں۔ وہ سکہ اچھالنے (coin flip) کی طرح کام کرتے ہیں۔

ڈیٹا تین اہم ناکامیوں کو ظاہر کرتا ہے:

• کم قابلِ اعتمادیت (Low Reliability): ایک تحقیق میں 29 کاموں پر دو OpenAI ججز کا امتحان لیا گیا۔ انہوں نے ہر ٹیسٹ کو 50 بار دہرایا۔ نتائج اتنے غیر مستقل تھے کہ مصنفین نے اسے "The Coin Flip Judge" کا نام دیا۔ ایک بار کا فیصلہ زیادہ تر محض شور (noise) کے سوا کچھ نہیں۔

• کمپیوٹ کی حساسیت (Compute Sensitivity): ماڈل کی کارکردگی اس بات پر بدل جاتی ہے کہ آپ ٹیسٹ کے دوران کتنا کمپیوٹ (compute) استعمال کرنے کی اجازت دیتے ہیں۔ ایک ماڈل لیڈر بورڈ پر محض اس لیے خراب نظر آ سکتا ہے کیونکہ ٹیسٹ میں ٹوکن کی حد (token cap) کم تھی۔ بجٹ تبدیل کریں اور رینکنگ بدل جائے گی۔

• برانڈ کا تعصب (Brand Bias): ججز GPT یا Claude جیسے مشہور ناموں کے لیے ترجیح دکھاتے ہیں۔ یہ تعصب نتائج کو متاثر کرتا ہے اور موازنہ کو غیر منصفانہ بنا دیتا ہے۔

آپ کو کیا کرنا چاہیے:

یہ پوچھنا بند کریں کہ کون سا جج سب سے زیادہ اسکور کرتا ہے۔ یہ پوچھیں کہ کون سا جج ٹول آپ کو انسانی تصدیق کے مقابلے میں سب سے کم قیمت پر مدد فراہم کرتا ہے۔

Source: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca