موثوقية استخدام LLM-as-judge في عام 2026
تُشغل أدوات LLM-as-judge معظم لوحات الصدارة ومنشورات التقييم اليوم.
تُظهر ثماني دراسات جديدة من يونيو 2026 مشكلة هائلة. تكشف هذه الدراسات أن أحكام الذكاء الاصطناعي غالباً ما تتعارض مع نفسها، حيث تعمل وكأنها رمية عملة عشوائية.
تُظهر البيانات ثلاثة إخفاقات رئيسية:
• انخفاض الموثوقية: اختبرت إحدى الدراسات حكمين من OpenAI في 29 مهمة، حيث كرروا كل اختبار 50 مرة. كانت النتائج غير متسقة لدرجة أن المؤلفين أطلقوا عليه اسم "حكم رمية العملة". إن الحكم الصادر من جولة واحدة هو مجرد ضجيج في الغالب.
• الحساسية لقوة الحوسبة: يتغير أداء النموذج بناءً على مقدار الحوسبة المسموح بها أثناء الاختبار. قد يبدو النموذج سيئاً في لوحة الصدارة لمجرد أن الاختبار كان له حد أقصى منخفض للرموز (tokens). إذا قمت بتغيير الميزانية، سينقلب الترتيب.
• التحيز للعلامة التجارية: تُظهر الأحكام تفضيلاً للأسماء المعروفة مثل GPT أو Claude. هذا التحيز يميل بالنتائج ويجعل المقارنات غير عادلة.
كيف ينبغي لك التصرف:
للمطورين المستقلين: تجنب استخدام LLM-as-judge في الوقت الحالي. قم بتصنيف 30 مخرجاً يدوياً. فالحكم غير المتحقق منه يمنح ثقة زائفة.
للفرق: اختر الأداة التي تسهل عملية التصنيف البشري. فالأدوات أقل أهمية من التحقق البشري الفعلي.
لأعباء العمل الجماعية (batch workloads): قم بإجراء ما بين 20 إلى 50 تجربة لكل عنصر على الأقل. استخدم تصويت الأغلبية للتغلب على الضجيج.
لأصحاب المنتجات: إذا أظهر مورد ما تفوقاً بأقل من 10 نقاط، فافترض أنه تعادل. مستوى الضجيج مرتفع جداً بحيث لا يمكن الوثوق بالفوارق الصغيرة.
توقف عن السؤال عن أي حكم يحقق أعلى درجة. اسأل عن أي أداة حكم تساعدك على التحقق مقابل البشر بأقل تكلفة.
المصدر: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca