موثوقية LLM-as-Judge في عام 2026
تعتمد تقنية LLM-as-Judge على تشغيل كافة لوحات الصدارة (leaderboards) ونماذج المكافأة (reward models) تقريباً اليوم. إلا أن ثماني دراسات جديدة من يونيو 2026 كشفت عن مشكلة هائلة؛ فهذه الأحكام غالباً ما تكون غير موثوقة.
النتيجة الأبرز: يختلف الحكام مع أنفسهم بنفس وتيرة رمي العملة المعدنية. استخدمت إحدى الدراسات حَكَمَيْن من OpenAI على 29 مهمة، وأجريا 50 تجربة لكل منها. كانت النتائج متضاربة لدرجة أن الباحثين أطلقوا عليه اسم "حكم رمي العملة" (The Coin Flip Judge).
إليكم الطرق الرئيسية التي تفشل بها هذه الأحكام:
- انخفاض الموثوقية: حتى مع تثبيت الإعدادات، يعطي الحكام فائزين مختلفين لنفس المدخلات. وغالباً ما تكون الصدارة في لوحة الصدارة الناتجة عن تشغيل واحد مجرد ضجيج (noise).
- انحياز الحوسبة: يبدو النموذج أفضل أو أسوأ اعتماداً على مقدار القدرة الحوسبية التي يسمح بها التقييم. إذا كان حد الاختبار منخفضاً جداً، فستفقد القدرة الحقيقية للنموذج.
- عدم توافق الأهداف: في مجال التعليم، غالباً ما تفشل النماذج التي تتصدر المعايير المرجعية (benchmarks) في تعليم الطلاب فعلياً؛ فهي تحل المهام ولكنها لا تدعم عملية التعلم.
- الانحياز للعلامة التجارية: يظهر الحكام تفضيلاً لأسماء معروفة مثل GPT أو Claude، مما يؤدي إلى تحريف النتائج.
كيف ينبغي لك التصرف:
- للمطورين المستقلين: تخطَّ استخدام LLM-as-Judge، وقم بتصنيف 30 مخرجاً يدوياً بدلاً من ذلك. فالحَكَم السيئ يمنحك ثقة زائفة.
- للفرق: اختر أداة تسهل عملية التصنيف البشري. فالأدوات أقل أهمية من القيام بالعمل اليدوي الفعلي.
- للمهام ذات الحجم الكبير: قم بإجراء ما بين 20 إلى 50 تجربة لكل عنصر على الأقل. واستخدم نظام التصويت بالأغلبية لتحديد الفائز الحقيقي.
- لأصحاب الأعمال: إذا ادعى مورد ما تفوقاً بفارق أقل من 10 نقاط، فاعتبر النتيجة تعادلاً؛ إذ من المرجح أن يكون الضجيج الناتج عن الحَكَم أكبر من هذا الفارق.
توقف عن السؤال عن أي حَكَم هو الأفضل. بل اسأل عن الأداة التي تساعدك على التحقق من النتائج مقابل التصنيفات البشرية بأسرع وقت ممكن.
المصدر: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca