موثوقية LLM-as-Judge في عام 2026

تعتمد تقنية LLM-as-Judge على تشغيل كافة لوحات الصدارة (leaderboards) ونماذج المكافأة (reward models) تقريباً اليوم. إلا أن ثماني دراسات جديدة من يونيو 2026 كشفت عن مشكلة هائلة؛ فهذه الأحكام غالباً ما تكون غير موثوقة.

النتيجة الأبرز: يختلف الحكام مع أنفسهم بنفس وتيرة رمي العملة المعدنية. استخدمت إحدى الدراسات حَكَمَيْن من OpenAI على 29 مهمة، وأجريا 50 تجربة لكل منها. كانت النتائج متضاربة لدرجة أن الباحثين أطلقوا عليه اسم "حكم رمي العملة" (The Coin Flip Judge).

إليكم الطرق الرئيسية التي تفشل بها هذه الأحكام:

كيف ينبغي لك التصرف:

توقف عن السؤال عن أي حَكَم هو الأفضل. بل اسأل عن الأداة التي تساعدك على التحقق من النتائج مقابل التصنيفات البشرية بأسرع وقت ممكن.

المصدر: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca