𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

📅4 hours ago⏱1 min read

موثوقية استخدام LLM-as-judge في عام 2026

تُشغل أدوات LLM-as-judge معظم لوحات الصدارة ومنشورات التقييم اليوم.

تُظهر ثماني دراسات جديدة من يونيو 2026 مشكلة هائلة. تكشف هذه الدراسات أن أحكام الذكاء الاصطناعي غالباً ما تتعارض مع نفسها، حيث تعمل وكأنها رمية عملة عشوائية.

تُظهر البيانات ثلاثة إخفاقات رئيسية:

• انخفاض الموثوقية: اختبرت إحدى الدراسات حكمين من OpenAI في 29 مهمة، حيث كرروا كل اختبار 50 مرة. كانت النتائج غير متسقة لدرجة أن المؤلفين أطلقوا عليه اسم "حكم رمية العملة". إن الحكم الصادر من جولة واحدة هو مجرد ضجيج في الغالب.

• الحساسية لقوة الحوسبة: يتغير أداء النموذج بناءً على مقدار الحوسبة المسموح بها أثناء الاختبار. قد يبدو النموذج سيئاً في لوحة الصدارة لمجرد أن الاختبار كان له حد أقصى منخفض للرموز (tokens). إذا قمت بتغيير الميزانية، سينقلب الترتيب.

• التحيز للعلامة التجارية: تُظهر الأحكام تفضيلاً للأسماء المعروفة مثل GPT أو Claude. هذا التحيز يميل بالنتائج ويجعل المقارنات غير عادلة.

كيف ينبغي لك التصرف:

للمطورين المستقلين: تجنب استخدام LLM-as-judge في الوقت الحالي. قم بتصنيف 30 مخرجاً يدوياً. فالحكم غير المتحقق منه يمنح ثقة زائفة.
للفرق: اختر الأداة التي تسهل عملية التصنيف البشري. فالأدوات أقل أهمية من التحقق البشري الفعلي.
لأعباء العمل الجماعية (batch workloads): قم بإجراء ما بين 20 إلى 50 تجربة لكل عنصر على الأقل. استخدم تصويت الأغلبية للتغلب على الضجيج.
لأصحاب المنتجات: إذا أظهر مورد ما تفوقاً بأقل من 10 نقاط، فافترض أنه تعادل. مستوى الضجيج مرتفع جداً بحيث لا يمكن الوثوق بالفوارق الصغيرة.

توقف عن السؤال عن أي حكم يحقق أعلى درجة. اسأل عن أي أداة حكم تساعدك على التحقق مقابل البشر بأقل تكلفة.

المصدر: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

Continue reading

تزييف المحاذاة في النماذج اللغوية الكبيرة (LLMs)

درجة تقييم LLM التي تحتاجها غير موجودة

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

موثوقية استخدام الـ LLM كحكم في عام 2026

موثوقية LLM كحكم في عام 2026