Evaluating Agentic AI In The Age Of LLM Benchmarks

Translated for your language. اقرأ الأصل.

AI-assisted draft.

GyaanSetu Editorialالأسبوع الماضي2دقيقة قراءة

Evaluating Agentic AI In The Age Of LLM Benchmarks

تقييم الذكاء الاصطناعي الوكيل (Agentic AI) في عصر معايير نماذج اللغات الكبيرة (LLM Benchmarks)

تتبع معظم اختبارات الذكاء الاصطناعي نمطًا بسيطًا: تقدم نموذجًا مطالبة (prompt)، ثم تقارن الإجابة بمرجع ما، ثم تضع درجة للنتيجة.

هذا الأسلوب ينجح في التلخيص، وينجح في التصنيف، لكنه يفشل عندما يتعين على النموذج التصرف في بيئة متغيرة.

تقدم ورقة "The Age of LLM" طريقة أفضل؛ فهي عبارة عن لعبة مواجهة (1 ضد 1) على شبكة. يتنافس نموذجان تحت "ضباب الحرب" (fog of war)، حيث لا يمكنهما رؤية كل شيء، لذا يتعين عليهما الاستطلاع أو التخمين للعثور على وحدات العدو، كما يجب عليهما استخدام الدبلوماسية لاقتراح صفقات أو إنذارات نهائية.

يجب أن تتبع كل حركة مخطط JSON صارمًا. وإذا كانت الحركة غير قانونية، يقوم النظام باستبعادها.

يقيس هذا الاختبار مهارات محددة:

تتبع الحالة (State tracking): هل يتذكر النموذج ما رآه وما فقده؟
إدارة المعتقدات (Belief management): هل يتصرف بمنطقية في ظل معلومات غير كاملة؟
صلاحية الإجراء (Action validity): هل يتبع قواعد البيئة؟
استراتيجية المدى الطويل (Long-horizon strategy): هل يمكنه اختيار تسلسل من التحركات يؤدي إلى هدف ما؟

قد يبدو النموذج فصيحًا ولكنه يفشل في الممارسة العملية؛ فقد ينسى حالته أو يصدر استدعاءات أدوات (tool calls) غير صالحة.

تظهر النتائج نمطًا معينًا؛ حيث تقع العديد من النماذج في فخاخ بسيطة تحت ظروف عدم اليقين. اختار معظمها تحركات عسكرية هجومية، وحدثت دبلوماسية، لكن الاتفاقيات نادرًا ما اكتملت. كما نتجت العديد من الأخطاء عن ضعف تتبع الحالة.

تغفل المعايير القياسية هذه الإخفاقات. يمكن للنموذج أن يكتب شرحًا رائعًا ولكنه يفشل في تتبع وحدة مخفية. ولا تكتشف ذلك إلا عندما تجبر البيئة النموذج على التصرف.

غالبًا ما يركز العمل الحالي في مجال الذكاء الاصطناعي على استخدام الأدوات. استخدام الأدوات ضروري، لكنه ليس كافيًا؛ إذ يجب على الوكيل الحقيقي الحفاظ على السياق والقدرة على التعافي عندما تتغير الأمور.

ينتقل القطاع من التركيز على جودة الدردشة إلى التركيز على النتائج. تُقاس الأنظمة المفيدة بمدى قدرتها على إنجاز العمل، وليس بكمية النثر المصقول الذي تنتجه.

إذا لم يتمكن الوكيل من الحفاظ على حالة معتقد (belief state)، فهو ليس استراتيجيًا. وإذا لم يتمكن من اتباع مخطط (schema)، فإن استخدامه للأدوات سيكون هشًا.

تتطلب القدرة الوكيلية الحقيقية أمرين:

القدرة على التخطيط.
القدرة على التنفيذ في ظل عدم اليقين.

في البرمجيات، المخرجات السيئة هي خطأ برمي (bug). أما في وكلاء الذكاء الاصطناعي، فالمخرجات السيئة غالبًا ما تكون فشلاً صامتًا؛ كأن لا يفعل استدعاء الأداة أي شيء، أو أن يكون هناك افتراض خفي خاطئ. إذا كنت تكتفي بتقييم الإجابة النهائية فقط، فستفوتك المشكلة.

يجب أن نختبر:

القابلية للملاحظة الجزئية (Partial observability)
الحالة المخفية (Hidden state)
التنسيق طويل المدى (Long-horizon coordination)
صلاحية الإجراء (Action validity)
التعافي من الأخطاء (Recovery from mistakes)

يجب أن يقترب التقييم من كيفية عمل هذه الأنظمة في العالم الحقيقي.

المصدر: https://dev.to/prabhakar_chaudhary_7afe4/what-the-age-of-llm-benchmark-says-about-evaluating-agentic-ai-2hfc

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

Evaluating Agentic AI In The Age Of LLM Benchmarks

تقييم الذكاء الاصطناعي الوكيل (Agentic AI) في عصر معايير نماذج اللغات الكبيرة (LLM Benchmarks)

متابعة القراءة

𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲

𝗗𝗼𝗻'𝘁 𝗨𝘀𝗲 𝗔𝗻 𝗟𝗟𝗠 𝗧𝗼 𝗗𝗲𝗰𝗶𝗱𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗔𝗰𝘁𝗶𝗼𝗻𝘀

The Agentic Loop: A Practical Field Guide

تقييم وكلاء الذكاء الاصطناعي ينتهي في وقت مبكر للغاية

Observability in Agentic AI