AI Agent Evaluation Ends Too Early

يعتقد معظم الناس أن تقييم الوكيل الذكي (AI agent) ينتهي عند الإطلاق. فهم يرون درجة عالية في اختبار معياري (benchmark) ويفترضون أن الوكيل جاهز. وهذا خطأ.

الدرجة العالية غالبًا ما تعني فقط أن الوكيل قد اجتاز حالات محددة قليلة. وهذا لا يعني أن الوكيل جاهز للعالم الحقيقي.

الاختبارات المعيارية الحالية بها فجوات هائلة. أظهرت مراجعة لـ 15 اختبارًا معياريًا رئيسيًا ما يلي:

  • لم يتضمن أي اختبار معياري السلامة أو الأمن في درجاته.
  • لم يتضمن أي اختبار معياري كفاءة التكلفة.
  • اعتمد 13 من أصل 15 اختبارًا فقط على النجاح أو الفشل الثنائي.
  • لم يصل أي منها إلى 50% من الجاهزية للنشر.

إن اختبار المخرجات النهائية فقط أمر خطير. فإذا قدم الوكيل إجابة صحيحة، فقد يبدو الأمر وكأنه نجاح، ولكن المسار الذي سلكه قد يكون معيبًا.

قد يقوم الوكيل بـ:

  • استخدام الأدوات الخاطئة للوصول إلى إجابة صحيحة.
  • تخطي خطوات التحقق تمامًا.
  • هلوسة الحقائق مع الوصول إلى استنتاج صحيح.
  • استنزاف ميزانيتك من خلال محاولات إعادة متكررة.

إذا قام وكيل دعم العملاء بمعالجة عملية استرداد لحساب خاطئ، فستبدو المخرجات جيدة، ولكن الوكيل قد فشل.

يجب عليك تقييم المسار، وليس الإجابة فقط.

يجب أن يغطي التقييم الحقيقي هذه الأبعاد:

  • صحة الأدوات والمعلمات (parameters).
  • الاستناد إلى الحقائق (grounding) والدقة.
  • التكلفة وزمن الاستجابة (latency).
  • السياسة والسلامة.
  • التعافي من الأخطاء.

توقف عن التعامل مع التقييم كتقرير إطلاق؛ بل تعامل معه كحلقة مستمرة.

الطريقة الأفضل للعمل:

  • بناء اختبارات معيارية عامة للقدرات.
  • إجراء اختبارات غير متصلة (offline) قبل الإصدار.
  • مراقبة تتبعات الإنتاج (production traces) في الوقت الفعلي.
  • تسجيل استدعاءات الأدوات، والوسائط (arguments)، والقرارات الوسيطة.
  • استخدام تتبعات الإنتاج الفاشلة لتحسين مجموعات البيانات غير المتصلة الخاصة بك.

التقييم هو مشكلة قابلية ملاحظة (observability). لا يكون الوكيل ناجحًا إلا إذا ظل سلوكه متسقًا مع أهداف عملك، وأدواتك، ونوايا المستخدم. وهذه الأشياء تتغير كل يوم.

لا تكتفِ بتخزين التتبعات فحسب، بل قم بتقييمها. فتخزين التتبعات دون تقييم هو مجرد مشكلة بحث، والتقييم غير المتصل دون بيانات الإنتاج ليس سوى مجرد استعراض شكلي.

لا ينبغي أن تكون الخطوة الأخيرة في التقييم هي الدرجة، بل يجب أن تكون الخطوة الأخيرة هي التتبع التالي.

Source: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa

Optional learning community: https://t.me/GyaanSetuAi