تقييم وكلاء الذكاء الاصطناعي: مقاييس حتمية + حَكَم LLM

أنت تقوم بتشغيل العديد من وكلاء الذكاء الاصطناعي الصغار. لديك وكلاء للـ backend، والـ frontend، والموبايل، والـ devops. لكل وكيل مهمة واحدة.

عندما يكون لديك العديد من الوكلاء، ستواجه مشكلة. فأنت لا تعرف ما إذا كانوا جيدين أم لا، ولا تعرف ما إذا كان تعديل الـ prompt يجعلهم أفضل أو أسوأ. وقول "يبدو الأمر جيدًا" لا يجدي نفعًا عند العمل على نطاق واسع.

لقد قمت ببناء إطار عمل (framework) لحل هذه المشكلة. يستخدم الأرقام لقياس الأداء ويقوم بتحسين الـ prompts تلقائيًا.

الاستراتيجية

قم أولاً بقياس ما يمكنك قياسه باستخدام الرياضيات. لا تستخدم حَكَم LLM إلا عند الضرورة. المقاييس الحتمية سريعة ومجانية، بينما حَكَم LLM بطيء ويكلف مالاً.

كيف يعمل النظام:

• يقوم الـ harness بتشغيل كل وكيل كعملية (process) منفصلة. • يرسل مهمة إلى الوكيل. • يلتقط المخرجات. • يقيم النتيجة بناءً على البيانات المتوقعة.

يحتاج الوكيل فقط إلى القراءة من stdin والكتابة إلى stdout. يمكن أن يكون بلغة Python أو نص برمجي (shell script). الـ harness لا يهتم بذلك.

خمس مقاييس أساسية للتتبع:

  • الدقة (Accuracy): هل تتطابق المخرجات مع الهدف؟
  • درجة التشابه (Fuzzy score): ما مدى تشابه النص مع الهدف؟
  • معدل انتهاء المهلة (Timeout rate): كم مرة يفشل الوكيل في الإكمال؟
  • انتهاكات السلامة (Safety violations): هل تتطابق المخرجات مع أنماط غير آمنة؟
  • تباين قابلية التكرار (Reproducibility variance): هل يعطي الوكيل نفس الإجابة في كل مرة؟

إذا كان الوكيل صحيحًا ولكن غير متسق، فهذا يعتبر خطأً برمجياً (bug).

حَكَم LLM

بعض الأشياء يصعب قياسها بالرياضيات. فأنت بحاجة لمعرفة ما إذا كان الوكيل قد التزم بدوره أو اتبع القيود.

في هذه الحالات، يقوم حَكَم LLM بمراجعة العمل. حيث يتلقى معايير التقييم (rubric) ومخرجات الوكيل، ثم يعيد حكماً مهيكلاً. أقوم بالتحقق من صحة هذا الحكم مقابل JSON schema لضمان عدم تعطل التقرير.

يقوم الحَكَم بأكثر من مجرد وضع الدرجات؛ إذ يجب عليه اقتراح إصلاحات. فالنقد من قبيل "هذا ضعيف" لا فائدة منه، بينما النقد من قبيل "أضف كتلة JSON إلى الـ prompt" هو نقد قابل للتنفيذ.

حلقة التحسين

تُحفظ الإخفاقات في ملف، ويقوم هذا الملف بتغذية حلقة آلية. يبحث النظام عن أضعف جزء في الـ prompt ويحاول إصلاحه، ويحتفظ بمجموعة من المرشحين الجيدين، ثم يكتب أفضل النسخ مرة أخرى في الكود.

الدرجة الواحدة هي مجرد لقطة لحظية. استخدم السجل التاريخي لتتبع الاتجاهات، فهذا يخبرك ما إذا كنت تتحسن بمرور الوقت.

ابنِ أساسك على المقاييس الحتمية. واستخدم الحَكَم كمشرط، وليس كمطرقة.

تقييم وكلاء الذكاء الاصطناعي: المقاييس الحتمية مقابل حكم يعتمد على النماذج اللغوية الكبيرة (LLM)

إن تقييم أداء وكلاء الذكاء الاصطناعي (AI agents) هو مهمة معقدة للغاية. فبينما يمكننا بسهولة قياس دقة نموذج لغوي كبير (LLM) في مهمة تصنيف محددة، فإن تقييم "وكيل" يقوم بسلسلة من الخطوات لتحقيق هدف معين يطرح تحديات فريدة.

في هذا المقال، سنستعرض نهجين رئيسيين لتقييم وكلاء الذكاء الاصطناعي: المقاييس الحتمية (Deterministic Metrics) واستخدام LLM كحكم (LLM-as-a-judge).

التحدي في تقييم وكلاء الذكاء الاصطناعي

على عكس النماذج التقليدية التي تتنبأ بالكلمة التالية، فإن الوكلاء يعملون في بيئات ديناميكية. قد يتضمن عملهم:

  • استخدام الأدوات (Tool use)
  • التخطيط (Planning)
  • التفاعل مع البيئة (Environment interaction)

هذا يعني أن "الإجابة الصحيحة" ليست دائماً نصاً ثابتاً، بل قد تكون سلسلة من الإجراءات الصحيحة التي تؤدي إلى النتيجة المطلوبة.

النهج الأول: المقاييس الحتمية (Deterministic Metrics)

تعتمد المقاييس الحتمية على قواعد ثابتة ومنطق رياضي للتحقق من صحة المخرجات.

أمثلة على المقاييس الحتمية:

  • المطابقة التامة (Exact Match): التحقق مما إذا كان مخرج الوكيل يطابق تماماً الإجابة المتوقعة.
  • التعبيرات النمطية (Regex): التحقق من وجود أنماط معينة في النص (مثل تنسيق التاريخ أو البريد الإلكتروني).
  • تنفيذ الكود (Code Execution): إذا كان الوكيل يكتب كوداً، يمكننا تشغيله والتحقق من صحة النتيجة.
  • التحقق من صحة المخطط (Schema Validation): التأكد من أن مخرجات JSON تتبع هيكلاً محدداً.

المميزات:

  • السرعة: سريعة جداً في التنفيذ.
  • التكلفة: منخفضة للغاية (تكاد تكون معدومة).
  • القابلية للتكرار: تعطي نفس النتيجة دائماً لنفس المدخلات.

العيوب:

  • الجمود: لا يمكنها فهم المعنى أو السياق.
  • الحساسية للتنسيق: قد تفشل في تقييم إجابة صحيحة تماماً لمجرد وجود اختلاف بسيط في الصياغة.

النهج الثاني: استخدام LLM كحكم (LLM-as-a-judge)

يعتمد هذا النهج على استخدام نموذج لغوي قوي (مثل GPT-4) لتقييم مخرجات وكيل آخر بناءً على معايير محددة.

كيف يعمل؟

يتم تزويد "الحكم" بالمدخلات، والمخرجات المتوقعة (اختياري)، ومخرجات الوكيل، بالإضافة إلى "مطالبة" (Prompt) تشرح معايير التقييم.

المعايير التي يمكن تقييمها:

  • الأمانة (Faithfulness): هل المعلومات الواردة في الإجابة مستمدة حقاً من السياق المقدم؟
  • الصلة (Relevancy): هل تجيب الإجابة على سؤال المستخدم بشكل مباشر؟
  • التشابه الدلالي (Semantic Similarity): هل المعنى العام للإجابة قريب من الإجابة النموذجية؟

المميزات:

  • الفهم السياقي: يمكنها فهم الفروق الدقيقة والمعنى وراء الكلمات.
  • المرونة: يمكنها تقييم مخرجات نصية حرة ومعقدة.

العيوب:

  • التكلفة: مكلفة لأنها تتطلب استدعاءات API لنماذج قوية.
  • البطء: أبطأ بكثير من المقاييس الحتمية.
  • التحيز (Bias): قد تظهر النماذج تحيزاً نحو الإجابات الطويلة أو الإجابات التي تشبه أسلوبها الخاص.

مقارنة سريعة

الميزة المقاييس الحتمية LLM كحكم
السرعة عالية جداً منخفضة
التكلفة منخفضة جداً عالية
فهم السياق معدوم عالٍ
القابلية للتكرار عالية جداً متوسطة
التعامل مع النصوص الحرة ضعيف ممتاز

الخلاصة: النهج الهجين

للحصول على أفضل النتائج، لا ينبغي الاختيار بينهما، بل دمجهما. استخدم المقاييس الحتمية للتحقق من الهيكل والبيانات التقنية (مثل صحة JSON أو تنسيق التاريخ)، واستخدم LLM كحكم لتقييم الجودة، والأسلوب، والمنطق، والصلة بالموضوع.


المصدر: https://dev.to/pponali/scoring-ai-agents-deterministic-metrics-an-llm-judge-poj

المجتمع التعليمي الاختياري: https://t.me/GyaanSetuAi