قابلية الملاحظة في الذكاء الاصطناعي الوكيل (Agentic AI)

لقد حلت الخدمات المصغرة (microservices) التقليدية مشكلة قابلية الملاحظة؛ حيث توضح التتبعات (Traces) المسارات، وتظهر المقاييس (Metrics) زمن الاستجابة، بينما تروي السجلات (Logs) القصة.

أما الذكاء الاصطناعي الوكيل (Agentic AI) فيكسر هذا النموذج.

يمكن لسؤال واحد من المستخدم أن يُفعل حواجز الحماية (guardrails)، وقراءات الجلسة، واستدعاءات متعددة لـ LLM، وعمليات بحث عبر الويب، وحلقات الاستنتاج. غالبًا ما تكون الإخفاقات خفية؛ فقد تكون إحدى الأدوات بطيئة، أو قد يتضخم حجم نافذة السياق (context window) بشكل مفرط، أو قد يتدهور أداء النموذج تحت الضغط دون إرجاع أي خطأ.

لقد قمت مؤخرًا بتشغيل العرض التجريبي OpenTelemetry NBA Agent لاختبار كيفية مراقبة هذه الأنظمة. إليكم ما تعلمته حول بناء وكلاء ذكاء اصطناعي موثوقين.

الركائز الثلاث لقابلية ملاحظة الوكيل

التتبعات (Traces) أكثر قيمة من اختبارات الوحدة (unit tests). يمكن لنفس الأمر (prompt) أن يعطي إجابات مختلفة في كل مرة. يجب أن ترى المسار الذي اتخذه الوكيل، وليس النص النهائي فقط.

ربط القصد بالفعل. الإجابة المكونة من كلمة واحدة قد تنجح في حالة الطقس ولكنها تفشل في تقديم نصيحة مالية. أنت بحاجة إلى ربط قرارات حواجز الحماية واستخدام الأدوات بقصد المستخدم.

وضع خطوط أساس (baselines) مبكرة. تؤدي تحديثات النماذج وتغييرات الـ API إلى تغيير السلوك. أنت بحاجة إلى مقاييس قبل عملية النشر لمعرفة ما إذا كانت الأمور قد تحسنت أم ساءت.

ما الذي يجب قياسه

لا يمكنك مجرد مراقبة استدعاء النموذج؛ بل يجب عليك تزويد النظام البيئي بأكمله بأدوات القياس (instrumentation).

1. طبقة النموذج (The Model Layer)

تتبع أسماء العمليات، وتفاصيل المزود، واستخدام الرموز (tokens). راقب المدة وأسباب الانتهاء.

2. الأدوات وخوادم MCP

تعامل مع الأدوات مثل الخدمات المصغرة. تتبع زمن الاستجابة، ومعدلات النجاح، والوسائط (arguments). إذا كان الوكيل بطيئًا، فغالبًا ما يكون السبب هو API خارجي بطيء، وليس الـ LLM.

3. حواجز الحماية (Guardrails)

قم بقياس عدد مرات تفعيل حواجز الحماية وبأي موضوع. يساعد هذا في تبرير تكلفة طبقات الأمان للإدارة.

4. الذاكرة والجلسات

انتبه لتضخم السياق (context bloat). يمكن أن يؤدي ارتفاع عدد رموز الإدخال (input tokens) في كل دورة إلى قفزات هائلة في التكلفة.

المقاييس الرئيسية للوحة البيانات الخاصة بك

زمن الاستجابة (Latency): الوقت حتى ظهور أول رمز (TTFT) وزمن استجابة الدورة من البداية إلى النهاية. • التكلفة (Cost): إجمالي الرموز (tokens) والإنفاق التقديري لكل جلسة. • الموثوقية (Reliability): معدلات الخطأ حسب نوع النطاق (span kind) (LLM مقابل Tool مقابل HTTP). • السلوك (Behavior): عمق حلقة الوكيل وتكرار استدعاء الأدوات.

الذكاء الاصطناعي الوكيل (Agentic AI) هو نظام موزع حيث يكون المخطط احتماليًا (probabilistic). إذا لم تتمكن من رؤية حلقة الوكيل الكاملة، فلن تتمكن من تشغيله في بيئة الإنتاج.

المصدر: https://dev.to/archcode01/observability-in-agentic-ai-what-i-learned-after-instrumenting-a-real-llm-agent-with-opentelemetry-4h1

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi