Observability in Agentic AI

Translated for your language. Read the original.

AI-assisted draft.

Observability ב-Agentic AI

מיקרו-שירותים (microservices) מסורתיים כבר פתרו את נושא ה-observability. Traces מראים נתיבים. Metrics מראים latency. Logs מספרים את הסיפור.

Agentic AI שובר את המודל הזה.

שאלה אחת של משתמש יכולה להפעיל guardrails, קריאות session, קריאות LLM מרובות, חיפושים באינטרנט ולולאות הסקה (reasoning loops). הכשלים הם לרוב דקים. כלי מסוים עשוי להיות איטי. חלון ההקשר (context window) עשוי לגדול מדי. מודל עשוי להחליש תחת עומס מבלי להחזיר שגיאה.

לאחרונה הרצתי את ה-demo של OpenTelemetry NBA Agent כדי לבדוק איך אנחנו מבצעים observability למערכות הללו. הנה מה שלמדתי על בניית סוכני AI אמינים.

The Three Pillars of Agent Observability

• Traces הם בעלי ערך רב יותר מ-unit tests. אותה prompt יכולה להניב תשובות שונות בהרצות שונות. עליכם לראות את הנתיב שהסוכן עבר, לא רק את הטקסט הסופי.

• קשרו בין כוונה (intent) לפעולה. תשובה של מילה אחת עובדת עבור מזג אוויר, אך נכשלת עבור ייעוץ פיננסי. עליכם לקשר בין החלטות ה-guardrails ושימוש בכלים לבין כוונת המשתמש.

• קבעו baselines בשלב מוקדם. עדכוני מודלים ושינויי API משנים התנהגות. אתם זקוקים ל-metrics לפני פריסה (deployment) כדי לדעת אם הדברים השתפרו או הדרדרו.

What to Measure

אי אפשר פשוט לנטר את קריאת המודל. עליכם לבצע instrumentation לכל המערכת (ecosystem).

The Model Layer עקבו אחר שמות פעולות, פרטי ספק ושימוש ב-tokens. נתרו את משך הזמן (duration) ואת סיבות הסיום (finish reasons).
Tools and MCP Servers התייחסו לכלים כמו למיקרו-שירותים. עקבו אחר latency, שיעורי הצלחה וארגומנטים. אם סוכן איטי, זה לרוב בגלל API חיצוני איטי, ולא ה-LLM.
Guardrails מדדו באיזו תדירות ה-guardrails מופעלים ובאילו נושאים. זה עוזר להצדיק בפני ההנהלה את העלות של שכבות הבטיחות.
Memory and Sessions שימו לב לנפיחות הקשר (context bloat). עלייה במספר ה-input tokens בכל תור (turn) עלולה להוביל לזינוקים עצומים בעלויות.

Key Metrics for your Dashboard

• Latency: זמן לטוקן ראשון (TTFT) ו-latency מקצה לקצה של כל תור. • Cost: סך הכל tokens והוצאה מוערכת לכל סשן. • Reliability: שיעורי שגיאות לפי סוג span (LLM לעומת Tool לעומת HTTP). • Behavior: עומק לולאת הסוכן ותדירות קריאות לכלים.

Agentic AI הוא מערכת מבוזרת שבה המתכנן (planner) הוא הסתברותי (probabilistic). אם אינכם יכולים לראות את לולאת הסוכן המלאה, לא תוכלו להפעיל אותה בסביבת ייצור (production).

Source: https://dev.to/archcode01/observability-in-agentic-ai-what-i-learned-after-instrumenting-a-real-llm-agent-with-opentelemetry-4h1

Optional learning community: https://t.me/GyaanSetuAi

Observability in Agentic AI

Continue reading

לולאת הסוכנים: מדריך שטח מעשי

The Agentic Loop: A Practical Field Guide

הערכת AI סוכנותי בעידן של מדדי LLM