מה קורה כשסוכן ה-AI שלך נתקע בסביבת ייצור (Production)?

הכישלונות היקרים ביותר של סוכני AI אינם כשלים של המודל.

הם כשלים שקטים.

הסוכן נראה תקין. תהליך העבודה (workflow) רץ. טוקנים נשרפים. אבל הסוכן לא מתקדם בכלל.

ראיתי את הבעיות הללו שוב ושוב:

  • לולאות אינסופיות
  • סערות ניסיונות חוזרים (Retry storms)
  • קיפאון שקט
  • כשלים בכלי (tools) המוסתרים על ידי תגובות מוצלחות
  • סוכנים שסוטים מהמטרה
  • חוסר נראות לפעולות הסוכן

פרומפט טוב יותר לא יפתור את אלה.

אתם זקוקים לשכבת פיקוח בזמן ריצה (runtime supervision layer). רוב המסגרות (frameworks) מתמקדות בהרצת סוכנים. צוותי ייצור צריכים לענות על שאלות אחרות:

  • למה זה תקוע?
  • האם הוא מתקדם?
  • האם אני יכול להשהות אותו?
  • האם אני יכול להמשיך אותו?
  • האם כדאי לי להרוג (kill) אותו?

לוגים (logs) לבדם לא עונים על אלה.

הפרידו בין הפיקוח לבין הלוגיקה של הסוכן. אל תשימו מגנוני הגנה (guardrails) בתוך תהליך העבודה. השתמשו בשכבת runtime ייעודית כדי לצפות בביצוע. זה שומר על תהליכי עבודה פשוטים.

שכבת ה-runtime מנהלת:

  • זיהוי לולאות
  • ניהול ניסיונות חוזרים (retry management)
  • מגבלות תקציב
  • השהיה והמשכיות
  • נקודות בקרה (checkpoints)
  • סיבות עצירה
  • טלמטריה בזמן אמת

הפסיקו להשתמש ב-"failed" כסטטוס. השתמשו בסיבות ספציפיות:

  • LOOP_DETECTED
  • BUDGET_EXCEEDED
  • RETRY_LIMIT_REACHED
  • TOOL_FAILURE
  • TIMEOUT
  • USER_PAUSED

זה אומר למפעילים (operators) איך להתאושש.

ספירת צעדים נכשלת בזיהוי לולאות. סוכנים יכולים לרדוף אחרי מטרה לא נכונה מבלי להיכנס ללולאה. הם מבזבזים עשרים צעדים על תנועה הרחק מהיעד.

שאלו במקום זאת: "האם אנחנו קרובים יותר למטרה ממה שהיינו לפני מספר צעדים?" זה עוצר את הסטיות לפני שהן עולות ביוקר.

הבחינו בין השהיה (pause) לבין חיסול (kill):

  • Pause שומר על המצב (state). ניתן להמשיך מאוחר יותר.
  • Kill עוצר הכל. לא ניתן להמשיך.

צרו נקודות בקרה (checkpoints) לפני כל פעולה חיצונית כמו קריאות API, משימות דפדפן או כתיבות למסד נתונים. אם תהליך קורס, המערכת יודעת בדיוק מה היה בביצוע (in flight). זה הופך כשלים שקטים לכאלה שניתן להתאושש מהם.

כדי למנוע מסוכנים לשרוף טוקנים בזמן כשלים, השתמשו בשלושת אלה:

  • Exponential backoff
  • תקציבי ניסיונות חוזרים (retry budgets)
  • Circuit breakers

לוגים מראים את העבר. מפעילים צריכים לראות את ההווה. עקבו אחר המשימה הנוכחית, הצעד, הכלי והסטטוס בזמן אמת.

בניית סוכנים היא קלה. בניית סוכנים אמינים היא קשה. בעיות אמינות קורות מחוץ למודל. הן קורות ב-retries, ב-checkpoints ובפיקוח שלכם.

מהו הכשל הקשה ביותר שראיתם בסביבת ייצור עם סוכני AI?

מקור: https://dev.to/milancharan/what-happens-when-your-ai-agent-gets-stuck-in-production-3327

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi