סוכני AI בפרקטיקה: קריאת כשלים מה-Trace

סוכן ה-AI שלך לא קורס. הוא מדווח על הצלחה. אבל חשבון הבנק שלך מראה טעות.

החזר כספי נשלח עבור הזמנה שמעולם לא בוטלה. ללקוח יש גם את המוצר וגם את הכסף. הסוכן חשב שהוא ביצע את עבודתו.

אל תרוצו למודל גדול יותר. אל תוסיפו סתם לולאת retry. שניהם ניחושים.

במקום זאת, קראו את ה-trace. הסוכן כבר תיעד מה הוא עשה.

trace טוב בסביבת ייצור מתעד את הלולאה צעד אחר צעד. הוא חייב להראות:

  • מה הסוכן הבחין בו
  • מה הוא החליט
  • באיזה כלי הוא השתמש
  • מה הכלי החזיר
  • קריאת אימות ממקור האמת (source of truth)
  • המצב הסופי והעלות

החלק החשוב ביותר הוא הפער בין תגובת הכלי לבין קריאת האימות. כלי עשוי לומר "accepted", אך זה לא אומר שהעולם השתנה. קריאת האימות אומרת לכם אם השינוי אכן התרחש.

כשלים נוטים בדרך כלל לחלק לשתי קבוצות:

  1. כשלים בביצוע
  • כשלים בכלי: ארגומנטים שגויים או פקיעת זמן (timeouts).
  • כשלים בהסקה (Reasoning): המודל בחר בפעולה הלא נכונה.
  • כשלים במצב הבקרה (Control-state): הסוכן מאמין לשקר. הוא חושב שהזמנה בוטלה כי הכלי אמר כך, גם אם מסד הנתונים אומר אחרת.
  1. כשלים מבניים בלולאה
  • שחיקת הקשר (Context degradation): הסוכן מאבד את הרצף.
  • לולאה פרועה (Loop runaway): הסוכן חוזר על צעדים ללא התקדמות.
  • תקיעות שקטות (Silent stalls): הסוכן נתקע ללא שגיאה. אתם זקוקים ל-watchdog שיחשיב שתיקה ככשל.

כשאתם מוצאים כשל, אל תבצעו סתם retry. retry הוא אסטרטגיה, לא אבחנה.

  • אם מדובר בשגיאה חולפת כמו timeout, בצעו retry.
  • אם מדובר בשגיאת לוגיקה, ביצוע retry רק מבזבז את התקציב שלכם על התנגשות באותו קיר.
  • אם הסוכן נתקל בחסם (blocker), עצרו ועדכנו בן אדם.

הדרך הטובה ביותר לתקן כשל היא להפוך אותו לבדיקה (test).

השתמשו ב-trace כדי לכתוב grader. אם סוכן נכשל באימות ביטול, כתבו בדיקה שנכשלת אם מתבצע החזר כספי ללא סטטוס ביטול מאושר. הפכו את הכשלים ששילמתם עליהם לכשלים שלעולם לא תצטרכו לשלם עליהם פעמיים.

מקור: https://dev.to/gursharansingh/ai-agents-in-practice-part-7-when-the-loop-goes-wrong-reading-agent-failures-from-the-trace-5bdp

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi