AI Agent Rollback Plan: לבטל פעולות שגויות לפני שהמשתמשים מאבדים אמון
סוכן AI אמין לא חייב להיות מושלם. הוא צריך לדעת איך לעצור, להסביר את הטעות שלו ולהתאושש.
אם הסוכן שלכם מעדכן שדה CRM שגוי או שולח תשלום כפול, ניסיון חוזר (retry) פשוט לא יתקן את הנזק. אתם זקוקים לתוכנית rollback לפני שתתמודדו עם תקרית אמיתית.
ככל שסוכנים עוברים מצ'אט לעבודה ממשית, הם משנים מצב (mutate state). זה הופך את ה-rollback לתכונת מוצר, ולא רק למשימת backend.
מצבי כשל נפוצים:
- הסוכן משתמש ב-ID שגוי של רשומה.
- ניסיון חוזר (retry) חוזר על פעולה פעמיים.
- החלפת מודל משנה את אופן הפעולה של כלי (tool).
- תהליך עבודה (workflow) מתחדש עם זיכרון ישן.
- רצף חלקי משאיר נתונים לא עקביים.
איך לבנות שכבת התאוששות:
השתמשו ב-Action Ledger אל תסתמכו על לוגים (logs). צרו יומן (ledger) המתעד כל שינוי במצב. כל קריאה לכלי (tool call) חייבת ליצור רשומה לפני ואחרי הביצוע. זהו מקור האמת (source of truth) שלכם לצורך התאוששות.
סווגו את הפעולות שלכם לא כל פעולה היא זהה.
- קריאה בלבד (Read-only): אין צורך ב-rollback.
- עדכונים פנימיים: שחזור הערך הקודם מתוך snapshot.
- חיצוני הפיך: מחיקת האירוע או עדכון הסטטוס.
- חיצוני בלתי הפיך: השתמשו בפיצוי (compensation) במקום בביטול (undo) אמיתי. עבור אימיילים או תשלומים, אי אפשר "לבטל שליחה". עליכם לשלוח תיקון או זיכוי.
אכיפת אידמפוטנטיות (Idempotency) המודל אינו אוכף אידמפוטנטיות. סביבת ההרצה של הכלי שלכם חייבת לעשות זאת. השתמשו במפתחות אידמפוטנטיות (idempotency keys) כדי להבטיח שאם סוכן מבצע ניסיון חוזר למשימה, הוא לא ייצור השפעות לוואי (side effects) כפולות.
השתמשו ב-Saga Pattern עבור תהליכי עבודה ארוכים, לכל פעולה קדימה נדרשת פעולת פיצוי (compensating action).
- יצירת משימה? הפיצוי הוא מחיקה או ביטול שלה.
- עדכון שדה? הפיצוי הוא שחזור הערך הישן.
- שליחת אימייל? הפיצוי הוא שליחת תיקון.
הטמעת נקודות בקרה (Checkpoints) הפסיקו לבקש מהמודל "להבין איפה היינו" לאחר קריסה. השתמשו ב-checkpoints כדי לאחסן את המצב הנוכחי, פעולות שהושלמו ומשימות ממתינות. המערכת צריכה לטעון את ה-checkpoint כדי להמשיך בעבודה.
בניית תור התאוששות (Recovery Queue) כאשר שלב אימות נכשל, העבירו את המשימה לתור התאוששות. זה מאפשר לכם להמשיך, לפצות או לסגור את המשימה. עבור שגיאות בסיכון גבוה, בקשו תמיד אישור מאדם.
אמון נבנה באמצעות התאוששות גלויה. כאשר סוכן טועה, אל תשתמשו בשפה מעורפלת. אמרו למשתמש בדיוק מה הש
