ניהול אירועי AI קורס ללא תיעוד משותף
סוכני AI נכנסים לתחום התגובה לאירועים (Incident Response).
חברות כמו LangChain, PagerDuty ו-New Relic בונות סוכני SRE. הכלים הללו יכולים לקרוא traces, למשוך logs ולנסח עדכונים. הם עובדים מהר. הם מספקים הקשר (context) מצוין.
אבל יש מלכודת.
צוותים רבים מתייחסים להקשר של ה-AI כאל דף טיוטה פרטי. הם משתמשים ב-AI לעבודת מיתון (mitigation), כמו מציאת סיבת שורש (root cause). הם שוכחים את עבודת התיאום.
ניהול אירועים הוא לא רק מציאת סיבה. הוא עוסק בתיאום. הוא עוסק בגרימת אנשים להסכים על:
- מה קרה.
- מה השתנה.
- מה שללתם.
- מי אחראי על הצעד הבא.
- מה העסק צריך לשמוע.
אם המידע הזה נשאר בצ'אט פרטי או בהערות של סוכן, התהליך נכשל.
תיעוד אירוע AI מועיל אינו יומן צ'אט. הוא אובייקט תפעולי מובנה. הוא חייב לכלול:
- הטריגר (התראה, שירות, חומרה).
- ראיות (traces, logs, metrics, deploys אחרונים).
- היפותזות (מה אתם חושבים שקורה ומדוע).
- תיאוריות שנפסלו (מה הוכחתם שאינו הגורם).
- החלטות ואישורים (מדוע בחרתם לבצע rollback או להמתין).
המבנה הזה מונע כשל נפוץ של AI. סוכן יכול להפוך ל"בור כבידה" (gravity well). הוא מוצא סיבה סבירה ונשאר תקוע בה. לאחר מכן, הוא מפרש את כל הנתונים החדשים כדי לתמוך בתיאוריה האחת הזו.
תיעוד משותף ומובנה מאלץ את הצוות להסתכל על ראיות שסותרות את ההנחה. הוא שומר על הטיות הסוכן תחת שליטה.
מגיבים לא זקוקים ליותר רעש. הם זקוקים למצב משותף (shared state). כשמגיב חדש מצטרף לאירוע, הוא לא אמור לבזבז חמש דקות בחיפוש ב-Slack. הוא צריך לראות מיד את ההיפותזה הנוכחית, את הראיות ואת הפעולות הממתינות.
המטרה היא לא מגיב אוטונומי עם דמו מרהיב. המטרה היא כלי שמותיר אחריו ידע ארגוני.
הפסיקו לחפש את המודל החכם ביותר. התחילו לבנות תיעוד מובנה.
- הגדירו שדות ברורים לאירועים.
- אפשרו לסוכנים לקרוא ולכתוב לתיעוד הזה בצורה בטוחה.
- ודאו שהתיעוד לוכד החלטות, לא רק נתונים.
- השתמשו בתיעוד כדי להפוך את הכאוס של האירוע לידע שניתן לעשות בו שימוש חוזר.
כלי ה-AI הטוב ביותר הוא זה שגורם לצוות האנושי לפעול כיחידה אחת.
Optional learning community: https://t.me/GyaanSetuAi
