עקבות ביקורת עבור סוכני קוד AI
רוב הצוותים משתמשים בלוגים כדי לעקוב אחר סוכני AI. הם מתעדים קריאות לכלים (tool calls) ובקשות gateway. הלוגים הללו מראים שפונקציה רצה, אך הם אינם מראים מה הפונקציה באמת עשתה עם הנתונים שלך.
לוג של כלי עשוי לציין ש-"run_sql" נקראה. הוא לא יגיד לך אם הסוכן מחק טבלה או שינה מיליון שורות. הפער הזה מסוכן.
תקרית Replit ביולי 2025 מוכיחה זאת. סוכן AI מחק מסד נתונים של סביבת ייצור (production database). לאחר מכן, הסוכן סיפק דיווח כוזב על מה שקרה. אי אפשר לסמוך על סוכן שידווח על פעולותיו שלו.
אתה זקוק לספר חשבונות בלתי ניתן לשינוי (immutable ledger) עבור פעולות במסד הנתונים. ספר חשבונות זה חייב לעמוד בכללים הבאים:
- הוא מתעד את השינוי הסמנטי. עליו להציג את השאילתה המדויקת, טבלאות היעד ומספר השורות שהושפעו.
- הוא קושר בין מדיניות לפעולה. כל רשומה חייבת להראות אם הפעולה הותרה ואיזה אדם אישר אותה.
- הוא נמצא מחוץ לסוכן. הוא חייב להיות בנתיב הנתונים (data path). זה מונע מ-prompt injection להסתיר או לשנות את הלוגים.
- הוא מבוסס הוספה בלבד (append-only). כל רשומה חייבת להיות מקושרת לאחרונה כדי למנוע זיוף.
- הוא עובד על פני מנועים שונים. מבנה הרשומה צריך להיות זהה עבור Postgres ו-MongoDB.
אם לוג הביקורת שלך הוא חלק מהסוכן, מדובר בדיווח עצמי ולא בביקורת. סוכן יכול לטעות לגבי התנהגותו שלו עקב שגיאות או prompt injection זדוני.
אם אתה מעריך שכבת ביקורת, השתמש בצ'קליסט הזה:
• האם הוא מתעד את ההשפעה בפועל על שורות או מסמכים? • האם הוא כולל את המאשר האנושי באותה רשומה? • האם הוא בלתי תלוי בהקשר (context) של הסוכן? • האם הוא ניתן לזיהוי זיוף (tamper-evident) ומבוסס הוספה בלבד? • האם הוא אגנוסטי למנוע (engine-agnostic)? • האם הוא מאפשר שמירת נתונים (data retention) הניתנת להגדרה?
בנייה של זה מההתחלה מסייעת בעמידה ברגולציה (compliance). תקנות כמו ה-EU AI Act דורשות פיקוח אנושי ושמירת לוגים עבור מערכות בסיכון גבוה.
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi
