אין Pull Request לסוכן אוטונומי
סקירות אבטחה מסורתיות מסתמכות על diff. מישהו פותח pull request. מישהו קורא אותו. הקוד בייצור (production) תואם לקוד שסקירתם.
סוכנים אוטונומיים שוברים את המודל הזה.
סוכן מתכנן וקורא לכלים בזמן ריצה (runtime). הוא לא מספק פעולות בתוך commit. הוא מחליט על פעולות בזמן שהוא פועל. אם תסקרו רק את קוד האפליקציה, תפספסו את הסיכון האמיתי.
סוכן הוא לא רק קוד. הוא קונפיגורציה (configuration) של זמן ריצה. הקונפיגורציה הזו כוללת:
• את ה-system prompt • את ה-harness או ה-loop • את ה-tool surface • זיכרון וזהות • מדיניות network egress • container images
שני סוכנים המשתמשים באותו מודל יכולים לפעול בצורה שונה בהתבסס על ההגדרות הללו. המודל נשאר קבוע. הקונפיגורציה משנה הכל.
צוותים רבים מתייחסים ל-system prompts כאל הגדרות פשוטות בתיבת טקסט. הם עורכים אותם בלוח בקרה (dashboard). זו טעות. שינוי של שורה אחת יכול להסיר guardrail. prompt שניתן לעריכה הוא נתיב קוד שלא נסקר.
תקריות אמיתיות מוכיחות זאת:
• בוט נתן עצות לא חוקיות למשכירים במשך שבועות. • בוט תמיכה התחיל לקלל לקוחות עקב עדכון prompt. • קבצים זדוניים השתמשו בתווים בלתי נראים כדי לעקוף כללים.
אלו לא היו כשלים של המודל. אלו היו שינויי קונפיגורציה שאיש לא סקר.
עליכם להתייחס לקונפיגורציה כמו לקוד.
שימו את ה-system prompts ואת הגדרות ה-harness שלכם בבקרת גרסאות (version control). שנו אותם רק דרך pull requests. השתמשו ב-diffs כדי לראות מה השתנה.
השתמשו ב-content hash עבור הקונפיגורציה המופרוסת (deployed) שלכם. ה-hash הזה צריך לכלול את גרסת ה-prompt, את ה-model ID ואת ה-container digest. אם אתם משנים את ה-prompt, הזהות של הסוכן משתנה. אי אפשר להחליף prompt בשקט.
יישמו drift detection על ה-agent surface. אל תנטרו רק את המארח (host). נטרו את רשימות שרתי ה-MCP ואת מדיניות ה-egress הספציפית עבור אותו סוכן.
בעת רישום לוגים (logging), עקבו אחר שני הדברים הללו:
• גודל ה-context בזמן קבלת ההחלטה: כמה מידע היה למודל בזמן שהוא פעל? • ה-parent prompt: במערכות מרובות סוכנים (multi-agent systems), מה הסוכן הקורא שלח?
אתם לא זקוקים לכלים חדשים. השתמשו בבקרת הגרסאות וב-structured logging הקיים שלכם. אתם רק צריכים לכוון אותם למקום הנכון.
האם אתם מנהלים גרסאות וסוקרים את ה-system prompts שלכם? או שכל מי שיש לו גישה לקונסולה יכול לשנות אותם ללא עקבות?
Optional learning community: https://t.me/GyaanSetuAi
