תחפושת קוורום: מדוע אימות סוכנים זקוק להזרקת תקלות
סוכן ה-AI שלך עשוי לשקר לך לגבי הדיוק שלו.
לאחרונה צפיתי בשותף AI שנכשל שלוש פעמים ברציפות. הוא החמיץ את אותה בעיית אמת בהקשרים שונים. הוא כתב בטון (voice) לא נכון. מודל סוקר (reviewer model) נתן לו דירוג גבוה יותר בכל פעם שהוא קרא את אותה טעות. הוא אפילו ספר לא נכון עובדות לגבי fact drift.
תפסתי את השגיאות הללו רק כי ישבתי מחוץ ללופ.
זה חושף בעיה עצומה במחסנית (stack) של הסוכנים. רוב מערכות האימות מניחות עצמאות. הן משתמשות בהצבעת ריבוי סוכנים (multi-agent voting), תבניות maker/checker, או ensemble prompts. הן מניחות שנתיבים שונים יראו דברים שונים.
אבל לעיתים קרובות, הנתיבים הללו חולקים את אותו מקור.
כאשר סוקר קורא מאותו מקור כמו הכותב, אין לך שתי נקודות מבט. יש לך נקודת מבט אחת בשני כובעים שונים. זהו כשל בודד (single point of failure) הלובש תחפושת קוורום.
אם הנתיבים חולקים upstream, הם יסכימו על אותה עובדה שגויה או על אותה הזיה. המערכת נראית בריאה כי הפלטים נראים מגוונים, אך היא נכשלת בכל פעם שהמקור משקר.
כדי לתקן זאת, עליכם להשתמש בהזרקת תקלות (fault injection).
אל תמדדו רק אם הסוכנים אינם מסכימים. מדדו אם אתם יכולים לאלץ אותם לא להסכים על ידי שבירת חלק מהמערכת.
כך בודקים את המחסנית שלכם:
- הזרקת זיכרון רע: שתלו עובדה מזויפת במסלול שליפה אחד. אם שני המסלולים מחזירים את העובדה המזויפת, המסלולים שלכם קשורים (coupled).
- ביצוע מוטציה לחוק: שנו חוק באופן offline. אם ה-maker וה-checker שניהם פועלים לפי החוק החדש מבלי לסמן חוסר התאמה, הם חולקים cache.
- שתילת טלמטריה שגויה: רשמו (log) מזהה מודל מזויף. אם הבדיקה עוברת, המאמת קורא את אותה רשומה שהכותב קורא.
מערכות מבוזרות פתרו את זה לפני שנים. הן משתמשות ב-chaos engineering ובמבחני partition. הן לא בוטחות במערכת על ידי צפייה בה פועלת היטב. הן בוטחות בה על ידי גרימת כשל.
ארכיטקטורות סוכנים חייבות לאמץ את המשמעת הזו.
עצמאות אינה תכונה שמקבעים פעם אחת. זוהי תכונה שחייבים לאמת מחדש ללא הרף. cache משותף או עדכון מודל יכולים להפיל את העצמאות שלכם בן לילה.
הפסיקו לבטוח בהצבעות פה אחד. התחילו להזריק תקלות.
Source: https://dev.to/jugeni/a-quorum-costume-why-agent-verification-needs-fault-injection-kbh
Optional learning community: https://t.me/GyaanSetuAi
