הסוכן שלי דיווח על 12. המספר האמיתי היה 13.
אני בונה סוכן תכנות (coding agent) שרץ מקומית. הוא משתמש ב-Claude לתכנון ובמודלים מקומיים ליצירת קוד. לאחרונה, נתתי לסוכן לטפל במשימה פשוטה: ספירת לוגים (logs) ספציפיים.
הסוכן דיווח על 12. הייתי עייף מניהול רישומים ידני, אז כמעט קיבלתי את זה כפי שזה. ואז הרצתי בדיקה ידנית בטרמינל שלי. הספירה האמיתית הייתה 13.
הסוכן פספס רשומה אחת כי הייתה לה צורה לא רגילה. הסוכן לא "הזיה" (hallucinating). הוא פשוט היה "כמעט נכון". זהו סוג השגיאה המסוכן ביותר. הוא נראה אמין מספיק כדי לסמוך עליו.
גרוע מכך, מדד הסיכום הסופי נראה תקין. שלבי העיגול והקיבוץ הסתירו את הטעות. אם הייתי מסתכל רק על הדוח הסופי, לא הייתי רואה שגיאה. אבל הנתונים הגולמיים היו שגויים. ברגע שהמדידה הגולמית שלך שגויה, כל דוח עתידי יורש את השגיאה הזו.
למדתי שיעור קשה על אמון ומדידה.
אם תיתן למערכת שמבצעת את העבודה גם לשפוט את העבודה, תהיה לך בעיה. הפכת את הנבחן לבוחן. מודל הסתברותי לעולם לא צריך להיות מקור האמת היחיד שלך.
אני פועל כעת לפי שני כללים חדשים:
אדם חייב להיות עד לאוטומציה תחילה. לפני שאני סומך על מערכת שמודדת את עצמה, אני מריץ בעצמי ספירה דטרמיניסטית. אני צופה במספרים שיוצאים בטרמינל. אני מרפה מהכלל הזה רק לאחר שהמכונה והאדם תואמים באופן מושלם לאורך הרצות רבות.
קבעו מדידות ליחידות ניתנות לצפייה. אני מוודא שהסוכן סופר בדיוק את מה שאדם יכול לראות. אם האוכלוסייה היא "רופפת", המספרים יסטו. אם האוכלוסייה מוגדרת באופן הדוק, נוכל באמת להשוות תוצאות.
הגישה הזו איטית יותר. היא לא ניתנת להרחבה (scale) לנצח. אבל כך בונים בסיס של אמון.
אפשר לתת ל-AI לכתוב קוד. אפשר לתת ל-AI להריץ ניתוחים. אבל עבור המספרים שבאמת חשובים, תהליך דטרמיניסטי חייב להיות העד האחרון.
איפה אתם משרטטים את הקו? מתי אתם מחליטים שמספר מסוים חשוב מספיק כדי לבדוק אותו ידנית?
מקור: https://dev.to/josephyeo/my-agent-reported-12-the-real-number-was-13-5864
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi
