My Agent Reported 12. The Real Number Was 13.

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialלפני שבועיים2min read

My Agent Reported 12. The Real Number Was 13.

הסוכן שלי דיווח על 12. המספר האמיתי היה 13.

אני בונה סוכן תכנות (coding agent) שרץ מקומית. הוא משתמש ב-Claude לתכנון ובמודלים מקומיים ליצירת קוד. לאחרונה, נתתי לסוכן לטפל במשימה פשוטה: ספירת לוגים (logs) ספציפיים.

הסוכן דיווח על 12. הייתי עייף מניהול רישומים ידני, אז כמעט קיבלתי את זה כפי שזה. ואז הרצתי בדיקה ידנית בטרמינל שלי. הספירה האמיתית הייתה 13.

הסוכן פספס רשומה אחת כי הייתה לה צורה לא רגילה. הסוכן לא "הזיה" (hallucinating). הוא פשוט היה "כמעט נכון". זהו סוג השגיאה המסוכן ביותר. הוא נראה אמין מספיק כדי לסמוך עליו.

גרוע מכך, מדד הסיכום הסופי נראה תקין. שלבי העיגול והקיבוץ הסתירו את הטעות. אם הייתי מסתכל רק על הדוח הסופי, לא הייתי רואה שגיאה. אבל הנתונים הגולמיים היו שגויים. ברגע שהמדידה הגולמית שלך שגויה, כל דוח עתידי יורש את השגיאה הזו.

למדתי שיעור קשה על אמון ומדידה.

אם תיתן למערכת שמבצעת את העבודה גם לשפוט את העבודה, תהיה לך בעיה. הפכת את הנבחן לבוחן. מודל הסתברותי לעולם לא צריך להיות מקור האמת היחיד שלך.

אני פועל כעת לפי שני כללים חדשים:

אדם חייב להיות עד לאוטומציה תחילה. לפני שאני סומך על מערכת שמודדת את עצמה, אני מריץ בעצמי ספירה דטרמיניסטית. אני צופה במספרים שיוצאים בטרמינל. אני מרפה מהכלל הזה רק לאחר שהמכונה והאדם תואמים באופן מושלם לאורך הרצות רבות.
קבעו מדידות ליחידות ניתנות לצפייה. אני מוודא שהסוכן סופר בדיוק את מה שאדם יכול לראות. אם האוכלוסייה היא "רופפת", המספרים יסטו. אם האוכלוסייה מוגדרת באופן הדוק, נוכל באמת להשוות תוצאות.

הגישה הזו איטית יותר. היא לא ניתנת להרחבה (scale) לנצח. אבל כך בונים בסיס של אמון.

אפשר לתת ל-AI לכתוב קוד. אפשר לתת ל-AI להריץ ניתוחים. אבל עבור המספרים שבאמת חשובים, תהליך דטרמיניסטי חייב להיות העד האחרון.

איפה אתם משרטטים את הקו? מתי אתם מחליטים שמספר מסוים חשוב מספיק כדי לבדוק אותו ידנית?

מקור: https://dev.to/josephyeo/my-agent-reported-12-the-real-number-was-13-5864

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi

My Agent Reported 12. The Real Number Was 13.

Continue reading

קלט ה-Null ששבר את סוכן ה-Production שלי

We Stopped Trusting Models. Then We Stopped Trusting Our Own Numbers.

מה למדתי מהרצת סוכני AI בסביבת ייצור

The Exact Stack I Use to Build Production AI Agents

לולאת הסוכנים: מדריך שטח מעשי