הדמו של הסוכן שלך עובד. זו המלכודת.
אני בונה סוכני AI עבור חברות. אני רואה את אותו דפוס לעיתים קרובות. המודל עובד בדמו. אתם משחררים את המוצר. ואז הוא נכשל פעם אחת מכל שלוש פעמים בייצור (production). אף אחד לא יודע למה.
הפער בין דמו לייצור הוא מתמטיקה. ברגע שמבינים את המתמטיקה, בונים אחרת.
אם כל שלב בסוכן שלכם הוא אמין ב-95%, זה נשמע טוב. אבל סוכנים משתמשים בשרשראות של שלבים. אם מחברים עשר שרשראות שלבים, שיעור ההצלחה שלכם צונח ל-60%. אם משתמשים בעשרים שלבים, שיעור ההצלחה צונח ל-36%.
בעבודה אמיתית, לשלבים יש לעיתים קרובות שיעורי שגיאה של 10% עד 20%. אם לסוכן יש שמונה שלבים עם אמינות של 85%, הוא נכשל ב-75% מהזמן.
המודל הוא לא הבעיה. הסבירות המצטברת (compounding probability) היא הבעיה.
דמו מציג "נתיב אושר" (happy path) יחיד. הוא משתמש בקלט נקי ובשרשראות קצרות. הייצור משתמש בנתונים מבולגנים ממאות משתמשים. הוא משתמש בשרשראות ארוכות הכוללות שלבים נסתרים.
כשל בסוכנים לא נראה כמו קריסה. הוא נראה כמו שגיאה שקטה.
שלב 3 קורא שדה בצורה שגויה. הפלט עדיין נראה כמו
