הזיכרון של הסוכן שלך כנראה משקר לך
חשבתי שהזיכרון של הסוכן שלי עבד במשך שישה חודשים.
הוא זכר פרטים לאורך סשנים שונים. הוא שלף הקשר עבור פרויקטים. הוא תיקן טעויות. כל סימן הצביע על הצלחה.
טעיתי.
ל-Claude Code יש זיכרון מובנה משלו. המערכת הזו עשתה את העבודה. המערכת שלי רצה וכתבה למאגר שלה. זה נראה כאילו היא עובדת. היא הייתה שחקנית לגיבוי על במה שבה שחקן אחר אמר את השורה.
מערכת שנכשלת בצורה רועשת היא קלה לתיקון. אתה רואה את השגיאה ואתה פועל.
מערכת שנכשלת בשקט היא מסוכנת. היא מייצרת תשובות מועילות. זה נראה כמו הצלחה. אי אפשר לדעת אם המערכת שלך עובדת רק על ידי הסתכלות בפלט. הפלט נשאר אותו דבר.
אתה צריך פונקציית כפייה (forcing function) כדי למצוא את האמת. אתה חייב לכבות את המערכת השנייה.
הבדיקה הזו עובדת עבור כל הגדרת זיכרון של סוכן. היא לוקחת דקה אחת.
בצע את השלבים הבאים:
• כבה את הזיכרון המובנה (native memory) של ה-runtime שלך. • ב-Claude Code, השתמש בפקודה הזו: CLAUDE_CODE_DISABLE_AUTO_MEMORY=1 • השתמש בסוכן שלך כרגיל. • בקש ממנו לזכור עובדה ספציפית. • התחל סשן חדש ושאל על אותה עובדה.
צפה במה שהמערכת שלך עושה לבדה.
אם הזיכרון עובד, המערכת שלך איתנה.
אם הזיכרון מתרוקן, המאגר המובנה הוא זה שהחזיק אותך. כל דמו שהצגת היה רק צל, לא המערכת שלך.
כשערכתי את הבדיקה הזו, המערכת שלי השתתקה. שישה חודשים של הצלחה היו למעשה שישה חודשים שבהם משהו אחר כיסה את הטעויות שלי.
אם אתה מוסיף זיכרון ל-runtime שכבר יש לו זיכרון, אתה חשוף לסיכון הזה. ככל שהמודלים הופכים לחכמים יותר, הם מסתירים את הפערים האלו טוב יותר. דמו מלוטש לא מוכיח שהמערכת שלך עובדת. הוא עשוי רק להוכיח שהמודל מספיק טוב כדי להסתיר את הכישלון שלך.
אל תסמוך על תשובות טובות. בצע את מבחן הכיבוי (off-test). כבה את הדבר השני וגלה מי באמת מדבר.
לקח לי שישה חודשים ללמוד את זה. זה ייקח לך דקה אחת.
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi