מה LLM מהיר לימד אותי על הנחות יסוד
הרצתי LLM זול ומהיר על משימה מורכבת במשך שעה. הוא לא נכשל.
רוב האנשים חושבים שמודלים חלשים נכשלים במשימות ארוכות. הם סוטים מהמסלול או מוותרים באמצע. אבל המודל הזה נשאר במסלול. זה קרה כי נתתי לו רשימת תוצרים (deliverables).
חשבתי שהתוצרים האלה עוזרים לדיוק. טעיתי.
מחקר מראה שתוצרים אינם הופכים מודל למדויק יותר. הם הופכים מודל ליותר ניתן לאימות (verifiable). המודל מתעד את עבודתו טוב יותר. הוא משאיר ראיות שתוכלו לבדוק.
ישנם שני סוגים של שגיאות בתוכנה:
- שגיאות ביצוע: פסיק שהוחלף או מקרה קצה (edge case) שהוחמץ. מתקנים אותן באמצעות בדיקות (tests) ו-linting.
- שגיאות הנחת יסוד: הצבת גבול במקום הלא נכון. הרבה יותר קשה לתקן את זה.
תהליך עוזר בשגיאות ביצוע. הוא לא פותר שגיאות הנחת יסוד. אם לכם ולמודל יש את אותה נקודה עיוורת, גם הבדיקה שלכם תיכשל.
הבינה המלאכותית משנה את החישוב של השגיאות הללו.
בעבר, בני אדם טעו לאט. זה נתן לכם זמן להבחין בכך. עכשיו, בינה מלאכותית טועה מהר. מודל יכול לבנות שלוש שעות של קוד מושלם על בסיס הנחת יסוד אחת שגויה לפני שתבחינו בכך.
ככל שמודל נראה בעל יכולות גבוהות יותר, כך אתם בוטחים בו יותר. אתם נותנים לו לרוץ זמן רב יותר. אתם מפסיקים לבדוק בתדירות גבוהה. זו מלכודת.
