שלושה סבבי אימון הופכים מודל לצ'אטבוט
בניית Transformer אינה מספיקה. אפשר לשפוך לתוכו את כל האינטרנט ולהוציא מיליונים על כוח מחשוב, ובכל זאת תגיעו למכונה שלא יכולה לענות על שאלה פשוטה.
מודל גולמי הוא רק מחקה טקסט. הוא חוזה את המילה הבאה על בסיס תבניות. אם תשאלו אותו "איך אני מאפס את הנתב שלי?", הוא עשוי להשיב בשאלות נוספות כמו "איך אני משנה את הסיסמה שלי?". הוא לא יודע שאתם זקוקים לעזרה. הוא רק יודע איך האינטרנט ממשיך משפט.
כדי להפוך את המנבא הזה לצ'אטבוט, אתם זקוקים לשלושה סבבי אימון.
Pretraining (המנוע) מראים למודל טריליוני מילים. מסתירים את המילה האחרונה ומבקשים ממנו לנחש. זה בונה את הידע. הוא לומד עובדות, דקדוק ולוגיקה. זה עובד כי הנתונים מתויגים בעצמם. קנה מידה (Scale) הופך את זה לצפוי. יותר נתונים ויותר כוח מחשוב מובילים לתוצאות טובות יותר.
Instruction Tuning (התסריט) המודל הבסיסי יודע הכל אבל אין לו מטרה. בסבב הזה, מראים לו כמה אלפי דוגמאות של prompt (הנחיה) שמשולבת עם תגובה אנושית טובה. זה לא מוסיף ידע חדש. זה מלמד את המודל התנהגות חדשה. אתם מגישים לשחקן תסריט. הוא לומד לפעול כעוזר מועיל במקום להיות רק משלים טקסט.
Preference Tuning (הנימוסים) תסריטים הם מוגבלים. אי אפשר לכתוב כלל לכל סיטואציה. בסבב הזה, מראים למודל שתי תשובות שונות ומאפשרים לאדם לבחור את הטובה מביניהן. המודל לומד לרדוף אחרי ציון גבוה המבוסס על טעם אנושי. זה מעניק למודל את הטון שלו, את הנימוס שלו ואת מגבלות הבטיחות שלו.
הסיכום הוא פשוט:
- Pretraining בונה את הידע.
- Instruction tuning בוחר את העוזר מתוך ההמון.
- Preference tuning מוסיף שיקול דעת ונימוסים.
האישיות שאתם רואים בחלון הצ'אט היא רק שכבה דקה מעל מנבא מילים גולמי. לא היינו צריכים תיאוריה של אינטליגנציה כדי לבנות את זה. היינו צריכים מטרה פשוטה, קנה מידה (scale) ושני סבבי אימון.
Optional learning community: https://t.me/GyaanSetuAi
