למה משוב מובנה חשוב באימון AI

חוקרים מתרחקים משימוש בציונים פשוטים לאימון AI. כעת הם משתמשים באותות (signals) עשירים יותר.

מאמר חדש שכותרתו Rethinking Reward Supervision מראה מדוע השינוי הזה חשוב. רוב שיטות האימון דוחסות נתונים למספר בודד. ציון בודד אומר לך אם תשובה היא טובה או רעה, אך הוא לא אומר לך למה.

לשיטות הנוכחיות יש מגבלות:

  • זיקוק מפוקח (Supervised distillation) מסתמך על דוגמאות של שרשרת מחשבה (chain-of-thought). אלו יקרות ולעיתים קרובות אינן מושלמות. אם מודל מחקה הסבר פגום, הוא לומד את הדבר הלא נכון.
  • למידת חיזוק (Reinforcement learning) משתמשת בפרסים (rewards). פרס נותן מספר בודד. זה מקשה על ייחוס קרדיט (credit assignment). המודל יודע מה התוצאה, אך אינו יודע איזה שלב ספציפי נכשל.

רובריקות (Rubrics) פותרות את הבעיה הזו. הן נמצאות בטווח שבין ציון פשוט לבין הסבר מלא.

התהליך עובד בשני שלבים:

  1. המערכת יוצרת רובריקות ספציפיות למשימה. במדע, המשמעות היא בדיקת יחידות מידה או הנחות יסוד.
  2. מודל המורה משתמש ברובריקות הללו כדי להנחות את מודל התלמיד. זה מספק הנחיה ברמת הטוקן (token-level guidance). הרובריקה אומרת למודל בדיוק היכן ההצדקה חלשה.

גישה זו מציעה שלושה יתרונות:

  • ייחוס קרדיט טוב יותר. המודל לומד משגיאות ספציפיות במקום לדחות ניסיון שלם.
  • פיקוח שניתן לשימוש חוזר. רובריקה אחת יכולה להנחות תשובות רבות ושונות.
  • יכולת הרחבה (scaling) טובה יותר. רובריקות מטפלות במשימות מורכבות בעלות שלבים רבים טוב יותר מתגית בינארית של "עבר" או "נכשל".

המאמר מראה ששיטה זו מנצחת מודלים קיימים כמו GRPO ו-OPSD במשימות הסקה מדעיות.

הלקח ברור. אם למשימה יש מבנה, שמרו על המבנה הזה בלולאת האימון שלכם. אל תשטחו את הנתונים שלכם למספר בודד מוקדם מדי.

בין אם אתם משתמשים ברובריקות, בתכנון מבוסס אי-ודאות או בהסברים תכנותיים (programmatic explanations), המטרה היא אותה מטרה: להפוך התנהגות נסתרת לאותות מפורשים.

אם אתם בונים מערכות הסקה, קודדו את הרובריקות שלכם ישירות. אל תסתמכו רק על ציון סופי.

Source: https://dev.to/prabhakar_chaudhary_7afe4/why-structured-feedback-is-showing-up-in-recent-llm-training-papers-1no1

Optional learning community: https://t.me/GyaanSetuAi