𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

שלשום2min read

למה משוב מובנה חשוב באימון AI

חוקרים מתרחקים משימוש בציונים פשוטים לאימון AI. כעת הם משתמשים באותות (signals) עשירים יותר.

מאמר חדש שכותרתו Rethinking Reward Supervision מראה מדוע השינוי הזה חשוב. רוב שיטות האימון דוחסות נתונים למספר בודד. ציון בודד אומר לך אם תשובה היא טובה או רעה, אך הוא לא אומר לך למה.

לשיטות הנוכחיות יש מגבלות:

זיקוק מפוקח (Supervised distillation) מסתמך על דוגמאות של שרשרת מחשבה (chain-of-thought). אלו יקרות ולעיתים קרובות אינן מושלמות. אם מודל מחקה הסבר פגום, הוא לומד את הדבר הלא נכון.
למידת חיזוק (Reinforcement learning) משתמשת בפרסים (rewards). פרס נותן מספר בודד. זה מקשה על ייחוס קרדיט (credit assignment). המודל יודע מה התוצאה, אך אינו יודע איזה שלב ספציפי נכשל.

רובריקות (Rubrics) פותרות את הבעיה הזו. הן נמצאות בטווח שבין ציון פשוט לבין הסבר מלא.

התהליך עובד בשני שלבים:

המערכת יוצרת רובריקות ספציפיות למשימה. במדע, המשמעות היא בדיקת יחידות מידה או הנחות יסוד.
מודל המורה משתמש ברובריקות הללו כדי להנחות את מודל התלמיד. זה מספק הנחיה ברמת הטוקן (token-level guidance). הרובריקה אומרת למודל בדיוק היכן ההצדקה חלשה.

גישה זו מציעה שלושה יתרונות:

ייחוס קרדיט טוב יותר. המודל לומד משגיאות ספציפיות במקום לדחות ניסיון שלם.
פיקוח שניתן לשימוש חוזר. רובריקה אחת יכולה להנחות תשובות רבות ושונות.
יכולת הרחבה (scaling) טובה יותר. רובריקות מטפלות במשימות מורכבות בעלות שלבים רבים טוב יותר מתגית בינארית של "עבר" או "נכשל".

המאמר מראה ששיטה זו מנצחת מודלים קיימים כמו GRPO ו-OPSD במשימות הסקה מדעיות.

הלקח ברור. אם למשימה יש מבנה, שמרו על המבנה הזה בלולאת האימון שלכם. אל תשטחו את הנתונים שלכם למספר בודד מוקדם מדי.

בין אם אתם משתמשים ברובריקות, בתכנון מבוסס אי-ודאות או בהסברים תכנותיים (programmatic explanations), המטרה היא אותה מטרה: להפוך התנהגות נסתרת לאותות מפורשים.

אם אתם בונים מערכות הסקה, קודדו את הרובריקות שלכם ישירות. אל תסתמכו רק על ציון סופי.

Source: https://dev.to/prabhakar_chaudhary_7afe4/why-structured-feedback-is-showing-up-in-recent-llm-training-papers-1no1

Optional learning community: https://t.me/GyaanSetuAi

𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

Continue reading

AI הוא יותר מסתם פרומפטים

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

מודלי תגמול מאוחדים ל-AI

𝗠𝗮𝗿𝗸𝗱𝗼𝘄𝗻 𝗙𝗼𝗿𝗺𝗮𝘁𝘁𝗶𝗻𝗴 𝗙𝗼𝗿 𝗔𝗜 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

איך OpenAI ו-Anthropic מעצבות מערכות AI