SkillOpt של Microsoft משפרת את הביצועים של GPT-5.5 באמצעות אופטימיזציה של Markdown

Microsoft וחוקרים משלוש אוניברסיטאות סיניות חשפו את SkillOpt, שיטה פורצת דרך המתייחסת לקובצי Markdown הדרכתיים כאל פרמטרים הניתנים לאימון. באמצעות אופטימיזציה של מסמכי "מיומנות" (skill) אלו, החוקרים השיגו קפיצת ביצועים אדירה של 23 נקודות עבור GPT-5.5 במשימות פרוצדורליות.

התייחסות לטקסט כמשקלים הניתנים לאימון

בנוף ה-AI הנוכחי, "מיומנויות" (skills) — הוראות מודולריות המנחות סוכנים (agents) דרך פרוצדורות ספציפיות, כללי שימוש בכלים ופורמטים של פלט — הופכות לסטנדרט בתעשייה. בעוד שחברות כמו Anthropic משתמשות בהן כדי לשפר את Claude, מסמכים אלו נכתבים באופן מסורתי על ידי בני אדם או מופקים במעבר יחיד על ידי LLM. אף אחת מהשיטות הללו אינה מתפקדת כאופטימיזר (optimizer) אמיתי.

SkillOpt משנה את הפרדיגמה הזו על ידי התייחסות לקובץ Markdown כמצב (state) חיצוני הניתן לאימון עבור מודל יעד קפוא (frozen). במקום לעדכן את המשקלים של המודל, מודל שפה שני המשמש כ"אופטימיזר" מנתח לוגים של ביצועים כדי לזהות שגיאות והצלחות חוזרות. אופטימיזר זה מציע עריכות מדויקות — הוספה, מחיקה או החלפה של קטעים ספציפיים — בתוך מסמך Markdown. באופן מכריע, שינויים אלו מתקבלים רק אם הם מניבים שיפורים מדידים על סט וולידציה (validation set) נפרד.

מושגי למידה עמוקה המיושמים על פרוזה

הגאוניות של SkillOpt טמונה באופן שבו היא ממפה מנגנונים מסורתיים של למידה עמוקה על אופטימיזציה ברמת הטקסט. החוקרים הטמיעו מספר מנגנוני בקרה מתוחכמים כדי להבטיח יציבות:

  • Learning Rate ו-Schedulers: קצב למידה (learning rate) מגביל את מספר העריכות המותרות בכל שלב, בעוד ש-scheduler מצמצם את גודל העריכה לאורך תקופות האימון (epochs) כדי למנוע תנודתיות.
  • Negative Feedback Buffers: עריכות שנדחו נשמרות בבאפר (buffer), המשמש כדוגמאות שליליות המונעות מהאופטימיזר לחזור על אותן טעויות.
  • Gradient Smoothing: מנגנון "עדכון איטי" בסוף כל epoch שומר על כיווני עריכה יציבים, תוך חיקוי האופן שבו gradient smoothing מייצב אימון של רשתות נוירונים מסורתיות.

הפרדה זו בין תחומי אחריות פירושה שהעבודה הכבדה מתבצעת במהלך האימון. בזמן הסקה (inference), מודל היעד נותר קל משקל, ופשוט מקבל קובץ Markdown קומפקטי של 300 עד 2,000 טוקנים כהקשר (context).

דומיננטיות בבנצ'מרקים ויכולת העברה בין מודלים

התוצאות האמפיריות הן משמעותיות. בבדיקות על פני שישה מדדי ביצוע (benchmarks) — הכוללים חיפוש, מתמטיקה, גיליונות אלקטרוניים ופעולה מוחשית (embodied action) — SkillOpt עלתה בעקביות על מיומנויות שנכתבו ידנית ועל שיטות ייעודיות כמו TextGrad ו-EvoSkill. בשימוש ב-GPT-5.5 בצ'אט ישיר, השיטה הניבה עלייה ממוצעת בביצועים של כ-23 נקודות.

אחד הממצאים המשפיעים ביותר הוא יכולת ההעברה (transferability) של השיטה. מיומנות שעברה אופטימיזציה עבור מודל גדול כמו GPT-5.5 יכולה להיות מיושמת על מודלים קטנים בהרבה, כגון Qwen3.5-4B, ובכך לספק להם ביעילות ידע פרוצדורלי שחסר להם במשקולות המקוריות (native weights) שלהם. יתרה מכך, המיומנויות אינן תלויות בסביבה (environment-agnostic); מיומנות של גיליון אלקטרוני שאומנה בלולאת Codex עובדת בצורה חלקה ב-Claude Code ללא צורך באימון מחדש.

לדוגמה, במשימות של גיליונות אלקטרוניים, המיומנות המאופטמלית לומדת לבדוק תחילה את מבנה גיליון העבודה ולכתוב ערכים מחושבים ישירות, במקום להסתמך על נוסחאות. במשימות AI מוחשית (embodied AI) כמו ALFWorld, המיומנות לומדת לנהל יומן (log) של מיקומים שבהם ביקרה כדי להבטיח שהיעדים יושגו בסדר הנכון.

תובנות מרכזיות

  • אופטימיזציה מבוססת טקסט: SkillOpt מתייחסת לקובצי הוראות Markdown כמצבים הניתנים לאימון (trainable states), תוך שימוש ב-LLM שני כדי לאפטם אותם בדומה למשקולות של מודל.
  • שיפורים משמעותיים בביצועים: השיטה שיפרה את הביצועים של GPT-5.5 בממוצע ב-23 נקודות במדדי ביצוע פרוצדורליים, והצטיינה במיוחד במשימות של שימוש בכלים ופורמט קשיח.
  • יעילה וניתנת להעברה: מיומנויות מאופטמליות הן קומפקטיות (פחות מ-2,000 טוקנים) וניתן להעביר אותן ממודלים גדולים לקטנים יותר או בין סביבות סוכנים (agent environments) שונות.