SkillOpt від Microsoft підвищує продуктивність GPT-5.5 завдяки оптимізації Markdown

Microsoft та дослідники з трьох китайських університетів представили SkillOpt — революційний метод, який розглядає інструкційні Markdown-файли як параметри, що підлягають навчанню. Завдяки оптимізації цих документів «навичок» (skills), дослідники досягли величезного стрибка продуктивності GPT-5.5 на 23 пункти у процедурних завданнях.

Розгляд тексту як ваг, що підлягають навчанню

У сучасному ландшафті ШІ «навички» (skills) — модульні інструкції, які спрямовують агентів через конкретні процедури, правила використання інструментів та формати виводу — стають галузевими стандартами. Хоча такі компанії, як Anthropic, використовують їх для вдосконалення Claude, ці документи традиційно пишуться людьми або генеруються мовною моделлю (LLM) за один прохід. Жоден із цих методів не функціонує як справжній оптимізатор.

SkillOpt змінює цю парадигму, розглядаючи Markdown-файл як зовнішній стан, що підлягає навчанню, для замороженої цільової моделі. Замість оновлення ваг моделі, друга мовна модель — «оптимізатор» — аналізує логи виконання, щоб виявити повторювані помилки та успіхи. Цей оптимізатор пропонує точкові правки — додавання, видалення або заміну певних фрагментів — у межах Markdown-документа. Що важливо, ці зміни приймаються лише тоді, коли вони дають вимірюване покращення на відкладеній валідаційній вибірці.

Концепції глибокого навчання, застосовані до прози

Геніальність SkillOpt полягає в тому, як він переносить механіку традиційного глибокого навчання на оптимізацію тексту. Дослідники впровадили кілька складних механізмів контролю для забезпечення стабільності:

  • Learning Rate та шедулери (Schedulers): Швидкість навчання (learning rate) обмежує кількість дозволених правок за крок, тоді як шедулер зменшує розмір правки протягом епох навчання, щоб запобігти нестабільності.
  • Буфери негативного зворотного зв'язку: Відхилені правки зберігаються в буфері, слугуючи негативними прикладами, які не дають оптимізатору повторювати ті самі помилки.
  • Згладжування градієнта (Gradient Smoothing): Механізм «повільного оновлення» наприкінці кожної епохи зберігає стабільні напрямки правок, імітуючи те, як згладжування градієнта стабілізує навчання традиційних нейронних мереж.

Таке розділення обов'язків означає, що основне навантаження припадає на етап навчання. Під час виведення (inference) цільова модель залишається легковесною, просто отримуючи компактний Markdown-файл обсягом від 300 до 2000 токенів як контекст.

Домінування в бенчмарках та міжмодельна переносимість

Емпіричні результати є значущими. Тестування на шести бенчмарках — включаючи пошук, математику, електронні таблиці та втілені дії — показало, що SkillOpt стабільно перевершує написані вручну навички та спеціалізовані методи, такі як TextGrad та EvoSkill. На GPT-5.5 у прямому чаті метод забезпечив середнє підвищення продуктивності приблизно на 23 пункти.

Одним із найбільш вагомих відкриттів є здатність методу до переносу. Навичку, оптимізовану для великої моделі, такої як GPT-5.5, можна застосувати до набагато менших моделей, наприклад Qwen3.5-4B, ефективно надаючи їм процедурні знання, яких їм бракує в їхніх власних вагах. Крім того, навички є незалежними від середовища; навичка роботи з електронними таблицями, навчена в циклі Codex, безперешкодно працює в Claude Code без перенавчання.

Наприклад, у завданнях з електронними таблицями оптимізована навичка вчиться спочатку перевіряти структуру робочого аркуша та записувати обчислені значення безпосередньо, а не покладатися на формули. У завданнях втіленого ШІ, таких як ALFWorld, навичка вчиться вести журнал відвіданих локацій, щоб забезпечити виконання цілей у правильному порядку.

Основні висновки

  • Текстова оптимізація: SkillOpt розглядає файли інструкцій Markdown як треновані стани, використовуючи другу LLM для їх оптимізації подібно до ваг моделі.
  • Величезне зростання продуктивності: Метод підвищив показники GPT-5.5 в середньому на 23 пункти на процедурних бенчмарках, особливо вирізняючись у завданнях з використанням інструментів та суворим форматуванням.
  • Ефективність та можливість переносу: Оптимізовані навички є компактними (менше 2000 токенів) і можуть бути перенесені з великих моделей на менші або між різними середовищами агентів.