SkillOpt от Microsoft повышает производительность GPT 5.5 за счет оптимизации Markdown

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorial3 недели назад3мин чтения

В этой статье

SkillOpt от Microsoft повышает производительность GPT-5.5 за счет оптимизации Markdown

Microsoft и исследователи из трех китайских университетов представили SkillOpt — революционный метод, который рассматривает обучающие Markdown-файлы как обучаемые параметры. Оптимизируя эти документы «навыков» (skills), исследователи добились колоссального скачка производительности GPT-5.5 на 23 пункта в процедурных задачах.

Текст как обучаемые веса

В современном ландшафте ИИ «навыки» (skills) — модульные инструкции, которые направляют агентов через конкретные процедуры, правила использования инструментов и форматы вывода — становятся отраслевым стандартом. Хотя такие компании, как Anthropic, используют их для улучшения Claude, эти документы традиционно пишутся людьми или генерируются LLM за один проход. Ни один из этих методов не является полноценным оптимизатором.

SkillOpt меняет эту парадигму, рассматривая Markdown-файл как внешнее обучаемое состояние для замороженной целевой модели. Вместо обновления весов модели, вторая языковая модель — «оптимизатор» — анализирует логи выполнения, чтобы выявить повторяющиеся ошибки и успехи. Этот оптимизатор предлагает точечные правки — добавление, удаление или замену определенных фрагментов — внутри Markdown-документа. Что крайне важно, эти изменения принимаются только в том случае, если они приносят измеримые улучшения на отложенной валидационной выборке.

Применение концепций глубокого обучения к прозе

Гениальность SkillOpt заключается в том, как он переносит традиционную механику глубокого обучения на уровень оптимизации текста. Исследователи внедрили несколько сложных механизмов управления для обеспечения стабильности:

Learning Rate и планировщики (Schedulers): Скорость обучения (learning rate) ограничивает количество правок, разрешенных за один шаг, в то время как планировщик уменьшает размер правок на протяжении эпох обучения, чтобы предотвратить волатильность.
Буферы отрицательной обратной связи: Отклоненные правки сохраняются в буфере, служа отрицательными примерами, которые не позволяют оптимизатору повторять одни и те же ошибки.
Сглаживание градиента (Gradient Smoothing): Механизм «медленного обновления» в конце каждой эпохи сохраняет стабильные направления правок, имитируя то, как сглаживание градиента стабилизирует обучение традиционных нейронных сетей.

Такое разделение обязанностей означает, что основная работа выполняется во время обучения. На этапе вывода (inference) целевая модель остается легковесной, просто получая компактный Markdown-файл объемом от 300 до 2000 токенов в качестве контекста.

Доминирование в бенчмарках и кросс-модельная переносимость

Эмпирические результаты значительны. При тестировании на шести бенчмарках, включая поиск, математику, работу с электронными таблицами и воплощенные действия (embodied action), SkillOpt стабильно превосходил навыки, написанные вручную, и специализированные методы, такие как TextGrad и EvoSkill. При использовании GPT-5.5 в режиме прямого чата метод обеспечил средний прирост производительности примерно на 23 пункта.

Одним из наиболее значимых выводов является переносимость метода. Навык, оптимизированный для большой модели, такой как GPT-5.5, можно применить к гораздо меньшим моделям, например Qwen3.5-4B, фактически наделяя их процедурными знаниями, которых им не хватает в исходных весах. Более того, навыки не зависят от среды; навык работы с электронными таблицами, обученный в цикле Codex, бесшовно работает в Claude Code без переобучения.

Например, в задачах с электронными таблицами оптимизированный навык учится сначала проверять структуру рабочего листа и записывать вычисленные значения напрямую, а не полагаться на формулы. В задачах воплощенного ИИ, таких как ALFWorld, навык учится вести журнал посещенных локаций, чтобы гарантировать выполнение целей в правильном порядке.

Основные выводы

Текстовая оптимизация: SkillOpt рассматривает файлы инструкций в формате Markdown как обучаемые состояния, используя вторую LLM для их оптимизации подобно весам модели.
Значительный прирост производительности: Метод повысил показатели GPT-5.5 в среднем на 23 пункта на процедурных бенчмарках, особенно выделяясь в задачах использования инструментов и строгого форматирования.
Эффективность и переносимость: Оптимизированные навыки компактны (менее 2000 токенов) и могут быть перенесены с больших моделей на меньшие или между различными средами агентов.