SkillOpt od Microsoftu zwiększa wydajność GPT-5.5 dzięki optymalizacji Markdown

Microsoft oraz naukowcy z trzech chińskich uniwersytetów zaprezentowali SkillOpt – przełomową metodę, która traktuje instruktażowe pliki Markdown jako trenowalne parametry. Poprzez optymalizację tych dokumentów „umiejętności” (skills), badacze osiągnęli ogromny, 23-punktowy wzrost wydajności GPT-5.5 w zadaniach proceduralnych.

Traktowanie tekstu jako trenowalne wagi

W obecnym krajobrazie AI „umiejętności” (skills) – czyli modularne instrukcje prowadzące agentów przez konkretne procedury, zasady użycia narzędzi i formaty wyjściowe – stają się standardem branżowym. Choć firmy takie jak Anthropic wykorzystują je do ulepszania modelu Claude, dokumenty te są tradycyjnie pisane przez ludzi lub generowane w jednym przebiegu przez LLM. Żadna z tych metod nie pełni funkcji prawdziwego optymalizatora.

SkillOpt zmienia ten paradygmat, traktując plik Markdown jako zewnętrzny, trenowalny stan dla zamrożonego modelu docelowego. Zamiast aktualizować wagi modelu, drugi model językowy pełniący rolę „optymalizatora” analizuje logi wykonania, aby zidentyfikować powtarzające się błędy i sukcesy. Optymalizator ten proponuje precyzyjne edycje – dodawanie, usuwanie lub zastępowanie konkretnych fragmentów – wewnątrz dokumentu Markdown. Co kluczowe, zmiany te są przyjmowane tylko wtedy, gdy przynoszą mierzalną poprawę na wydzielonym zbiorze walidacyjnym.

Koncepcje głębokiego uczenia zastosowane w prozie

Genialność SkillOpt polega na tym, jak mapuje on tradycyjne mechanizmy głębokiego uczenia na optymalizację na poziomie tekstu. Badacze zaimplementowali kilka wyrafinowanych mechanizmów kontrolnych, aby zapewnić stabilność:

  • Współczynnik uczenia (learning rate) i schedulery: Współczynnik uczenia ogranicza liczbę edycji dozwolonych w jednym kroku, podczas gdy scheduler zmniejsza rozmiar edycji w kolejnych epokach treningowych, aby zapobiec zmienności.
  • Bufory ujemnego sprzężenia zwrotnego: Odrzucone edycje są przechowywane w buforze, służąc jako negatywne przykłady, które zapobiegają powtarzaniu tych samych błędów przez optymalizator.
  • Wygładzanie gradientu: Mechanizm „powolnej aktualizacji” (slow update) na końcu każdej epoki zachowuje stabilne kierunki edycji, naśladując sposób, w jaki wygładzanie gradientu stabilizuje tradycyjne trenowanie sieci neuronowych.

Takie rozdzielenie obowiązków oznacza, że najcięższa praca odbywa się podczas trenowania. W czasie wnioskowania (inference) model docelowy pozostaje lekki, otrzymując jedynie kompaktowy plik Markdown o rozmiarze od 300 do 2000 tokenów jako kontekst.

Dominacja w benchmarkach i przenaszalność między modelami

Wyniki empiryczne są znaczące. Testy przeprowadzone na sześciu benchmarkach — obejmujących wyszukiwanie, matematykę, arkusze kalkulacyjne oraz działanie ucieleśnione — wykazały, że SkillOpt konsekwentnie przewyższa umiejętności pisane ręcznie oraz wyspecjalizowane metody, takie jak TextGrad i EvoSkill. W przypadku GPT-5.5 w bezpośrednim czacie, metoda ta przyniosła średni wzrost wydajności o około 23 punkty.

Jednym z najbardziej istotnych odkryć jest przenoszalność tej metody. Umiejętność zoptymalizowana dla dużego modelu, takiego jak GPT-5.5, może zostać zastosowana do znacznie mniejszych modeli, np. Qwen3.5-4B, skutecznie dostarczając im wiedzy proceduralnej, której brakuje w ich natywnych wagach. Co więcej, umiejętności są niezależne od środowiska; umiejętność obsługi arkuszy kalkulacyjnych wytrenowana w pętli Codex działa płynnie w Claude Code bez konieczności ponownego trenowania.

Na przykład w zadaniach związanych z arkuszami kalkulacyjnymi, zoptymalizowana umiejętność uczy się najpierw sprawdzać strukturę arkusza i bezpośrednio zapisywać obliczone wartości, zamiast polegać na formułach. W zadaniach z zakresu ucieleśnionej sztucznej inteligencji, takich jak ALFWorld, umiejętność uczy się prowadzenia logu odwiedzonych lokalizacji, aby zapewnić realizację celów w odpowiedniej kolejności.

Kluczowe wnioski

  • Optymalizacja oparta na tekście: SkillOpt traktuje pliki instrukcji Markdown jako stany podlegające trenowaniu, wykorzystując drugi model LLM do ich optymalizacji w sposób zbliżony do wag modelu.
  • Ogromne wzrosty wydajności: Metoda zwiększyła wydajność GPT-5.5 średnio o 23 punkty w benchmarkach proceduralnych, wykazując szczególną skuteczność w zadaniach związanych z użyciem narzędzi oraz rygorystycznym formatowaniem.
  • Efektywność i przenoszalność: Zoptymalizowane umiejętności są kompaktowe (poniżej 2000 tokenów) i mogą być przenoszone z dużych modeli na mniejsze lub między różnymi środowiskami agentów.