Microsofts SkillOpt steigert die GPT-5.5-Performance durch Markdown-Optimierung

Microsoft und Forscher von drei chinesischen Universitäten haben SkillOpt vorgestellt, eine bahnbrechende Methode, die instruktive Markdown-Dateien als trainierbare Parameter behandelt. Durch die Optimierung dieser „Skill“-Dokumente erzielten die Forscher einen massiven Leistungssprung von 23 Punkten für GPT-5.5 bei prozeduralen Aufgaben.

Text als trainierbare Gewichte behandeln

In der aktuellen KI-Landschaft werden „Skills“ – modulare Anweisungen, die Agenten durch spezifische Abläufe, Regeln zur Werkzeugnutzung und Ausgabeformate führen – zum Industriestandard. Während Unternehmen wie Anthropic diese zur Verbesserung von Claude einsetzen, werden diese Dokumente traditionell von Menschen geschrieben oder in einem einzigen Durchgang von einem LLM generiert. Keine dieser Methoden fungiert als echter Optimierer.

SkillOpt ändert dieses Paradigma, indem es eine Markdown-Datei als externen, trainierbaren Zustand für ein eingefrorenes Zielmodell (frozen target model) behandelt. Anstatt die Gewichte des Modells zu aktualisieren, analysiert ein zweites „Optimizer“-Sprachmodell die Ausführungsprotokolle, um wiederkehrende Fehler und Erfolge zu identifizieren. Dieser Optimierer schlägt präzise Korrekturen vor – das Hinzufügen, Löschen oder Ersetzen spezifischer Passagen – innerhalb eines Markdown-Dokuments. Entscheidend ist, dass diese Änderungen nur akzeptiert werden, wenn sie messbare Verbesserungen auf einem separaten Validierungsdatensatz erzielen.

Deep-Learning-Konzepte angewandt auf Prosa

Die Brillanz von SkillOpt liegt darin, wie es traditionelle Deep-Learning-Mechanismen auf die Optimierung auf Textebene überträgt. Die Forscher implementierten mehrere hochentwickelte Kontrollmechanismen, um die Stabilität zu gewährleisten:

  • Learning Rate und Schedulers: Eine Lernrate begrenzt die Anzahl der pro Schritt erlaubten Bearbeitungen, während ein Scheduler die Größe der Bearbeitungen über die Trainings-Epochen hinweg verringert, um Volatilität zu vermeiden.
  • Negative Feedback Buffers: Abgelehnte Bearbeitungen werden in einem Puffer gespeichert und dienen als negative Beispiele, die verhindern, dass der Optimierer dieselben Fehler wiederholt.
  • Gradient Smoothing: Ein „Slow Update“-Mechanismus am Ende jeder Epoche bewahrt stabile Bearbeitungsrichtungen und ahmt damit nach, wie Gradient Smoothing das Training traditioneller neuronaler Netze stabilisiert.

Diese Trennung der Zuständigkeiten bedeutet, dass die Hauptarbeit während des Trainings geleistet wird. Zur Inferenzzeit bleibt das Zielmodell leichtgewichtig und erhält lediglich eine kompakte Markdown-Datei von 300 bis 2.000 Token als Kontext.

Benchmark-Dominanz und modellübergreifende Übertragbarkeit

Die empirischen Ergebnisse sind signifikant. In Tests über sechs Benchmarks hinweg – darunter Suche, Mathematik, Tabellenkalkulation und Embodied Action – übertraf SkillOpt konsequent manuell erstellte Skills sowie spezialisierte Methoden wie TextGrad und EvoSkill. Bei GPT-5.5 im direkten Chat erzielte die Methode eine durchschnittliche Leistungssteigerung von etwa 23 Punkten.

Eine der wirkungsvollsten Erkenntnisse ist die Übertragbarkeit der Methode. Ein für ein großes Modell wie GPT-5.5 optimierter Skill kann auf wesentlich kleinere Modelle wie Qwen3.5-4B angewendet werden, wodurch sie effektiv mit prozeduralem Wissen ausgestattet werden, das in ihren nativen Gewichten fehlt. Darüber hinaus sind die Skills umgebungsunabhängig; ein für Tabellenkalkulation trainierter Skill, der in einem Codex-Loop entwickelt wurde, funktioniert nahtlos in Claude Code, ohne dass ein erneutes Training erforderlich ist.

Beispielsweise lernt der optimierte Skill bei Tabellenkalkulationsaufgaben, zuerst die Arbeitsblattstrukturen zu prüfen und evaluierte Werte direkt zu schreiben, anstatt sich auf Formeln zu verlassen. Bei Embodied-AI-Aufgaben wie ALFWorld lernt der Skill, ein Protokoll der besuchten Orte zu führen, um sicherzustellen, dass die Ziele in der richtigen Reihenfolge erreicht werden.

Wichtigste Erkenntnisse

  • Textbasierte Optimierung: SkillOpt behandelt Markdown-Instruktionsdateien als trainierbare Zustände und nutzt ein zweites LLM, um sie ähnlich wie Modellgewichte zu optimieren.
  • Massive Leistungssteigerungen: Die Methode steigerte die Leistung von GPT-5.5 auf prozeduralen Benchmarks um durchschnittlich 23 Punkte, wobei sie besonders bei der Werkzeugnutzung und bei Aufgaben mit strenger Formatierung glänzte.
  • Effizient und übertragbar: Optimierte Skills sind kompakt (unter 2.000 Token) und können von großen Modellen auf kleinere oder zwischen verschiedenen Agenten-Umgebungen übertragen werden.