Microsoft's SkillOpt verbetert de prestaties van GPT-5.5 via Markdown-optimalisatie

Microsoft en onderzoekers van drie Chinese universiteiten hebben SkillOpt onthuld, een baanbrekende methode die instructieve Markdown-bestanden behandelt als trainbare parameters. Door deze "skill"-documenten te optimaliseren, bereikten de onderzoekers een enorme prestatiesprong van 23 punten voor GPT-5.5 bij procedurele taken.

Tekst behandelen als trainbare gewichten

In het huidige AI-landschap worden "skills" — modulaire instructies die agenten door specifieke procedures, regels voor het gebruik van tools en outputformaten leiden — de industriestandaard. Hoewel bedrijven zoals Anthropic deze gebruiken om Claude te verbeteren, worden deze documenten traditioneel door mensen geschreven of in één keer gegenereerd door een LLM. Geen van beide methoden functioneert als een echte optimizer.

SkillOpt verandert dit paradigma door een Markdown-bestand te behandelen als een externe, trainbare staat voor een bevroren doelmodel. In plaats van de gewichten van het model bij te werken, analyseert een tweede "optimizer" taalmodel de uitvoeringslogs om terugkerende fouten en successen te identificeren. Deze optimizer stelt chirurgische bewerkingen voor — het toevoegen, verwijderen of vervangen van specifieke passages — binnen een Markdown-document. Cruciaal is dat deze wijzigingen alleen worden geaccepteerd als ze meetbare verbeteringen opleveren op een apart gehouden validatieset.

Deep learning-concepten toegepast op proza

De genialiteit van SkillOpt ligt in de manier waarop het traditionele deep learning-mechanismen mapt op optimalisatie op tekstniveau. De onderzoekers hebben verschillende geavanceerde controlemechanismen geïmplementeerd om stabiliteit te garanderen:

  • Learning Rate en Schedulers: Een learning rate beperkt het aantal toegestane bewerkingen per stap, terwijl een scheduler de grootte van de bewerkingen over de trainingsepochs heen verkleint om volatiliteit te voorkomen.
  • Negative Feedback Buffers: Afgewezen bewerkingen worden opgeslagen in een buffer, die dient als negatieve voorbeelden om te voorkomen dat de optimizer dezelfde fouten herhaalt.
  • Gradient Smoothing: Een "slow update"-mechanisme aan het einde van elke epoch behoudt stabiele bewerkingsrichtingen, vergelijkbaar met hoe gradient smoothing de training van traditionele neurale netwerken stabiliseert.

Deze scheiding van verantwoordelijkheden betekent dat het zware werk tijdens de training plaatsvindt. Tijdens de inferentie blijft het doelmodel lichtgewicht en ontvangt het simpelweg een compact Markdown-bestand van 300 tot 2.000 tokens als context.

Dominantie in benchmarks en cross-model overdraagbaarheid

The empirical results are significant. Testing across six benchmarks—including search, math, spreadsheets, and embodied action—SkillOpt consistently outperformed handwritten skills and specialized methods like TextGrad and EvoSkill. On GPT-5.5 in direct chat, the method yielded an average performance increase of approximately 23 points.

One of the most impactful findings is the method's transferability. A skill optimized for a large model like GPT-5.5 can be applied to much smaller models, such as Qwen3.5-4B, effectively providing them with procedural knowledge they lack in their native weights. Furthermore, skills are environment-agnostic; a spreadsheet skill trained in a Codex loop works seamlessly in Claude Code without retraining.

For example, in spreadsheet tasks, the optimized skill learns to check worksheet structures first and write evaluated values directly rather than relying on formulas. In embodied AI tasks like ALFWorld, the skill learns to maintain a log of visited locations to ensure objectives are met in the correct order.

Key Takeaways

  • Text-Based Optimization: SkillOpt treats Markdown instruction files as trainable states, using a second LLM to optimize them much like model weights.
  • Massive Performance Gains: The method boosted GPT-5.5 by an average of 23 points on procedural benchmarks, specifically excelling in tool-use and strict formatting tasks.
  • Efficient and Transferable: Optimized skills are compact (under 2,000 tokens) and can be transferred from large models to smaller ones or between different agent environments.