SkillOpt di Microsoft potenzia le prestazioni di GPT-5.5 tramite l'ottimizzazione del Markdown
Microsoft e ricercatori di tre università cinesi hanno presentato SkillOpt, un metodo rivoluzionario che tratta i file Markdown istruzionali come parametri addestrabili. Ottimizzando questi documenti di "skill" (competenze), i ricercatori hanno ottenuto un enorme salto di prestazioni di 23 punti per GPT-5.5 nei compiti procedurali.
Trattare il testo come pesi addestrabili
Nell'attuale panorama dell'IA, le "skill" — istruzioni modulari che guidano gli agenti attraverso procedure specifiche, regole di utilizzo degli strumenti e formati di output — stanno diventando standard del settore. Mentre aziende come Anthropic le utilizzano per potenziare Claude, questi documenti sono tradizionalmente scritti da esseri umani o generati in un unico passaggio da un LLM. Nessuno dei due metodi funziona come un vero ottimizzatore.
SkillOpt cambia questo paradigma trattando un file Markdown come uno stato esterno e addestrabile per un modello target congelato. Invece di aggiornare i pesi del modello, un secondo modello linguistico "ottimizzatore" analizza i log di esecuzione per identificare errori e successi ricorrenti. Questo ottimizzatore propone modifiche chirurgiche — aggiungendo, eliminando o sostituendo passaggi specifici — all'interno di un documento Markdown. Fondamentalmente, queste modifiche vengono accettate solo se producono miglioramenti misurabili su un set di validazione separato.
Concetti di Deep Learning applicati alla prosa
La genialità di SkillOpt risiede nel modo in cui mappa le meccaniche tradizionali del deep learning sull'ottimizzazione a livello testuale. I ricercatori hanno implementato diversi sofisticati meccanismi di controllo per garantire la stabilità:
- Learning Rate e Scheduler: Un learning rate limita il numero di modifiche consentite per passaggio, mentre uno scheduler riduce la dimensione delle modifiche attraverso le epoche di addestramento per prevenire la volatilità.
- Buffer di feedback negativo: Le modifiche rifiutate vengono memorizzate in un buffer, fungendo da esempi negativi che impediscono all'ottimizzatore di ripetere gli stessi errori.
- Gradient Smoothing: Un meccanismo di "aggiornamento lento" alla fine di ogni epoca preserva direzioni di modifica stabili, imitando il modo in cui il gradient smoothing stabilizza l'addestramento delle reti neurali tradizionali.
Questa separazione delle responsabilità significa che il lavoro pesante avviene durante l'addestramento. Al momento dell'inferenza, il modello target rimane leggero, ricevendo semplicemente un file Markdown compatto da 300 a 2.000 token come contesto.
Dominio nei benchmark e trasferibilità tra modelli
I risultati empirici sono significativi. Testando il metodo su sei benchmark — tra cui ricerca, matematica, fogli di calcolo e azione incarnata — SkillOpt ha superato costantemente le skill scritte manualmente e i metodi specializzati come TextGrad ed EvoSkill. Su GPT-5.5 in chat diretta, il metodo ha prodotto un aumento medio delle prestazioni di circa 23 punti.
Una delle scoperte più rilevanti riguarda la trasferibilità del metodo. Una skill ottimizzata per un modello di grandi dimensioni come GPT-5.5 può essere applicata a modelli molto più piccoli, come Qwen3.5-4B, fornendo loro efficacemente la conoscenza procedurale che manca nei loro pesi nativi. Inoltre, le skill sono indipendenti dall'ambiente; una skill per i fogli di calcolo addestrata in un loop Codex funziona perfettamente in Claude Code senza necessità di riaddestramento.
Ad esempio, nei compiti relativi ai fogli di calcolo, la skill ottimizzata impara a controllare prima la struttura del foglio di lavoro e a scrivere direttamente i valori calcolati, invece di fare affidamento sulle formule. Nei compiti di IA incarnata come ALFWorld, la skill impara a mantenere un registro delle posizioni visitate per garantire che gli obiettivi siano raggiunti nell'ordine corretto.
Punti chiave
- Ottimizzazione basata su testo: SkillOpt tratta i file di istruzioni Markdown come stati addestrabili, utilizzando un secondo LLM per ottimizzarli in modo simile ai pesi del modello.
- Incrementi massicci delle prestazioni: Il metodo ha potenziato GPT-5.5 con un aumento medio di 23 punti nei benchmark procedurali, eccellendo in particolare nell'uso di strumenti e nei compiti di formattazione rigorosa.
- Efficienti e trasferibili: Le skill ottimizzate sono compatte (meno di 2.000 token) e possono essere trasferite da modelli grandi a modelli più piccoli o tra diversi ambienti di agenti.