SkillOpt de Microsoft booste les performances de GPT-5.5 via l'optimisation Markdown

Microsoft et des chercheurs de trois universités chinoises ont dévoilé SkillOpt, une méthode révolutionnaire qui traite les fichiers Markdown d'instruction comme des paramètres entraînables. En optimisant ces documents de « compétences » (skills), les chercheurs ont obtenu un bond de performance massif de 23 points pour GPT-5.5 sur des tâches procédurales.

Traiter le texte comme des poids entraînables

Dans le paysage actuel de l'IA, les « compétences » (skills) — des instructions modulaires qui guident les agents à travers des procédures spécifiques, des règles d'utilisation d'outils et des formats de sortie — deviennent des standards de l'industrie. Alors que des entreprises comme Anthropic les utilisent pour améliorer Claude, ces documents sont traditionnellement rédigés par des humains ou générés en une seule passe par un LLM. Aucune de ces méthodes ne fonctionne comme un véritable optimiseur.

SkillOpt change ce paradigme en traitant un fichier Markdown comme un état externe et entraînable pour un modèle cible gelé (frozen). Au lieu de mettre à jour les poids du modèle, un second modèle de langage « optimiseur » analyse les journaux d'exécution pour identifier les erreurs et les succès récurrents. Cet optimiseur propose des modifications chirurgicales — ajouter, supprimer ou remplacer des passages spécifiques — au sein d'un document Markdown. Crucialement, ces changements ne sont acceptés que s'ils produisent des améliorations mesurables sur un ensemble de validation distinct.

Concepts de Deep Learning appliqués à la prose

Le génie de SkillOpt réside dans sa capacité à mapper les mécanismes traditionnels du deep learning sur l'optimisation au niveau du texte. Les chercheurs ont mis en œuvre plusieurs mécanismes de contrôle sophistiqués pour garantir la stabilité :

  • Taux d'apprentissage (Learning Rate) et planificateurs (Schedulers) : Un taux d'apprentissage limite le nombre de modifications autorisées par étape, tandis qu'un planificateur réduit la taille des modifications au fil des époques d'entraînement pour éviter la volatilité.
  • Tampons de rétroaction négative (Negative Feedback Buffers) : Les modifications rejetées sont stockées dans un tampon, servant d'exemples négatifs qui empêchent l'optimiseur de répéter les mêmes erreurs.
  • Lissage du gradient (Gradient Smoothing) : Un mécanisme de « mise à jour lente » à la fin de chaque époque préserve des directions de modification stables, imitant la façon dont le lissage du gradient stabilise l'entraînement des réseaux de neurones traditionnels.

Cette séparation des préoccupations signifie que le gros du travail s'effectue pendant l'entraînement. Lors de l'inférence, le modèle cible reste léger, recevant simplement un fichier Markdown compact de 300 à 2 000 tokens comme contexte.

Dominance des benchmarks et transférabilité entre modèles

Les résultats empiriques sont significatifs. Testé sur six benchmarks — incluant la recherche, les mathématiques, les feuilles de calcul et l'action incarnée — SkillOpt a systématiquement surpassé les compétences écrites à la main et les méthodes spécialisées telles que TextGrad et EvoSkill. Sur GPT-5.5 en chat direct, la méthode a produit une augmentation moyenne de performance d'environ 23 points.

L'une des découvertes les plus marquantes est la transférabilité de la méthode. Une compétence optimisée pour un grand modèle comme GPT-5.5 peut être appliquée à des modèles beaucoup plus petits, tels que Qwen3.5-4B, leur fournissant ainsi efficacement les connaissances procédurales qui leur font défaut dans leurs poids natifs. De plus, les compétences sont indépendantes de l'environnement ; une compétence de feuille de calcul entraînée dans une boucle Codex fonctionne parfaitement dans Claude Code sans réentraînement.

Par exemple, dans les tâches de feuilles de calcul, la compétence optimisée apprend à vérifier d'abord la structure de la feuille de travail et à écrire directement des valeurs évaluées plutôt que de s'appuyer sur des formules. Dans les tâches d'IA incarnée comme ALFWorld, la compétence apprend à tenir un journal des lieux visités pour s'assurer que les objectifs sont atteints dans le bon ordre.

Points clés

  • Optimisation basée sur le texte : SkillOpt traite les fichiers d'instructions Markdown comme des états entraînables, utilisant un second LLM pour les optimiser de la même manière que des poids de modèle.
  • Gains de performance massifs : La méthode a boosté GPT-5.5 de 23 points en moyenne sur les benchmarks procéduraux, excellant particulièrement dans l'utilisation d'outils et les tâches de formatage strict.
  • Efficace et transférable : Les compétences optimisées sont compactes (moins de 2 000 tokens) et peuvent être transférées de grands modèles vers des modèles plus petits ou entre différents environnements d'agents.