SkillOpt de Microsoft impulsa el rendimiento de GPT-5.5 mediante la optimización de Markdown
Microsoft e investigadores de tres universidades chinas han presentado SkillOpt, un método revolucionario que trata los archivos Markdown instructivos como parámetros entrenables. Al optimizar estos documentos de "habilidades" (skills), los investigadores lograron un salto masivo de 23 puntos en el rendimiento de GPT-5.5 en tareas procedimentales.
Tratando el texto como pesos entrenables
En el panorama actual de la IA, las "habilidades" (skills) —instrucciones modulares que guían a los agentes a través de procedimientos específicos, reglas de uso de herramientas y formatos de salida— se están convirtiendo en estándares de la industria. Si bien empresas como Anthropic las utilizan para mejorar Claude, estos documentos son tradicionalmente escritos por humanos o generados en una sola pasada por un LLM. Ninguno de los dos métodos funciona como un optimizador real.
SkillOpt cambia este paradigma al tratar un archivo Markdown como un estado externo y entrenable para un modelo objetivo congelado. En lugar de actualizar los pesos del modelo, un segundo modelo de lenguaje "optimizador" analiza los registros de ejecución para identificar errores y éxitos recurrentes. Este optimizador propone ediciones quirúrgicas —añadiendo, eliminando o reemplazando pasajes específicos— dentro de un documento Markdown. Crucialmente, estos cambios solo se aceptan si producen mejoras medibles en un conjunto de validación reservado.
Conceptos de Deep Learning aplicados a la prosa
La brillantez de SkillOpt reside en cómo mapea la mecánica tradicional del deep learning hacia la optimización a nivel de texto. Los investigadores implementaron varios mecanismos de control sofisticados para garantizar la estabilidad:
- Learning Rate y Schedulers: Una tasa de aprendizaje (learning rate) limita el número de ediciones permitidas por paso, mientras que un programador (scheduler) reduce el tamaño de la edición a lo largo de las épocas de entrenamiento para evitar la volatilidad.
- Buffers de retroalimentación negativa: Las ediciones rechazadas se almacenan en un buffer, sirviendo como ejemplos negativos que evitan que el optimizador repita los mismos errores.
- Suavizado de gradiente (Gradient Smoothing): Un mecanismo de "actualización lenta" al final de cada época preserva direcciones de edición estables, imitando cómo el suavizado de gradiente estabiliza el entrenamiento tradicional de redes neuronales.
Esta separación de responsabilidades significa que el trabajo pesado ocurre durante el entrenamiento. En el momento de la inferencia, el modelo objetivo permanece ligero, recibiendo simplemente un archivo Markdown compacto de 300 a 2,000 tokens como contexto.
Dominio en Benchmarks y transferibilidad entre modelos
Los resultados empíricos son significativos. Tras realizar pruebas en seis benchmarks —incluyendo búsqueda, matemáticas, hojas de cálculo y acción encarnada— SkillOpt superó consistentemente a las habilidades escritas manualmente y a métodos especializados como TextGrad y EvoSkill. En GPT-5.5 en chat directo, el método produjo un aumento de rendimiento promedio de aproximadamente 23 puntos.
Uno de los hallazgos más impactantes es la transferibilidad del método. Una habilidad optimizada para un modelo grande como GPT-5.5 puede aplicarse a modelos mucho más pequeños, como Qwen3.5-4B, proporcionándoles eficazmente el conocimiento procedimental del que carecen en sus pesos nativos. Además, las habilidades son agnósticas al entorno; una habilidad de hojas de cálculo entrenada en un bucle de Codex funciona sin problemas en Claude Code sin necesidad de reentrenamiento.
Por ejemplo, en tareas de hojas de cálculo, la habilidad optimizada aprende a verificar primero las estructuras de las hojas de trabajo y a escribir valores evaluados directamente en lugar de depender de fórmulas. En tareas de IA encarnada como ALFWorld, la habilidad aprende a mantener un registro de las ubicaciones visitadas para asegurar que los objetivos se cumplan en el orden correcto.
Conclusiones clave
- Optimización basada en texto: SkillOpt trata los archivos de instrucciones en Markdown como estados entrenables, utilizando un segundo LLM para optimizarlos de forma muy similar a los pesos de un modelo.
- Ganancias masivas de rendimiento: El método aumentó el rendimiento de GPT-5.5 en un promedio de 23 puntos en benchmarks procedimentales, destacando específicamente en el uso de herramientas y tareas de formato estricto.
- Eficiente y transferible: Las habilidades optimizadas son compactas (menos de 2,000 tokens) y pueden transferirse de modelos grandes a modelos más pequeños o entre diferentes entornos de agentes.