SkillOpt da Microsoft impulsiona o desempenho do GPT-5.5 via otimização de Markdown

A Microsoft e pesquisadores de três universidades chinesas revelaram o SkillOpt, um método inovador que trata arquivos Markdown instrucionais como parâmetros treináveis. Ao otimizar esses documentos de "skills", os pesquisadores alcançaram um salto massivo de 23 pontos no desempenho do GPT-5.5 em tarefas procedimentais.

Tratando texto como pesos treináveis

No cenário atual da IA, as "skills" — instruções modulares que guiam agentes através de procedimentos específicos, regras de uso de ferramentas e formatos de saída — estão se tornando padrões da indústria. Embora empresas como a Anthropic as utilizem para aprimorar o Claude, esses documentos são tradicionalmente escritos por humanos ou gerados em uma única passagem por um LLM. Nenhum dos métodos funciona como um otimizador real.

O SkillOpt muda esse paradigma ao tratar um arquivo Markdown como um estado externo e treinável para um modelo alvo congelado. Em vez de atualizar os pesos do modelo, um segundo modelo de linguagem "otimizador" analisa logs de execução para identificar erros e sucessos recorrentes. Este otimizador propõe edições cirúrgicas — adicionando, excluindo ou substituindo passagens específicas — dentro de um documento Markdown. Crucialmente, essas alterações só são aceitas se gerarem melhorias mensuráveis em um conjunto de validação reservado.

Conceitos de Deep Learning aplicados à prosa

O brilho do SkillOpt reside em como ele mapeia a mecânica tradicional de deep learning para a otimização em nível de texto. Os pesquisadores implementaram vários mecanismos de controle sofisticados para garantir a estabilidade:

  • Learning Rate e Schedulers: Uma taxa de aprendizado (learning rate) limita o número de edições permitidas por etapa, enquanto um scheduler reduz o tamanho da edição ao longo das épocas de treinamento para evitar volatilidade.
  • Buffers de Feedback Negativo: Edições rejeitadas são armazenadas em um buffer, servindo como exemplos negativos que impedem o otimizador de repetir os mesmos erros.
  • Gradient Smoothing: Um mecanismo de "atualização lenta" ao final de cada época preserva direções de edição estáveis, imitando como a suavização de gradiente (gradient smoothing) estabiliza o treinamento tradicional de redes neurais.

Essa separação de responsabilidades significa que o trabalho pesado acontece durante o treinamento. No momento da inferência, o modelo alvo permanece leve, recebendo apenas um arquivo Markdown compacto de 300 a 2.000 tokens como contexto.

Dominância em Benchmarks e Transferibilidade entre Modelos

Os resultados empíricos são significativos. Em testes realizados em seis benchmarks — incluindo busca, matemática, planilhas e ação incorporada — o SkillOpt superou consistentemente habilidades escritas à mão e métodos especializados como TextGrad e EvoSkill. No GPT-5.5 em chat direto, o método proporcionou um aumento médio de desempenho de aproximadamente 23 pontos.

Uma das descobertas mais impactantes é a transferibilidade do método. Uma habilidade otimizada para um modelo grande como o GPT-5.5 pode ser aplicada a modelos muito menores, como o Qwen3.5-4B, fornecendo-lhes efetivamente o conhecimento procedimental de que carecem em seus pesos nativos. Além disso, as habilidades são agnósticas ao ambiente; uma habilidade de planilha treinada em um loop Codex funciona perfeitamente no Claude Code sem necessidade de retreinamento.

Por exemplo, em tarefas de planilha, a habilidade otimizada aprende a verificar primeiro as estruturas das planilhas e a escrever valores avaliados diretamente, em vez de depender de fórmulas. Em tarefas de IA incorporada como o ALFWorld, a habilidade aprende a manter um log de locais visitados para garantir que os objetivos sejam cumpridos na ordem correta.

Principais Conclusões

  • Otimização Baseada em Texto: O SkillOpt trata arquivos de instrução em Markdown como estados treináveis, utilizando um segundo LLM para otimizá-los de forma muito semelhante aos pesos de um modelo.
  • Ganhos Massivos de Desempenho: O método impulsionou o GPT-5.5 em uma média de 23 pontos em benchmarks procedimentais, destacando-se especificamente em tarefas de uso de ferramentas e formatação rigorosa.
  • Eficiente e Transferível: As habilidades otimizadas são compactas (menos de 2.000 tokens) e podem ser transferidas de modelos grandes para modelos menores ou entre diferentes ambientes de agentes.