Modelos de IA funcionam sem parar por 19 dias em novo benchmark MirrorCode
O cenário da engenharia de software autônoma está mudando de simples trechos de código para maratonas de programação massivas de vários dias. Um novo benchmark da Epoch AI e METR, chamado MirrorCode, revela que os modelos de IA agora podem enfrentar tarefas complexas de reimplementação que antes exigiam semanas de trabalho humano.
Desafiando a IA com o MirrorCode
O MirrorCode representa um afastamento significativo dos benchmarks tradicionais de engenharia de software, que normalmente limitam os custos de inferência a meros US$ 1 a US$ 10 por tarefa. Em vez disso, este benchmark exige que os modelos de IA reimplementem programas completos e complexos do zero — variando de utilitários Unix e criptografia a bioinformática e serialização de dados — sem acesso ao código-fonte original. Para garantir uma verdadeira equivalência funcional, cada solução gerada por IA deve passar por testes end-to-end ocultos que o modelo nunca vê durante sua fase de desenvolvimento.
A escala dessas tarefas é sem precedentes. Uma tarefa específica no benchmark exigiu que um modelo de IA trabalhasse continuamente por 19 dias sem qualquer intervenção humana, resultando em um custo de inferência de US$ 2.600 para uma única execução.
Claude Opus 4.7 Lidera a Corrida
Os resultados do benchmark destacam uma hierarquia clara nos atuais modelos de fronteira. O Claude Opus 4.7 surgiu como líder com uma taxa de resolução de 56%, superando significativamente o GPT-5.5, que alcançou 44%, e o Gemini 3.1 Pro Preview, que ficou em 32%.
Um sucesso de destaque envolveu o toolkit de bioinformática gotree. Este programa consiste em aproximadamente 16.000 linhas de código Go e apresenta mais de 40 comandos distintos. Enquanto um engenheiro humano normalmente precisaria de 2 a 17 semanas para concluir tal tarefa, o Claude Opus 4.7 a reimplementou com sucesso em apenas 14 horas por um custo de US$ 251. Mesmo nos casos em que os modelos não conseguem atingir uma reimplementação 100% perfeita, eles passam de forma notável por mais de 90% dos testes funcionais.
A Lacuna de Complexidade e os Riscos de Memorização
Apesar desses avanços, os resultados do MirrorCode revelam um "teto de complexidade" distinto. Embora todos os modelos testados lidem de forma confiável com programas pequenos como uuid ou parseqsv, nenhum modelo possui atualmente a capacidade de resolver totalmente a categoria de tarefas "grandes". A fronteira da codificação por IA ainda enfrenta dificuldades quando confrontada com as arquiteturas de software mais massivas e interconectadas.
A Epoch AI também abordou uma preocupação crítica na avaliação de LLMs: a contaminação de dados. Como o benchmark utiliza programas de código aberto, há o risco de que os modelos já tenham memorizado o código original durante suas fases de treinamento. Embora as descobertas iniciais sugiram que o desempenho não é impulsionado puramente pela memorização, os pesquisadores admitem que não podem descartar inteiramente sua contribuição para as atuais taxas de resolução.
Por que Isso é Importante para a Indústria de IA
O MirrorCode sinaliza uma transição de "IA como Copiloto" para "IA como Agente Autônomo". Ao provar que os modelos podem sustentar o raciocínio por períodos de 19 dias e lidar com milhares de linhas de código, a indústria está se aproximando de agentes capazes de gerenciar ciclos de vida inteiros de software. À medida que os custos de inferência flutuam — com o GPT-5.5 custando três vezes mais que seu predecessor, enquanto o Claude Opus 4.7 se tornou três vezes mais eficiente — a viabilidade econômica da engenharia autônoma se tornará a próxima grande fronteira.
Principais Conclusões
- Nova Escala de Raciocínio: O MirrorCode expande os limites da IA ao permitir orçamentos de inferência massivos, com tarefas individuais custando até US$ 2.600 e durando 19 dias.
- Claude Lidera em Desempenho: O Claude Opus 4.7 é atualmente o líder do benchmark com uma taxa de resolução de 56%, demonstrando capacidades de elite na reimplementação de bases de código Go em larga escala.
- Barreiras de Complexidade Persistem: Embora tarefas de pequena escala estejam sendo resolvidas de forma confiável, nenhum modelo existente consegue ainda decifrar totalmente as tarefas de programação mais complexas e de grande escala.
