Modelos de IA funcionam ininterruptamente por 19 dias no novo benchmark MirrorCode

Translated for your language. Ler o original.

AI-assisted draft.

GyaanSetu Editorialsemana passada3min de leitura

Modelos de IA funcionam ininterruptamente por 19 dias no novo benchmark MirrorCode

Neste artigo

Modelos de IA funcionam sem parar por 19 dias em novo benchmark MirrorCode

O cenário da engenharia de software autônoma está mudando de simples trechos de código para maratonas de programação massivas de vários dias. Um novo benchmark da Epoch AI e METR, chamado MirrorCode, revela que os modelos de IA agora podem enfrentar tarefas complexas de reimplementação que antes exigiam semanas de trabalho humano.

Desafiando a IA com o MirrorCode

O MirrorCode representa um afastamento significativo dos benchmarks tradicionais de engenharia de software, que normalmente limitam os custos de inferência a meros US$ 1 a US$ 10 por tarefa. Em vez disso, este benchmark exige que os modelos de IA reimplementem programas completos e complexos do zero — variando de utilitários Unix e criptografia a bioinformática e serialização de dados — sem acesso ao código-fonte original. Para garantir uma verdadeira equivalência funcional, cada solução gerada por IA deve passar por testes end-to-end ocultos que o modelo nunca vê durante sua fase de desenvolvimento.

A escala dessas tarefas é sem precedentes. Uma tarefa específica no benchmark exigiu que um modelo de IA trabalhasse continuamente por 19 dias sem qualquer intervenção humana, resultando em um custo de inferência de US$ 2.600 para uma única execução.

Claude Opus 4.7 Lidera a Corrida

Os resultados do benchmark destacam uma hierarquia clara nos atuais modelos de fronteira. O Claude Opus 4.7 surgiu como líder com uma taxa de resolução de 56%, superando significativamente o GPT-5.5, que alcançou 44%, e o Gemini 3.1 Pro Preview, que ficou em 32%.

Um sucesso de destaque envolveu o toolkit de bioinformática gotree. Este programa consiste em aproximadamente 16.000 linhas de código Go e apresenta mais de 40 comandos distintos. Enquanto um engenheiro humano normalmente precisaria de 2 a 17 semanas para concluir tal tarefa, o Claude Opus 4.7 a reimplementou com sucesso em apenas 14 horas por um custo de US$ 251. Mesmo nos casos em que os modelos não conseguem atingir uma reimplementação 100% perfeita, eles passam de forma notável por mais de 90% dos testes funcionais.

A Lacuna de Complexidade e os Riscos de Memorização

Apesar desses avanços, os resultados do MirrorCode revelam um "teto de complexidade" distinto. Embora todos os modelos testados lidem de forma confiável com programas pequenos como uuid ou parseqsv, nenhum modelo possui atualmente a capacidade de resolver totalmente a categoria de tarefas "grandes". A fronteira da codificação por IA ainda enfrenta dificuldades quando confrontada com as arquiteturas de software mais massivas e interconectadas.

A Epoch AI também abordou uma preocupação crítica na avaliação de LLMs: a contaminação de dados. Como o benchmark utiliza programas de código aberto, há o risco de que os modelos já tenham memorizado o código original durante suas fases de treinamento. Embora as descobertas iniciais sugiram que o desempenho não é impulsionado puramente pela memorização, os pesquisadores admitem que não podem descartar inteiramente sua contribuição para as atuais taxas de resolução.

Por que Isso é Importante para a Indústria de IA

O MirrorCode sinaliza uma transição de "IA como Copiloto" para "IA como Agente Autônomo". Ao provar que os modelos podem sustentar o raciocínio por períodos de 19 dias e lidar com milhares de linhas de código, a indústria está se aproximando de agentes capazes de gerenciar ciclos de vida inteiros de software. À medida que os custos de inferência flutuam — com o GPT-5.5 custando três vezes mais que seu predecessor, enquanto o Claude Opus 4.7 se tornou três vezes mais eficiente — a viabilidade econômica da engenharia autônoma se tornará a próxima grande fronteira.

Principais Conclusões

Nova Escala de Raciocínio: O MirrorCode expande os limites da IA ao permitir orçamentos de inferência massivos, com tarefas individuais custando até US$ 2.600 e durando 19 dias.
Claude Lidera em Desempenho: O Claude Opus 4.7 é atualmente o líder do benchmark com uma taxa de resolução de 56%, demonstrando capacidades de elite na reimplementação de bases de código Go em larga escala.
Barreiras de Complexidade Persistem: Embora tarefas de pequena escala estejam sendo resolvidas de forma confiável, nenhum modelo existente consegue ainda decifrar totalmente as tarefas de programação mais complexas e de grande escala.

Modelos de IA funcionam ininterruptamente por 19 dias no novo benchmark MirrorCode

Modelos de IA funcionam sem parar por 19 dias em novo benchmark MirrorCode

Desafiando a IA com o MirrorCode

Claude Opus 4.7 Lidera a Corrida

A Lacuna de Complexidade e os Riscos de Memorização

Por que Isso é Importante para a Indústria de IA

Principais Conclusões

Continuar lendo

Novo benchmark AA Briefcase revela a dificuldade da IA com o trabalho intelectual real

Snowflake CEO: GLM 5.2 Rivals Claude Opus 4.7 at a Fraction of the Cost

Uber esgotou todo o seu orçamento de codificação com IA em 4 meses

Lindy troca Claude por DeepSeek para economizar milhões em custos de IA

Apenas três modelos de IA sobreviveram à simulação de startup de 500 dias