Los modelos de IA funcionan sin interrupción durante 19 días en el nuevo benchmark MirrorCode
El panorama de la ingeniería de software autónoma está pasando de simples fragmentos de código a maratones de programación masivos de varios días. Un nuevo benchmark de Epoch AI y METR, llamado MirrorCode, revela que los modelos de IA ahora pueden abordar tareas complejas de reimplementación que antes requerían semanas de trabajo humano.
Desafiando a la IA con MirrorCode
MirrorCode representa un cambio significativo respecto a los benchmarks tradicionales de ingeniería de software, que suelen limitar los costes de inferencia a tan solo entre 1 y 10 dólares por tarea. En su lugar, este benchmark exige que los modelos de IA reimplementen programas completos y complejos desde cero —que van desde utilidades de Unix y criptografía hasta bioinformática y serialización de datos— sin tener acceso al código fuente original. Para garantizar una verdadera equivalencia funcional, cada solución generada por la IA debe superar pruebas end-to-end ocultas que el modelo nunca ve durante su fase de desarrollo.
La escala de estas tareas no tiene precedentes. Una tarea específica en el benchmark requirió que un modelo de IA trabajara continuamente durante 19 días sin ninguna intervención humana, lo que resultó en un coste de inferencia de 2.600 dólares para una sola ejecución.
Claude Opus 4.7 lidera la carrera
Los resultados del benchmark resaltan una jerarquía clara entre los modelos de vanguardia actuales. Claude Opus 4.7 surgió como el líder con una tasa de resolución del 56 por ciento, superando significativamente a GPT-5.5, que alcanzó el 44 por ciento, y a Gemini 3.1 Pro Preview, que se situó en el 32 por ciento.
Un éxito destacado fue el del kit de herramientas de bioinformática gotree. Este programa consta de aproximadamente 16.000 líneas de código Go y cuenta con más de 40 comandos distintos. Mientras que un ingeniero humano normalmente requeriría entre 2 y 17 semanas para completar tal tarea, Claude Opus 4.7 la reimplementó con éxito en solo 14 horas por un coste de 251 dólares. Incluso en los casos en que los modelos no logran una reimplementación perfecta del 100 por ciento, superan notablemente más del 90 por ciento de las pruebas funcionales.
La brecha de complejidad y los riesgos de memorización
A pesar de estos avances, los resultados de MirrorCode revelan un "techo de complejidad" distintivo. Si bien todos los modelos probados manejan de forma fiable programas pequeños como uuid o parseqsv, ningún modelo tiene actualmente la capacidad de resolver por completo la categoría de tareas "grandes". La frontera de la programación con IA todavía tiene dificultades cuando se enfrenta a las arquitecturas de software más masivas e interconectadas.
Epoch AI también abordó una preocupación crítica en la evaluación de los LLM: la contaminación de datos. Dado que el benchmark utiliza programas de código abierto, existe el riesgo de que los modelos ya hayan memorizado el código original durante sus fases de entrenamiento. Aunque los hallazgos iniciales sugieren que el rendimiento no se debe puramente a la memorización, los investigadores admiten que no pueden descartar por completo su contribución a las tasas de resolución actuales.
Por qué esto es importante para la industria de la IA
MirrorCode señala una transición de "la IA como Copilot" a "la IA como Agente Autónomo". Al demostrar que los modelos pueden mantener el razonamiento durante periodos de 19 días y manejar miles de líneas de código, la industria se acerca a agentes capaces de gestionar ciclos de vida de software completos. A medida que los costes de inferencia fluctúan —con GPT-5.5 costando tres veces más que su predecesor, mientras que Claude Opus 4.7 se ha vuelto tres veces más eficiente—, la viabilidad económica de la ingeniería autónoma se convertirá en la próxima gran frontera.
Conclusiones clave
- Nueva escala de razonamiento: MirrorCode lleva al límite la IA al permitir presupuestos de inferencia masivos, con tareas individuales que cuestan hasta 2.600 dólares y duran 19 días.
- Claude lidera el rendimiento: Claude Opus 4.7 es actualmente el líder del benchmark con una tasa de resolución del 56%, demostrando capacidades de élite en la reimplementación de bases de código Go a gran escala.
- Persisten las barreras de complejidad: Aunque las tareas a pequeña escala se resuelven de forma fiable, ningún modelo existente puede todavía descifrar por completo las tareas de programación más complejas y a gran escala.
