Les modèles d'IA tournent sans interruption pendant 19 jours dans le nouveau benchmark MirrorCode
Le paysage de l'ingénierie logicielle autonome évolue, passant de simples extraits de code à de véritables marathons de programmation de plusieurs jours. Un nouveau benchmark d'Epoch AI et METR, nommé MirrorCode, révèle que les modèles d'IA peuvent désormais s'attaquer à des tâches de réimplémentation complexes qui nécessitaient auparavant des semaines de travail humain.
Défier l'IA avec MirrorCode
MirrorCode marque une rupture significative avec les benchmarks traditionnels d'ingénierie logicielle, qui plafonnent généralement les coûts d'inférence entre seulement 1 $ et 10 $ par tâche. Au lieu de cela, ce benchmark exige que les modèles d'IA réimplémentent de zéro des programmes complets et complexes — allant des utilitaires Unix et de la cryptographie à la bioinformatique et à la sérialisation de données — sans avoir accès au code source original. Pour garantir une véritable équivalence fonctionnelle, chaque solution générée par l'IA doit réussir des tests de bout en bout cachés que le modèle ne voit jamais durant sa phase de développement.
L'ampleur de ces tâches est sans précédent. Une tâche spécifique du benchmark a nécessité qu'un modèle d'IA travaille en continu pendant 19 jours sans aucune intervention humaine, entraînant un coût d'inférence de 2 600 $ pour une seule exécution.
Claude Opus 4.7 mène la course
Les résultats du benchmark mettent en évidence une hiérarchie claire parmi les modèles de pointe actuels. Claude Opus 4.7 s'est imposé comme le leader avec un taux de résolution de 56 %, surpassant nettement GPT-5.5, qui a atteint 44 %, et Gemini 3.1 Pro Preview, qui s'est établi à 32 %.
Un succès remarquable concerne la boîte à outils de bioinformatique gotree. Ce programme se compose d'environ 16 000 lignes de code Go et propose plus de 40 commandes distinctes. Alors qu'un ingénieur humain nécessiterait normalement entre 2 et 17 semaines pour accomplir une telle tâche, Claude Opus 4.7 l'a réimplémentée avec succès en seulement 14 heures pour un coût de 251 $. Même dans les cas où les modèles ne parviennent pas à une réimplémentation parfaite à 100 %, ils réussissent remarquablement plus de 90 % des tests fonctionnels.
L'écart de complexité et les risques de mémorisation
Malgré ces avancées, les résultats de MirrorCode révèlent un « plafond de complexité » distinct. Bien que tous les modèles testés gèrent de manière fiable de petits programmes comme uuid ou parseqsv, aucun modèle n'est actuellement capable de résoudre pleinement la catégorie des tâches « large ». La frontière du codage par IA peine encore face aux architectures logicielles les plus massives et interconnectées.
Epoch AI a également abordé une préoccupation critique dans l'évaluation des LLM : la contamination des données. Comme le benchmark utilise des programmes open-source, il existe un risque que les modèles aient déjà mémorisé le code original lors de leurs phases d'entraînement. Bien que les premières conclusions suggèrent que la performance n'est pas uniquement dictée par la mémorisation, les chercheurs admettent qu'ils ne peuvent pas l'exclure totalement de sa contribution aux taux de résolution actuels.
Pourquoi cela est important pour l'industrie de l'IA
MirrorCode signale une transition de « l'IA en tant que Copilot » vers « l'IA en tant qu'agent autonome ». En prouvant que les modèles peuvent maintenir un raisonnement sur des périodes de 19 jours et gérer des milliers de lignes de code, l'industrie se rapproche d'agents capables de gérer des cycles de vie logiciels complets. Alors que les coûts d'inférence fluctuent — GPT-5.5 coûtant trois fois plus cher que son prédécesseur tandis que Claude Opus 4.7 est devenu trois fois plus efficace — la viabilité économique de l'ingénierie autonome deviendra la prochaine grande frontière.
Points clés à retenir
- Nouvelle échelle de raisonnement : MirrorCode repousse les limites de l'IA en autorisant des budgets d'inférence massifs, avec des tâches uniques coûtant jusqu'à 2 600 $ et s'étalant sur 19 jours.
- Claude mène la performance : Claude Opus 4.7 est actuellement le leader du benchmark avec un taux de résolution de 56 %, démontrant des capacités d'élite dans la réimplémentation de bases de code Go à grande échelle.
- Les barrières de complexité subsistent : Bien que les tâches à petite échelle soient résolues de manière fiable, aucun modèle existant ne peut encore s'attaquer pleinement aux tâches de programmation les plus complexes et de grande envergure.
