I modelli AI lavorano senza sosta per 19 giorni nel nuovo benchmark MirrorCode

Il panorama dell'ingegneria del software autonoma si sta spostando da semplici frammenti di codice a maratone di programmazione massicce che durano diversi giorni. Un nuovo benchmark di Epoch AI e METR, chiamato MirrorCode, rivela che i modelli AI possono ora affrontare complessi compiti di reimplementazione che in precedenza richiedevano settimane di lavoro umano.

Sfida per l'IA con MirrorCode

MirrorCode rappresenta un netto distacco dai tradizionali benchmark di ingegneria del software, che tipicamente limitano i costi di inferenza a soli 1-10 dollari per task. Al contrario, questo benchmark richiede ai modelli AI di reimplementare da zero programmi completi e complessi — che spaziano dalle utility Unix e la crittografia alla bioinformatica e alla serializzazione dei dati — senza avere accesso al codice sorgente originale. Per garantire una vera equivalenza funzionale, ogni soluzione generata dall'IA deve superare test end-to-end nascosti che il modello non vede mai durante la sua fase di sviluppo.

La scala di questi compiti è senza precedenti. Un compito specifico nel benchmark ha richiesto a un modello AI di lavorare continuamente per 19 giorni senza alcun intervento umano, con un costo di inferenza di 2.600 dollari per una singola esecuzione.

Claude Opus 4.7 guida la corsa

I risultati del benchmark evidenziano una chiara gerarchia tra gli attuali modelli di frontiera. Claude Opus 4.7 è emerso come leader con un tasso di risoluzione del 56%, superando significativamente GPT-5.5, che ha raggiunto il 44%, e Gemini 3.1 Pro Preview, fermo al 32%.

Un successo straordinario ha riguardato il toolkit bioinformatico gotree. Questo programma consiste in circa 16.000 righe di codice Go e presenta oltre 40 comandi distinti. Mentre un ingegnere umano richiederebbe tipicamente tra le 2 e le 17 settimane per completare un compito simile, Claude Opus 4.7 lo ha reimplementato con successo in sole 14 ore per un costo di 251 dollari. Anche nei casi in cui i modelli non riescono a ottenere una reimplementazione perfetta al 100%, superano sorprendentemente oltre il 90% dei test funzionali.

Il divario di complessità e i rischi di memorizzazione

Nonostante questi salti in avanti, i risultati di MirrorCode rivelano un netto "soffitto di complessità". Sebbene tutti i modelli testati gestiscano in modo affidabile piccoli programmi come uuid o parseqsv, nessun modello ha attualmente la capacità di risolvere completamente la categoria di task "large". La frontiera della programmazione AI fatica ancora quando si trova di fronte alle architetture software più massicce e interconnesse.

Epoch AI ha affrontato anche una preoccupazione critica nella valutazione degli LLM: la contaminazione dei dati. Poiché il benchmark utilizza programmi open-source, esiste il rischio che i modelli abbiano già memorizzato il codice originale durante le loro fasi di addestramento. Sebbene i risultati iniziali suggeriscano che le prestazioni non siano guidate puramente dalla memorizzazione, i ricercatori ammettono di non poter escludere del tutto il suo contributo agli attuali tassi di risoluzione.

Perché questo è importante per l'industria dell'IA

MirrorCode segnala una transizione da "IA come Copilot" a "IA come Agente Autonomo". Dimostrando che i modelli possono sostenere il ragionamento per periodi di 19 giorni e gestire migliaia di righe di codice, l'industria si sta avvicinando ad agenti capaci di gestire interi cicli di vita del software. Con la fluttuazione dei costi di inferenza — con GPT-5.5 che costa tre volte tanto rispetto al suo predecessore, mentre Claude Opus 4.7 è diventato tre volte più efficiente — la fattibilità economica dell'ingegneria autonoma diventerà la prossima grande frontiera.

Punti chiave

  • Nuova scala di ragionamento: MirrorCode spinge i limiti dell'IA consentendo budget di inferenza massicci, con singoli task che costano fino a 2.600 dollari e durano 19 giorni.
  • Claude guida le prestazioni: Claude Opus 4.7 è attualmente il leader del benchmark con un tasso di risoluzione del 56%, dimostrando capacità d'élite nella reimplementazione di codebase Go su larga scala.
  • Rimangono barriere di complessità: Sebbene i task su piccola scala vengano risolti in modo affidabile, nessun modello esistente è ancora in grado di affrontare pienamente i compiti di programmazione più complessi e su larga scala.