KI-Modelle laufen 19 Tage lang nonstop im neuen MirrorCode-Benchmark
Die Landschaft des autonomen Software-Engineerings wandelt sich von einfachen Code-Snippets hin zu massiven, mehrtägigen Programmier-Marathons. Ein neuer Benchmark von Epoch AI und METR namens MirrorCode zeigt, dass KI-Modelle nun komplexe Reimplementierungsaufgaben bewältigen können, die zuvor Wochen menschlicher Arbeit erforderten.
KI mit MirrorCode herausfordern
MirrorCode stellt eine deutliche Abkehr von traditionellen Software-Engineering-Benchmarks dar, die die Inferenzkosten typischerweise auf lediglich 1 bis 10 US-Dollar pro Aufgabe begrenzen. Stattdessen verlangt dieser Benchmark von KI-Modellen, vollständige, komplexe Programme von Grund auf neu zu implementieren – von Unix-Utilities und Kryptografie bis hin zu Bioinformatik und Datenserialisierung – und zwar ohne Zugriff auf den ursprünglichen Quellcode. Um echte funktionale Äquivalenz zu gewährleisten, muss jede KI-generierte Lösung versteckte End-to-End-Tests bestehen, die das Modell während seiner Entwicklungsphase nie zu Gesicht bekommt.
Das Ausmaß dieser Aufgaben ist beispiellos. Eine spezifische Aufgabe im Benchmark erforderte, dass ein KI-Modell 19 Tage lang kontinuierlich ohne menschliches Eingreifen arbeitete, was zu Inferenzkosten von 2.600 US-Dollar für einen einzigen Durchlauf führte.
Claude Opus 4.7 führt das Rennen an
Die Benchmark-Ergebnisse zeigen eine klare Hierarchie der aktuellen Frontier-Modelle auf. Claude Opus 4.7 ging mit einer Lösungsrate von 56 Prozent als Sieger hervor und übertraf damit deutlich GPT-5.5, das 44 Prozent erreichte, sowie Gemini 3.1 Pro Preview, das bei 32 Prozent lag.
Ein herausragender Erfolg betraf das Bioinformatik-Toolkit gotree. Dieses Programm besteht aus etwa 16.000 Zeilen Go-Code und verfügt über mehr als 40 verschiedene Befehle. Während ein menschlicher Ingenieur typischerweise zwischen 2 und 17 Wochen benötigen würde, um eine solche Aufgabe zu bewältigen, implementierte Claude Opus 4.7 sie erfolgreich in nur 14 Stunden zu Kosten von 251 US-Dollar neu. Selbst in Fällen, in denen Modelle keine 100-prozentig perfekte Reimplementierung erreichen, bestehen sie bemerkenswerterweise über 90 Prozent der Funktionstests.
Die Komplexitätslücke und das Risiko des Auswendiglernens
Trotz dieser Sprünge offenbaren die MirrorCode-Ergebnisse eine deutliche „Komplexitätsgrenze“. Während alle getesteten Modelle kleine Programme wie uuid oder parseqsv zuverlässig bearbeiten, besitzt derzeit kein Modell die Fähigkeit, die Kategorie der „großen“ Aufgaben vollständig zu lösen. Die Grenze des KI-Codings stößt bei den massivsten, miteinander vernetzten Softwarearchitekturen noch immer an ihre Grenzen.
Epoch AI thematisierte auch ein kritisches Problem bei der LLM-Evaluierung: Datenkontamination. Da der Benchmark Open-Source-Programme verwendet, besteht das Risiko, dass die Modelle den ursprünglichen Code bereits während ihrer Trainingsphasen auswendig gelernt haben. Obwohl erste Erkenntnisse darauf hindeuten, dass die Leistung nicht rein auf Auswendiglernen basiert, räumen Forscher ein, dass sie dessen Beitrag zu den aktuellen Lösungsraten nicht vollständig ausschließen können.
Warum dies für die KI-Branche wichtig ist
MirrorCode signalisiert den Übergang von „KI als Copilot“ zu „KI als autonomem Agenten“. Indem bewiesen wird, dass Modelle über Zeiträume von 19 Tagen hinweg logische Schlussfolgerungen ziehen und Tausende von Codezeilen verarbeiten können, rückt die Branche näher an Agenten heran, die in der Lage sind, gesamte Software-Lebenszyklen zu verwalten. Da die Inferenzkosten schwanken – während GPT-5.5 das Dreifache seines Vorgängers kostet, während Claude Opus 4.7 dreimal effizienter geworden ist –, wird die wirtschaftliche Tragfähigkeit des autonomen Engineerings die nächste große Herausforderung sein.
Wichtigste Erkenntnisse
- Neues Ausmaß des logischen Denkens: MirrorCode verschiebt die Grenzen der KI, indem es massive Inferenzbudgets ermöglicht, wobei einzelne Aufgaben bis zu 2.600 US-Dollar kosten und 19 Tage lang laufen können.
- Claude führt bei der Performance: Claude Opus 4.7 ist derzeit der Benchmark-Führer mit einer Lösungsrate von 56 % und demonstriert erstklassige Fähigkeiten bei der Reimplementierung großer Go-Codebasen.
- Komplexitätshürden bleiben bestehen: Während Aufgaben in kleinem Umfang zuverlässig gelöst werden, kann noch kein bestehendes Modell die komplexesten Programmieraufgaben in großem Maßstab vollständig bewältigen.
