KI-Modelle laufen 19 Tage lang nonstop im neuen MirrorCode-Benchmark

Translated for your language. Original lesen.

AI-assisted draft.

GyaanSetu Editorialletzte Woche3Min. Lesezeit

In diesem Artikel

KI-Modelle laufen 19 Tage lang nonstop im neuen MirrorCode-Benchmark

Die Landschaft des autonomen Software-Engineerings wandelt sich von einfachen Code-Snippets hin zu massiven, mehrtägigen Programmier-Marathons. Ein neuer Benchmark von Epoch AI und METR namens MirrorCode zeigt, dass KI-Modelle nun komplexe Reimplementierungsaufgaben bewältigen können, die zuvor Wochen menschlicher Arbeit erforderten.

KI mit MirrorCode herausfordern

MirrorCode stellt eine deutliche Abkehr von traditionellen Software-Engineering-Benchmarks dar, die die Inferenzkosten typischerweise auf lediglich 1 bis 10 US-Dollar pro Aufgabe begrenzen. Stattdessen verlangt dieser Benchmark von KI-Modellen, vollständige, komplexe Programme von Grund auf neu zu implementieren – von Unix-Utilities und Kryptografie bis hin zu Bioinformatik und Datenserialisierung – und zwar ohne Zugriff auf den ursprünglichen Quellcode. Um echte funktionale Äquivalenz zu gewährleisten, muss jede KI-generierte Lösung versteckte End-to-End-Tests bestehen, die das Modell während seiner Entwicklungsphase nie zu Gesicht bekommt.

Das Ausmaß dieser Aufgaben ist beispiellos. Eine spezifische Aufgabe im Benchmark erforderte, dass ein KI-Modell 19 Tage lang kontinuierlich ohne menschliches Eingreifen arbeitete, was zu Inferenzkosten von 2.600 US-Dollar für einen einzigen Durchlauf führte.

Claude Opus 4.7 führt das Rennen an

Die Benchmark-Ergebnisse zeigen eine klare Hierarchie der aktuellen Frontier-Modelle auf. Claude Opus 4.7 ging mit einer Lösungsrate von 56 Prozent als Sieger hervor und übertraf damit deutlich GPT-5.5, das 44 Prozent erreichte, sowie Gemini 3.1 Pro Preview, das bei 32 Prozent lag.

Ein herausragender Erfolg betraf das Bioinformatik-Toolkit gotree. Dieses Programm besteht aus etwa 16.000 Zeilen Go-Code und verfügt über mehr als 40 verschiedene Befehle. Während ein menschlicher Ingenieur typischerweise zwischen 2 und 17 Wochen benötigen würde, um eine solche Aufgabe zu bewältigen, implementierte Claude Opus 4.7 sie erfolgreich in nur 14 Stunden zu Kosten von 251 US-Dollar neu. Selbst in Fällen, in denen Modelle keine 100-prozentig perfekte Reimplementierung erreichen, bestehen sie bemerkenswerterweise über 90 Prozent der Funktionstests.

Die Komplexitätslücke und das Risiko des Auswendiglernens

Trotz dieser Sprünge offenbaren die MirrorCode-Ergebnisse eine deutliche „Komplexitätsgrenze“. Während alle getesteten Modelle kleine Programme wie uuid oder parseqsv zuverlässig bearbeiten, besitzt derzeit kein Modell die Fähigkeit, die Kategorie der „großen“ Aufgaben vollständig zu lösen. Die Grenze des KI-Codings stößt bei den massivsten, miteinander vernetzten Softwarearchitekturen noch immer an ihre Grenzen.

Epoch AI thematisierte auch ein kritisches Problem bei der LLM-Evaluierung: Datenkontamination. Da der Benchmark Open-Source-Programme verwendet, besteht das Risiko, dass die Modelle den ursprünglichen Code bereits während ihrer Trainingsphasen auswendig gelernt haben. Obwohl erste Erkenntnisse darauf hindeuten, dass die Leistung nicht rein auf Auswendiglernen basiert, räumen Forscher ein, dass sie dessen Beitrag zu den aktuellen Lösungsraten nicht vollständig ausschließen können.

Warum dies für die KI-Branche wichtig ist

MirrorCode signalisiert den Übergang von „KI als Copilot“ zu „KI als autonomem Agenten“. Indem bewiesen wird, dass Modelle über Zeiträume von 19 Tagen hinweg logische Schlussfolgerungen ziehen und Tausende von Codezeilen verarbeiten können, rückt die Branche näher an Agenten heran, die in der Lage sind, gesamte Software-Lebenszyklen zu verwalten. Da die Inferenzkosten schwanken – während GPT-5.5 das Dreifache seines Vorgängers kostet, während Claude Opus 4.7 dreimal effizienter geworden ist –, wird die wirtschaftliche Tragfähigkeit des autonomen Engineerings die nächste große Herausforderung sein.

Wichtigste Erkenntnisse

Neues Ausmaß des logischen Denkens: MirrorCode verschiebt die Grenzen der KI, indem es massive Inferenzbudgets ermöglicht, wobei einzelne Aufgaben bis zu 2.600 US-Dollar kosten und 19 Tage lang laufen können.
Claude führt bei der Performance: Claude Opus 4.7 ist derzeit der Benchmark-Führer mit einer Lösungsrate von 56 % und demonstriert erstklassige Fähigkeiten bei der Reimplementierung großer Go-Codebasen.
Komplexitätshürden bleiben bestehen: Während Aufgaben in kleinem Umfang zuverlässig gelöst werden, kann noch kein bestehendes Modell die komplexesten Programmieraufgaben in großem Maßstab vollständig bewältigen.

KI-Modelle laufen 19 Tage lang nonstop im neuen MirrorCode-Benchmark

KI-Modelle laufen 19 Tage lang nonstop im neuen MirrorCode-Benchmark

KI mit MirrorCode herausfordern

Claude Opus 4.7 führt das Rennen an

Die Komplexitätslücke und das Risiko des Auswendiglernens

Warum dies für die KI-Branche wichtig ist

Wichtigste Erkenntnisse

Weiterlesen

Neuer AA Briefcase Benchmark offenbart die Schwierigkeiten der KI bei echter Wissensarbeit

Snowflake-CEO: GLM 5.2 konkurriert mit Claude Opus 4.7 zu einem Bruchteil der Kosten

Uber hat sein gesamtes KI-Coding-Budget in 4 Monaten aufgebraucht

Lindy tauscht Claude gegen DeepSeek aus, um Millionen an KI-Kosten zu sparen

Only Three AI Models Survived the 500 Day Startup Simulation