Warum KI-Coding-Agents scheitern: Die kritische Lücke zwischen Dateien und Zeilen
Während KI-Coding-Agents zunehmend in der Lage sind, Softwarefehler zu beheben, zeigt eine neue Studie, dass sie unter einem erheblichen „Lokalisierungsproblem“ leiden. Sie können zwar die richtige Datei innerhalb einer massiven Codebasis finden, scheitern aber häufig daran, die spezifischen Codezeilen zu identifizieren, die für die Implementierung eines Fixes erforderlich sind.
Einführung von SWE-Explore: Über Reparaturraten hinausgehen
Historisch gesehen wurde die Effektivität von KI-Coding-Agents an einer einzigen, binären Metrik gemessen: Hat der Agent den Fehler behoben oder nicht? Dieser Ansatz ignoriert das „Warum“ hinter einem Fehlschlag. Eine misslungene Reparatur könnte bedeuten, dass der Agent einen fehlerhaften Patch geschrieben hat, oder dass der Agent die relevante Logik gar nicht erst betrachtet hat.
Um diesen blinden Fleck zu adressieren, hat ein internationales Forschungsteam, darunter Wissenschaftler der Shanghai Jiao Tong University, SWE-Explore entwickelt. Im Gegensatz zu herkömmlichen Benchmarks isoliert SWE-Explore die vorgelagerte Suchphase. Es bewertet die Fähigkeit eines Agents, eine Fehlerbeschreibung entgegenzunehmen und eine sortierte Liste der spezifischen Codeabschnitte zurückzugeben, die tatsächlich für das Problem relevant sind. Der Datensatz ist umfangreich und umfasst 848 Aufgaben aus 203 Open-Source-Projekten und zehn Programmiersprachen, wobei Python am stärksten vertreten ist (547 Aufgaben).
Die Präzisionslücke: Erfolg auf Dateiebene vs. Scheitern auf Zeilenebene
Die auffälligste Erkenntnis der Studie ist die massive Diskrepanz zwischen der Genauigkeit auf Dateiebene und der Genauigkeit auf Zeilenebene. Bei Tests mit Allzweck-Agents wie Claude Code, Codex und OpenHands waren die Ergebnisse aufschlussreich:
- Genauigkeit auf Dateiebene: Die Agents schneiden gut ab, identifizieren erfolgreich die richtigen Quelldateien und setzen sie weit oben in der Rangliste.
- Genauigkeit auf Zeilenebene: Die Leistung bricht ein. Allgemeine Coding-Agents deckten nur 14 % bis 19 % der tatsächlichen Codezeilen ab, die für einen Fix entscheidend waren.
Interessanterweise löst eine einfache Aktualisierung des zugrunde liegenden Large Language Models (LLM) dieses Problem nicht. Unabhängig davon, ob Modelle von OpenAI, Anthropic, Google, Moonshot oder Zhipu verwendet werden, bleibt das Muster identisch: hohe Trefferquoten bei Dateien, aber eine katastrophale Abdeckung der Zeilen. Die Forschung stellte fest, dass spezialisierte Systeme wie CoSIL herkömmliche Agents übertrafen, indem sie Code als ein Netzwerk miteinander verbundener Bausteine behandelten. Dies deutet darauf hin, dass architektonische Änderungen wichtiger sind als reine Modellleistung.
Der Schwelleneffekt: Warum „mehr lesen“ wichtig ist
Durch kontrollierte Ablations-Experimente entdeckten Forscher einen „Schwelleneffekt“ in Bezug auf den Kontext. Durch die Variation der Menge des dem Modell bereitgestellten Kerncodes (von 0 % bis 100 %) stellten sie fest, dass sich die Reparaturen nicht linear verbessern.
Bei einfacheren Aufgaben gibt es einen klaren Wendepunkt: Wenn ein Agent weniger als 50 % der notwendigen Kernregionen sieht, bleibt die Erfolgsquote der Reparaturen nahe Null. Ein signifikanter Sprung bei den erfolgreichen Reparaturen tritt erst auf, wenn der Agent Zugriff auf zwischen 50 % und 75 % des erforderlichen Kontexts hat. Entscheidend war die Erkenntnis der Studie, dass das Bereitstellen von irrelevantem „Noise“-Code die Leistung nicht so sehr beeinträchtigt wie das Fehlen kritischer Zeilen. Die Schlussfolgerung für Entwickler ist klar: Im Zeitalter von KI-Agenten ist es besser, mehr Kontext bereitzustellen, als zu riskieren, die wesentlichen Details herauszufiltern.
Wichtigste Erkenntnisse
- Lokalisierung ist der Flaschenhals: KI-Agenten sind geschickt darin, die richtige Datei zu finden, haben aber erhebliche Schwierigkeiten, die spezifischen Codezeilen genau zu bestimmen, die für eine Fehlerbehebung erforderlich sind.
- Modellskalierung ist kein Allheilmittel: Das Upgrade auf leistungsfähigere LLMs behebt die Lücke bei der Genauigkeit auf Zeilenebene nicht; spezialisierte architektonische Ansätze wie CoSIL sind effektiver.
- Die 50-%-Kontextregel: Der Erfolg von KI-Reparaturen folgt einem Schwellenwertmuster und erfordert, dass mindestens 50–75 % des relevanten Code-Kontexts sichtbar sind, bevor erfolgreiche Fehlerbehebungen wahrscheinlich werden.