Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities

Translated for your language. Original lesen.

AI-assisted draft.

GyaanSetu Editorialvor 22 Stunden3Min. Lesezeit

Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities

In diesem Artikel

Warum Standard-KI-Benchmarks die Fähigkeiten von Agenten systematisch unterschätzen

Aktuelle KI-Evaluierungsmethoden scheitern daran, das wahre Potenzial von Frontier-Modellen zu erfassen, da sie oft einen Mangel an Rechenbudget mit einem Mangel an Intelligenz verwechseln. Das britische AI Security Institute (AISI) hat aufgezeigt, dass die Leistung von KI-Agenten kein fester Wert ist, sondern eine Skalierungskurve, die mit zunehmendem Test-Time-Compute steil ansteigt.

Die Compute-Capability-Kurve

Die zentrale Erkenntnis der AISI-Forschung ist, dass die Erfolgsrate eines KI-Agenten untrennbar mit seinem „Test-Time-Compute“ verknüpft ist – der Menge an Rechenleistung und Token, die einem Agenten bei der Bearbeitung einer Aufgabe zur Verfügung steht. Wenn Forscher bei Evaluierungen feste Budgetobergrenzen festlegen, messen sie eher die Mindestfähigkeit eines Modells als sein maximales Potenzial.

Dieses Phänomen ist in mehreren hochkritischen Bereichen sichtbar. Bei Software-Engineering-Aufgaben unter Verwendung von Benchmarks wie TerminalBench 2.0 und SWE-Bench Pro stiegen die Erfolgsraten um etwa 25 %, als das Token-Budget von einer Million auf zehn Millionen erhöht wurde. Ähnlich verhielt es sich bei mathematischen und akademischen Aufgaben in „Humanity's Last Exam“, die einen Zuwachs von 22 % verzeichneten, als das Budget fünf Millionen Token erreichte.

Das Potenzgesetz der menschlichen vs. KI-Aufgabenzeit

Die Studie stellte eine direkte Korrelation zwischen der Zeit, die ein menschlicher Experte für eine Aufgabe benötigt, und dem Token-Verbrauch eines KI-Agenten fest. Diese Beziehung folgt einem Potenzgesetz: Eine Aufgabe, die ein Mensch in einer Minute erledigt, kostet einen Agenten tausende Token, während eine einstündige Aufgabe Millionen kosten kann.

Dies schafft einen massiven blinden Fleck in der aktuellen Testung. Beispielsweise erfordert die AISI-Cybersecurity-Aufgabe „The Last Ones“ etwa 20 Stunden menschlicher Expertise. Kein vom Institut getestetes Modell konnte diese Aufgabe mit weniger als 30 Millionen Token lösen. Durch die Verwendung von Standard-Evaluierungen mit geringerem Budget schließen Forscher effektiv die komplexesten und kritischsten Aufgaben aus dem Messprozess aus.

Beschleunigter Fortschritt und die drei Achsen der Verbesserung

Das AISI stellt fest, dass sich der „Zeithorizont“ von Frontier-Modellen – die Komplexität der Aufgaben, die sie bewältigen können – viel schneller ausdehnt als bisher angenommen. Während frühere Schätzungen darauf hindeuteten, dass sich der Zeithorizont für Cyber-Aufgaben bei einem festen Budget von 2,5 Millionen Token alle 4,7 Monate verdoppelt, beschleunigt sich diese Rate bei höheren Budgets erheblich. Bei 50 Millionen Token steigt die Verdopplungsrate auf alle 40 bis 50 Tage an.

Neuere Modelle (wie die getesteten GPT- und Claude-Serien) zeigen Verbesserungen in drei spezifischen Dimensionen:

Reichweite (Reach): Die Fähigkeit, zunehmend schwierigere Aufgaben anzugehen.
Zuverlässigkeit (Reliability): Die Fähigkeit, dieselbe Aufgabe konsistenter zu lösen.
Effizienz (Efficiency): Die Fähigkeit, Aufgaben mit weniger Token zu lösen.

Implikationen für KI-Sicherheit und Einsatz

Diese Forschung verschiebt das Paradigma der KI-Evaluierung von „festen Scores“ hin zu „auf Rechenleistung bezogenen Kurven“. Für Entwickler und Gründer bedeutet dies, dass der Nutzen eines Modells nicht nur eine Funktion seines Trainings ist, sondern davon abhängt, wie viel Inferenz-Rechenleistung während des Einsatzes zugewiesen wird.

Da die Kosten pro Token weiter sinken, werden Fähigkeiten, die zuvor wirtschaftlich nicht machbar schienen, zum Standard werden. Für die KI-Sicherheit und -Cybersicherheit bedeutet dies, dass Risiken im Zusammenhang mit autonomen Agenten – wie komplexe Cyberangriffe – erheblich unterschätzt werden könnten, wenn Regulierungsbehörden und Unternehmen sich auf traditionelle Benchmarks mit geringem Budget verlassen.

Wichtigste Erkenntnisse

Benchmarks sind irreführend: Feste Token-Budgets erfassen nur die Mindestleistung eines Modells und unterschätzen systematisch die Obergrenze dessen, was KI-Agenten erreichen können.
Compute skaliert Fähigkeiten: Die Erfolgsraten in den Bereichen Software-Engineering und Mathematik springen signifikant an, wenn das Test-Time-Compute-Budget erhöht wird.
Die „Verdopplungsrate“ beschleunigt sich: Bei höheren Compute-Budgets ist die Rate, mit der Frontier-Modelle komplexe Aufgaben meistern, wesentlich steiler als zuvor geschätzt.

Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities

Warum Standard-KI-Benchmarks die Fähigkeiten von Agenten systematisch unterschätzen

Die Compute-Capability-Kurve

Das Potenzgesetz der menschlichen vs. KI-Aufgabenzeit

Beschleunigter Fortschritt und die drei Achsen der Verbesserung

Implikationen für KI-Sicherheit und Einsatz

Wichtigste Erkenntnisse

Weiterlesen

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

AI Agent Evaluation Ends Too Early

The Rise of Agentic AI: Why Tech Teams are Leading the Automation Frontier

Warum führende KI-Modelle bei finanziellen Triage-Tests scheitern