Agent-Leaderboards führen bei Distribution Shift in die Irre

Aktuelle Leaderboards für KI-Agenten sind fehlerhaft.

Die meisten Leaderboards nehmen einen Agenten und wandeln ihn in einen einzigen Score um. Anschließend sortieren sie die Agenten von der höchsten zur niedrigsten Punktzahl. Das sieht in einem Bericht gut aus, scheitert aber in der realen Welt.

Ein neues Paper von IBM mit dem Titel „Beyond Static Leaderboards“ erklärt, warum das so ist.

Das Problem: Aggregierte Scores

Ein einzelner Mittelwert-Score ist ein schwaches Signal für das Deployment. Eine Evaluierung sollte Ihnen sagen, welchen Agenten Sie ausrollen sollten. Wenn der Top-Agent in einem Benchmark nicht der Top-Agent in Ihrer Produktionsumgebung ist, hat das Leaderboard Sie getäuscht.

IBM hat herausgefunden, dass Rankings, die auf aggregierten Scores basieren, sich nicht übertragen, wenn sich die Bedingungen ändern. Dies wird als Distribution Shift bezeichnet.

Die Analogie: Sprinter im Wind

  • Stellen Sie sich vor, Sie ranken Sprinter in einer Halle auf einer Bahn ohne Wind.
  • Sprinter A gewinnt. Sprinter B kommt auf den zweiten Platz.
  • Verlegen Sie das Rennen nun nach draußen in starken Wind.
  • Das Ranking ändert sich. Sprinter B gewinnt. Sprinter A fällt auf den dritten Platz zurück.

Die Stoppuhr in der Halle war nicht falsch. Sie hat die Geschwindigkeit in einer ganz spezifischen Umgebung gemessen. Sie konnte lediglich nicht vorhersagen, wie die Läufer im Wind abschneiden würden.

Die Lösung: Predictive Validity

IBM schlägt vor, Predictive Validity anstelle von reinen Roh-Scores zu verwenden.

Predictive Validity misst die Rangkorrelation zwischen einem Benchmark und den Ergebnissen in der realen Welt. Sie stellt eine einfache Frage: Bleibt die Reihenfolge der Agenten gleich, wenn sich die Umgebung ändert?

  • Hohe Predictive Validity: Das Leaderboard sagt den Gewinner in der realen Welt voraus.
  • Niedrige Predictive Validity: Das Leaderboard weist auf den falschen Agenten hin.

Kernkonzepte:

  • In-sample: Die spezifischen Aufgaben, die der Benchmark verwendet.
  • Out-of-distribution: Neue Aufgaben, neue