Rankingi agentów wprowadzają w błąd przy przesunięciu rozkładu

Obecne rankingi agentów AI są wadliwe.

Większość rankingów bierze agenta i zamienia go w jedną, pojedynczą ocenę. Następnie sortują agentów od najwyższej do najniższej. Wygląda to dobrze w raporcie, ale zawodzi w świecie rzeczywistym.

Nowa publikacja IBM zatytułowana „Beyond Static Leaderboards” wyjaśnia dlaczego.

The Problem: Aggregate Scores

Pojedyncza średnia ocena jest słabym sygnałem przy wdrażaniu. Ewaluacja powinna informować, którego agenta należy udostępnić. Jeśli najlepszy agent w benchmarku nie jest najlepszym agentem w Twoim środowisku produkcyjnym, ranking Cię okłamał.

IBM odkryło, że rankingi oparte na wynikach zagregowanych nie przenoszą się na inne warunki, gdy ulegają one zmianie. Nazywa się to przesunięciem rozkładu (distribution shift).

The Analogy: Sprinters in the Wind

  • Wyobraź sobie ranking sprinterów na hali, na torze bez wiatru.
  • Sprinter A wygrywa. Sprinter B zajmuje drugie miejsce.
  • Teraz przenieś wyścig na zewnątrz, na silny wiatr.
  • Ranking się zmienia. Sprinter B wygrywa. Sprinter A spada na trzecie miejsce.

Zegar na hali nie był błędny. Zmierzył prędkość w jednym, konkretnym ustawieniu. Po prostu nie potrafił przewidzieć, jak biegacze poradzą sobie na wietrze.

The Solution: Predictive Validity

IBM proponuje stosowanie trafności predykcyjnej (predictive validity) zamiast samych su