Agent Leaderboards Mislead Under Distribution Shift

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 tygodnie temu2min read

Agent Leaderboards Mislead Under Distribution Shift

Rankingi agentów wprowadzają w błąd przy przesunięciu rozkładu

Obecne rankingi agentów AI są wadliwe.

Większość rankingów bierze agenta i zamienia go w jedną, pojedynczą ocenę. Następnie sortują agentów od najwyższej do najniższej. Wygląda to dobrze w raporcie, ale zawodzi w świecie rzeczywistym.

Nowa publikacja IBM zatytułowana „Beyond Static Leaderboards” wyjaśnia dlaczego.

The Problem: Aggregate Scores

Pojedyncza średnia ocena jest słabym sygnałem przy wdrażaniu. Ewaluacja powinna informować, którego agenta należy udostępnić. Jeśli najlepszy agent w benchmarku nie jest najlepszym agentem w Twoim środowisku produkcyjnym, ranking Cię okłamał.

IBM odkryło, że rankingi oparte na wynikach zagregowanych nie przenoszą się na inne warunki, gdy ulegają one zmianie. Nazywa się to przesunięciem rozkładu (distribution shift).

The Analogy: Sprinters in the Wind

Wyobraź sobie ranking sprinterów na hali, na torze bez wiatru.
Sprinter A wygrywa. Sprinter B zajmuje drugie miejsce.
Teraz przenieś wyścig na zewnątrz, na silny wiatr.
Ranking się zmienia. Sprinter B wygrywa. Sprinter A spada na trzecie miejsce.

Zegar na hali nie był błędny. Zmierzył prędkość w jednym, konkretnym ustawieniu. Po prostu nie potrafił przewidzieć, jak biegacze poradzą sobie na wietrze.

The Solution: Predictive Validity

IBM proponuje stosowanie trafności predykcyjnej (predictive validity) zamiast samych su

Agent Leaderboards Mislead Under Distribution Shift

Continue reading

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

Agenci AI nie tylko hakują. Oni oszukują samych siebie.

How to Stop AI from Mislabeling Inference as Fact

AI Agent Evaluation Ends Too Early