Ocena Agentic AI w erze benchmarków LLM

Większość testów AI opiera się na prostym schemacie. Podajesz modelowi prompt. Porównujesz odpowiedź z wzorcem. Oceniasz wynik.

To działa w przypadku streszczeń. To działa w przypadku klasyfikacji. Zawodzi jednak wtedy, gdy model musi działać w zmieniającym się środowisku.

Artykuł "The Age of LLM" wprowadza lepsze rozwiązanie. Jest to gra 1v1 na siatce. Dwa modele rywalizują w warunkach mgły wojny. Nie widzą wszystkiego. Muszą przeprowadzać zwiad lub zgadywać, aby odnaleźć jednostki przeciwnika. Muszą stosować dyplomację, aby proponować układy lub ultimaty.

Każdy ruch musi być zgodny ze ścisłym schematem JSON. Jeśli ruch jest nielegalny, system go odrzuca.

Ten test mierzy konkretne umiejętności:

  • Śledzenie stanu: Czy model pamięta, co widział i co stracił?
  • Zarządzanie przekonaniami: Czy działa rozsądnie przy niepełnych informacjach?
  • Poprawność działań: Czy przestrzega zasad środowiska?
  • Strategia długoterminowa: Czy potrafi wybrać sekwencję ruchów prowadzącą do celu?

Model może brzmieć płynnie, ale zawodzić w praktyce. Może zapomnieć o swoim stanie lub wywoływać nieprawidłowe narzędzia.

Wyniki pokazują pewien wzorzec. Wiele modeli wpada w proste pułapki w warunkach niepewności. Większość wybierała agresywne ruchy militarne. Do dyplomacji dochodziło, ale porozumienia rzadko były finalizowane. Wiele błędów wynikało ze słabego śledzenia stanu.

Standardowe benchmarki pomijają te błędy. Model może napisać świetne wyjaśnienie, ale nie zdoła śledzić ukrytej jednostki. Widać to dopiero wtedy, gdy środowisko zmusza model do działania.

Obecne prace nad AI często koncentrują się na wykorzystaniu narzędzi. Wykorzystanie narzędzi jest konieczne, ale niewystarczające. Prawdziwy agent musi utrzymywać kontekst i potrafić wrócić do działania, gdy sytuacja się zmienia.

Przemysł przesuwa punkt ciężkości z jakości czatu na rezultaty. Użyteczność systemów mierzy się tym, czy wykonują one pracę, a nie tym, jak dużo produkują wygładzonej prozy.

Jeśli agent nie potrafi utrzymać stanu przekonań, nie jest strategiczny. Jeśli nie potrafi przestrzegać schematu, jego korzystanie z narzędzi jest zawodne.

Prawdziwe zdolności agentowe wymagają dwóch rzeczy:

  1. Umiejętności planowania.
  2. Umiejętności działania w warunkach niepewności.

W oprogramowaniu błędny wynik to błąd. W agentach AI błędny wynik to często cicha awaria. Wywołanie narzędzia nic nie robi. Ukryte założenie jest błędne. Jeśli oceniasz tylko końcową odpowiedź, umyka ci problem.

Musimy testować pod kątem:

  • Częściowej obserwowalności
  • Ukrytego stanu
  • Długoterminowej koordynacji
  • Poprawności działań
  • Radzenia sobie z błędami

Ewaluacja musi bardziej zbliżyć się do tego, jak te systemy działają w prawdziwym świecie.

Źródło: https://dev.to/prabhakar_chaudhary_7afe4/what-the-age-of-llm-benchmark-says-about-evaluating-agentic-ai-2hfc

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi