Het evalueren van Agentic AI in het tijdperk van LLM-benchmarks

De meeste AI-tests volgen een eenvoudig patroon. Je geeft een model een prompt. Je vergelijkt het antwoord met een referentie. Je geeft een score aan het resultaat.

Dit werkt voor samenvattingen. Het werkt voor classificatie. Het faalt wanneer een model moet handelen in een veranderende omgeving.

Het "Age of LLM"-paper introduceert een betere manier. Het is een 1v1-spel op een raster. Twee modellen concurreren onder een 'fog of war'. Ze kunnen niet alles zien. Ze moeten verkennen of gokken om vijandelijke eenheden te vinden. Ze moeten diplomatie gebruiken om deals of ultimatums voor te stellen.

Elke zet moet voldoen aan een strikt JSON-schema. Als een zet illegaal is, wordt deze door het systeem verworpen.

Deze test meet specifieke vaardigheden:

  • State tracking: Onthoudt het model wat het heeft gezien en wat het is verloren?
  • Belief management: Handelt het verstandig met onvolledige informatie?
  • Action validity: Houdt het zich aan de regels van de omgeving?
  • Long-horizon strategie: Kan het een reeks zetten kiezen die naar een doel leidt?

Een model kan vloeiend klinken, maar in de praktijk falen. Het kan zijn staat vergeten of ongeldige tool calls uitvoeren.

De resultaten laten een patroon zien. Veel modellen trappen in eenvoudige valstrikken onder onzekerheid. De meeste kozen voor agressieve militaire zetten. Er vond diplomatie plaats, maar overeenkomsten werden zelden voltooid. Veel fouten kwamen voort uit gebrekkige state tracking.

Standaard benchmarks missen deze fouten. Een model kan een geweldige uitleg schrijven, maar faalt in het bijhouden van een verborgen eenheid. Je ziet dit pas wanneer de omgeving het model dwingt om te handelen.

Huidig AI-werk richt zich vaak op tool use. Tool use is noodzakelijk, maar niet voldoende. Een echte agent moet context behouden en herstellen wanneer zaken veranderen.

De industrie verschuift van chatkwaliteit naar resultaten. Nuttige systemen worden gemeten aan de hand van het feit of ze werk voltooien, niet aan de hand van hoeveel gepolijste teksten ze produceren.

Als een agent geen belief state kan behouden, is hij niet strategisch. Als hij een schema niet kan volgen, is zijn tool use fragiel.

Echte agentic capaciteit vereist twee dingen:

  1. Het vermogen om te plannen.
  2. Het vermogen om uit te voeren onder onzekerheid.

In software is een slechte output een bug. Bij AI-agents is een slechte output vaak een stille fout. Een tool call doet niets. Een verborgen aanname is onjuist. Als je alleen het uiteindelijke antwoord beoordeelt, mis je het probleem.

We moeten testen op:

  • Partiële observeerbaarheid
  • Verborgen staat
  • Long-horizon coördinatie
  • Action validity
  • Herstel van fouten

Evaluatie moet dichter bij komen te liggen bij hoe deze systemen in de echte wereld werken.

Source: https://dev.to/prabhakar_chaudhary_7afe4/what-the-age-of-llm-benchmark-says-about-evaluating-agentic-ai-2hfc

Optional learning community: https://t.me/GyaanSetuAi