AI Agents in de praktijk: Fouten analyseren aan de hand van de trace
Je AI-agent crasht niet. Hij rapporteert succes. Maar je bankrekening laat een fout zien.
Er is een terugbetaling gedaan voor een bestelling die nooit is geannuleerd. De klant heeft zowel het artikel als het geld. De agent dacht dat hij zijn werk goed had gedaan.
Pak niet meteen een groter model. Voeg niet simpelweg een retry-loop toe. Beiden zijn gokwerk.
Lees in plaats daarvan de trace. De agent heeft al opgeschreven wat hij heeft gedaan.
Een goede productie-trace legt de loop stap voor stap vast. Deze moet het volgende tonen:
- Wat de agent observeerde
- Wat hij besloot
- Welke tool hij aanriep
- Wat de tool teruggaf
- De verificatie-uitlezing uit de source of truth
- De eindstatus en de kosten
Het belangrijkste onderdeel is het gat tussen de reactie van de tool en de verificatie-uitlezing. Een tool kan "geaccepteerd" zeggen, maar dat betekent niet dat de wereld is veranderd. De verificatie-uitlezing vertelt je of de wijziging daadwerkelijk heeft plaatsgevonden.
Fouten vallen meestal in twee groepen:
- Executiefouten
- Tool-fouten: Verkeerde argumenten of timeouts.
- Redeneringsfouten: Het model koos de verkeerde actie.
- Control-state-fouten: De agent gelooft een leugen. Hij denkt dat een bestelling is geannuleerd omdat de tool dat zei, zelfs als de database het tegendeel beweert.
- Structurele loop-fouten
- Contextdegradatie: De agent verliest de draad.
- Loop runaway: De agent herhaalt stappen zonder vooruitgang te boeken.
- Stille stilstand: De agent blijft hangen zonder foutmelding. Je hebt een watchdog nodig om stilte als een fout te behandelen.
Wanneer je een fout vindt, probeer het dan niet zomaar opnieuw. Retry is een strategie, geen diagnose.
- Als het een tijdelijke fout is, zoals een timeout, probeer het dan opnieuw.
- Als het een logische fout is, verspil je met opnieuw proberen alleen maar je budget om tegen dezelfde muur aan te lopen.
- Als de agent een blokkade tegenkomt, stop dan en waarschuw een mens.
De beste manier om een fout te herstellen, is door er een test van te maken.
Gebruik de trace om een grader te schrijven. Als een agent er niet in slaagde een annulering te verifiëren, schrijf dan een test die faalt als er een terugbetaling plaatsvindt zonder een bevestigde geannuleerde status. Verander de fouten waarvoor je hebt betaald in fouten waarvoor je nooit twee keer betaalt.
Optionele leercommunity: https://t.me/GyaanSetuAi
