Je agent-demo werkt. Dat is de valstrik.
Ik bouw AI-agents voor bedrijven. Ik zie vaak hetzelfde patroon. Het model werkt in een demo. Je levert het product op. Vervolgens faalt het in productie één op de drie keer. Niemand weet waarom.
Het gat tussen een demo en productie is wiskunde. Zodra je de wiskunde begrijpt, bouw je anders.
Als elke stap in je agent voor 95% betrouwbaar is, klinkt dat goed. Maar agents maken gebruik van ketens van stappen. Als je tien stappen aan elkaar koppelt, daalt je succespercentage naar 60%. Als je twintig stappen gebruikt, daalt je succespercentage naar 36%.
In de praktijk hebben stappen vaak foutmarges van 10% tot 20%. Als een agent acht stappen heeft met een betrouwbaarheid van 85%, faalt hij in 75% van de gevallen.
Het model is niet het probleem. De samengestelde waarschijnlijkheid is het probleem.
Een demo toont één enkel happy path. Het gebruikt schone input en korte ketens. Productie gebruikt rommelige data van honderden gebruikers. Het gebruikt lange ketens die verborgen stappen bevatten.
Falen bij agents ziet er niet uit als een crash. Het ziet eruit als een stille fout.
Stap 3 leest een veld verkeerd. De output ziet er nog steeds uit als geldige JSON. Stap 4 gebruikt die foute data voor redeneringen. Stap 5 tot en met 8 bouwen voort op die fout. Het uiteindelijke antwoord is fout, maar ziet er aannemelijk uit. Er is geen error log die laat zien waar het misging.
Stop met zeggen dat het model hallucineerde. Het model gaf alleen de foute data door die het ontving. Je systeem miste een checkpoint om de fout bij stap 3 op te vangen.
Stop met het behandelen van de agent als een prompt. Begin het te behandelen als een systeem.
Volg deze regels om betrouwbare agents te bouwen:
Bewaar de state buiten de agent. Houd de state bij in een database, niet in het gesprek. Als een proces faalt bij stap 6, kun je hervatten bij stap 6. Je hoeft niet de hele keten opnieuw te starten.
Valideer op de grenzen. Controleer elke input en output aan de hand van een schema. Vang de fout op bij de stap waar deze optreedt. Dit verandert een mysterie in een herstelbare fout.
Maak side effects idempotent. Je moet stappen opnieuw proberen als ze falen. Als een stap een e-mail verstuurt of een kaart afrekent, gebruik dan een idempotency key. Dit voorkomt dubbele acties tijdens een retry.
Gebruik evals in je CI. Het gedrag van een agent verandert bij elke aanpassing. Een wijziging in een prompt lost misschien één geval op, maar breekt vijf andere. Gebruik een testset om deze regressies automatisch op te vangen.
De overstap van een demo naar een echt product gaat over engineering. Het gaat over error handling, state management en observability. Het gaat niet over betere prompts.
Als je agent hapert in productie, zoek dan niet naar een groter model. Zoek naar de stap waar de keten misgaat. Vraag je af waarom je systeem de fout daar niet heeft opgevangen.
Bron: https://dev.to/sagar_jain4010/your-agent-demo-works-thats-the-trap-4joc
Optionele leercommunity: https://t.me/GyaanSetuAi
