De bottleneck van mijn AI-agent was niet het model. Het was de architectuur.
Drie maanden geleden liep een workflow van een klant vast.
Ik gebruikte één agent voor documentclassificatie, tagging en samenvattingen. Voor 50 documenten per dag werkte het prima. Toen het volume steeg naar 500.
De agent deed 40 minuten per batch. Het schaalde niet. Het crashte.
Ik stapte niet over op een groter model. In plaats daarvan splitste ik de agent in drie gespecialiseerde rollen. Deze rollen draaiden parallel.
De doorvoer ging van 40 minuten naar 4 minuten. Het model bleef hetzelfde. De architectuur veranderde.
De meeste ontwikkelaars maken de fout om sequentiële agents te bouwen. Eén agent doet alles achter elkaar.
Als je 500 documenten hebt en drie taken per document, doe je 1.500 LLM-aanroepen na elkaar. Zelfs bij 2 seconden per aanroep wacht je 50 minuten. Je model brengt het grootste deel van de tijd wachtend door.
De oplossing is het gebruik van gespecialiseerde agents die gelijktijdig draaien.
- Gebruik kleinere, gefocuste system prompts.
- Voer onafhankelijke taken tegelijkertijd uit.
- Gebruik een dispatcher om taken te beheren.
Gespecialiseerde agents zijn sneller en goedkoper. Een klein model met een strakke prompt zal het op specifieke taken winnen van een groot algemeen model.
Paralleliseer echter niet alles. Vermijd deze fouten:
- Paralleliseer geen taken die van elkaar afhankelijk zijn. Als taak B de output van taak A nodig heeft, moet je ze in de juiste volgorde uitvoeren.
- Paralleliseer geen minuscule taken. De overhead van het beheren van de agent kan langer duren dan de taak zelf.
- Negeer de snelheid van retrieval niet. Als je systeem traag is door database-lookups, zal het paralleliseren van LLM-aanroepen niet helpen.
Volg deze stappen om te schalen:
- Profileer eerst je systeem. Ontdek waar de tijd daadwerkelijk verloren gaat.
- Gebruik gespecialiseerde agents voor specifieke rollen.
- Breng je dependency graph in kaart voordat je code schrijft.
Het bouwen van een AI-agent bestaat uit twee verschillende problemen. Het ene is wat de agent doet. Het andere is hoe de agent in je systeem past.
Productiesystemen leven of sterven bij het tweede probleem.
Als je tegen een limiet aanloopt, koop dan niet zomaar een groter model. Teken eerst je systeemkaart. Je zult misschien ontdekken dat de architectuur het echte probleem is.
Source: https://dev.to/mrclaw207/my-ai-agent-bottleneck-wasnt-the-model-it-was-the-architecture-2h9m
Optional learning community: https://t.me/GyaanSetuAi
