Il mio collo di bottiglia nell'agente AI non era il modello. Era l'architettura.
Tre mesi fa, il workflow di un cliente si è interrotto.
Usavo un unico agente per la classificazione, il tagging e i riassunti dei documenti. Funzionava bene con 50 documenti al giorno. Poi il volume è arrivato a 500.
L'agente impiegava 40 minuti per batch. Non era scalabile. È andato in crash.
Non sono passato a un modello più grande. Invece, ho suddiviso l'agente in tre ruoli specializzati. Questi ruoli giravano in parallelo.
Il throughput è passato da 40 minuti a 4 minuti. Il modello è rimasto lo stesso. L'architettura è cambiata.
La maggior parte degli sviluppatori commette l'errore di costruire agenti sequenziali. Un unico agente fa tutto in successione.
Se hai 500 documenti e tre task per documento, effettui 1.500 chiamate LLM una dopo l'altra. Anche con 2 secondi per chiamata, aspetti 50 minuti. Il tuo modello passa la maggior parte del tempo ad aspettare.
La soluzione è utilizzare agenti specializzati che girano in modo concorrente.
- Usa system prompt più piccoli e mirati.
- Esegui task indipendenti contemporaneamente.
- Usa un dispatcher per gestire i task.
Gli agenti specializzati sono più veloci ed economici. Un modello piccolo con un prompt preciso batterà un grande modello generalista su task specifici.
Tuttavia, non parallelizzare tutto. Evita questi errori:
- Non parallelizzare task che dipendono l'uno dall'altro. Se il task B ha bisogno dell'output del task A, devi eseguirli in ordine.
- Non parallelizzare task minuscoli. L'overhead della gestione dell'agente potrebbe richiedere più tempo del task stesso.
- Non ignorare la velocità di retrieval. Se il tuo sistema è lento a causa delle ricerche nel database, parallelizzare le chiamate LLM non aiuterà.
Segui questi passaggi per scalare:
- Analizza prima il tuo sistema (profiling). Scopri dove viene effettivamente perso tempo.
- Usa agenti specializzati per ruoli specifici.
- Mappa il tuo grafo delle dipendenze prima di scrivere il codice.
Costruire un agente AI significa affrontare due problemi diversi. Uno è ciò che l'agente fa. L'altro è come l'agente si inserisce nel tuo sistema.
I sistemi in produzione vivono o muoiono in base al secondo problema.
Se raggiungi un limite, non limitarti a comprare un modello più grande. Disegna prima la mappa del tuo sistema. Potresti scoprire che l'architettura è il vero problema.
Fonte: https://dev.to/mrclaw207/my-ai-agent-bottleneck-wasnt-the-model-it-was-the-architecture-2h9m
Community di apprendimento opzionale: https://t.me/GyaanSetuAi
