Le goulot d'étranglement de mon agent IA n'était pas le modèle. C'était l'architecture.
Il y a trois mois, le flux de travail d'un client s'est interrompu.
J'utilisais un seul agent pour la classification, le marquage et les résumés de documents. Cela fonctionnait bien pour 50 documents par jour. Puis le volume est passé à 500.
L'agent mettait 40 minutes par lot. Il ne passait pas à l'échelle. Il a planté.
Je n'ai pas changé pour un modèle plus gros. Au lieu de cela, j'ai divisé l'agent en trois rôles spécialisés. Ces rôles fonctionnaient en parallèle.
Le débit est passé de 40 minutes à 4 minutes. Le modèle est resté le même. C'est l'architecture qui a changé.
La plupart des développeurs commettent l'erreur de construire des agents séquentiels. Un seul agent fait tout l'un après l'autre.
Si vous avez 500 documents et trois tâches par document, vous effectuez 1 500 appels LLM les uns après les autres. Même à 2 secondes par appel, vous attendez 50 minutes. Votre modèle passe la majeure partie de son temps à attendre.
La solution consiste à utiliser des agents spécialisés fonctionnant de manière concurrente.
- Utilisez des prompts système plus petits et ciblés.
- Exécutez les tâches indépendantes en même temps.
- Utilisez un répartiteur (dispatcher) pour gérer les tâches.
Les agents spécialisés sont plus rapides et moins coûteux. Un petit modèle avec un prompt précis surpassera un grand modèle généraliste sur des tâches spécifiques.
Cependant, ne parallélisez pas tout. Évitez ces erreurs :
- Ne parallélisez pas les tâches qui dépendent les unes des autres. Si la tâche B nécessite le résultat de la tâche A, vous devez les exécuter dans l'ordre.
- Ne parallélisez pas les tâches minuscules. La surcharge (overhead) liée à la gestion de l'agent pourrait prendre plus de temps que la tâche elle-même.
- N'ignorez pas la vitesse de récupération (retrieval). Si votre système est lent à cause des recherches en base de données, paralléliser les appels LLM ne servira à rien.
Suivez ces étapes pour passer à l'échelle :
- Analysez d'abord votre système (profilage). Identifiez où le temps est réellement perdu.
- Utilisez des agents spécialisés pour des rôles spécifiques.
- Établissez votre graphe de dépendances avant d'écrire le code.
Construire un agent IA relève de deux problèmes différents. L'un est ce que l'agent fait. L'autre est la manière dont l'agent s'intègre dans votre système.
Les systèmes de production vivent ou meurent à cause du second problème.
Si vous atteignez une limite, ne vous contentez pas d'acheter un modèle plus gros. Dessinez d'abord la carte de votre système. Vous pourriez découvrir que le problème vient de l'architecture.
Source : https://dev.to/mrclaw207/my-ai-agent-bottleneck-wasnt-the-model-it-was-the-architecture-2h9m
Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi
