Au cœur d'un agent IA

Les démos d'agents IA sont impressionnantes en vidéo. Elles échouent souvent lorsqu'on leur pose de vraies questions.

L'agent fait la mauvaise chose. Il oublie des décisions. Il appelle des outils qui n'existent pas. Il boucle indéfiniment. Ce ne sont pas des échecs du modèle. Ce sont des échecs de workflow.

Un agent est un workflow logiciel. Un modèle de langage choisit l'étape suivante et appelle des outils. L'intelligence réside dans l'orchestration, pas seulement dans le modèle.

Chaque agent en production repose sur cinq piliers :

  • Planification : Réfléchir avant d'agir.
  • Utilisation d'outils : Interagir avec le monde.
  • Mémoire : Stocker le contexte et les faits.
  • Contraintes : Définir des limites et des budgets.
  • Vérification : Prouver que le travail est correct.

Styles de planification

Les agents naïfs passent directement à l'action. Cela mène à des hallucinations. Un bon agent planifie d'abord.

  1. Plan-then-execute : Le modèle rédige un plan complet. Il est facile à auditer mais difficile à adapter si la réalité change.
  2. ReAct (Reason + Act) : Le modèle réfléchit, agit et observe en boucle. Il est plus adaptatif mais coûte plus cher en tokens et en temps.

Utilisation d'outils

Sans outils, un agent n'est qu'un chatbot. Un outil nécessite un nom, un schéma JSON et une fonction.

Les modèles choisissent les outils en fonction de leurs descriptions. Si votre description est vague, l'agent échouera. Traitez les descriptions comme des fiches techniques. Définissez ce à quoi un outil sert et ce à quoi il ne sert pas.

Validez toujours les appels d'outils. Si un modèle envoie de mauvais arguments, rejetez l'appel et renvoyez l'erreur au modèle. Cela aide l'agent à apprendre en cours de boucle.

Mémoire

La mémoire n'est pas une notion unique.

  • Mémoire de travail : La conversation actuelle et les résultats des outils.
  • Scratchpad : Un espace où l'agent peut s'écrire des notes à lui-même.
  • Mémoire à long terme : Stocker des faits pour des sessions futures.

Ne vous reposez pas uniquement sur les bases de données vectorielles. Une mémoire basée sur des fichiers utilisant des fichiers markdown est souvent préférable. Elle est facile à auditer, à éditer et à grep.

Contraintes et sécurité

Les agents en production ont besoin de garde-fous. Utilisez ces quatre :

  • Listes blanches d'outils (allowlists) : Autoriser uniquement des outils spécifiques et nommés.
  • Budgets d'itération : Limiter le nombre d'étapes pour éviter les boucles infinies.
  • Budgets de tokens : Limiter les coûts en plafonnant le nombre total de tokens.
  • Portes d'approbation (approval gates) : Exiger une autorisation humaine pour les actions critiques comme l'envoi d'e-mails ou la suppression de données.

Vérification

Ne faites jamais confiance à un modèle lorsqu'il dit qu'une tâche est terminée. Le modèle est confiant par défaut.

Utilisez une véritable vérification. Si un agent écrit du code, lancez les tests. S'il génère du JSON, vérifiez le schéma. S'il effectue une tâche, lancez une requête pour confirmer le changement.

Les meilleurs agents utilisent la vérification à l'intérieur de la boucle. Si un test échoue, renvoyez l'erreur à l'agent. Laissez-le réessayer.

Arrêtez de chercher des prompts plus intelligents. Commencez à construire une meilleure tuyauterie.

Source: https://dev.to/nazar_boyko/inside-an-ai-agent-planning-tool-use-memory-constraints-and-verification-2fcc

Communauté d'apprentissage optionnelle: https://t.me/GyaanSetuAi