La partie la plus difficile d'un agent IA est le scénario d'échec

La plupart des démos d'agents IA montrent un scénario parfait. Une question claire mène à une réponse soignée. Tout le monde applaudit.

Le véritable travail d'ingénierie commence quand les choses cassent.

Que se passe-t-il lorsqu'une API tombe en panne ? Que se passe-t-il lorsqu'un agent boucle indéfiniment et vide votre compte bancaire ? Que se passe-t-il lorsque l'agent n'a aucune donnée mais rédige tout de même un rapport qui semble réel ?

J'ai conçu BioAgent pour résoudre ces problèmes en génomique. C'est un analyste autonome qui extrait des données, effectue des recherches sur PubMed et rédige des rapports cliniques.

J'ai utilisé LangGraph et Claude pour le construire. Voici ce que j'ai appris sur la conception face à l'échec.

  • Limitez chaque boucle Un agent doit avoir une limite stricte de tentatives. Si votre agent appelle des API payantes, une boucle représente un risque financier. Une limite ne fonctionne que si vous incrémentez le compteur à chaque étape. Si vous oubliez cette ligne de code, l'agent boucle jusqu'à ce que le système plante.

  • Testez l'échec, pas le succès Le scénario nominal fonctionne toujours pendant le développement. Vous devez forcer vos dépendances à échouer lors des tests. Écrivez des tests qui vérifient que l'agent se dégrade proprement au lieu de boucler lorsqu'une API est hors ligne.

  • Empêchez les absurdités convaincantes Le plus grand danger n'est pas un plantage. Le danger est un rapport qui semble professionnel mais contient des données fictives. Ne comptez pas sur les instructions du prompt pour arrêter les hallucinations. Utilisez des tests pour garantir que l'agent n'invente jamais de métriques.

  • Ancrez vos résultats La récupération n'est utile que si le texte parvient au rédacteur. J'ai constaté qu'en ne transmettant que des IDs au lieu des résumés complets, le modèle inventait de la pertinence. Vous devez transmettre le texte réel au modèle pour garantir que le rapport reste fondé sur des faits.

Une règle dans un prompt est un espoir. Une règle dans un test est une garantie.

Concevez pour le scénario d'échec. C'est la partie qui compte réellement.

Source : https://dev.to/gbadedata/the-hardest-part-of-an-autonomous-ai-agent-is-the-unhappy-path-3p2c

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi