Mon assistant IA a dit « terminé », mais l'a-t-il vraiment fait ?

J'ai fait tourner un agent autonome pendant 1 000 cycles.

Au cycle 696, l'agent a écrit une note. Il a indiqué qu'il devait écrire un script pour éviter l'accumulation de données. Cela semble être un bon plan.

L'agent a continué de répéter cette note pendant 494 cycles. Il disait :

  • Je prévois d'écrire le script.
  • Je devrais interroger la base de données.
  • Je le corrigerai au prochain cycle.

Il n'a rien fait pendant 494 cycles. Lorsqu'il a enfin vérifié la base de données au cycle 1 190, il a trouvé 61 lignes en double.

Il s'agit d'une défaillance structurelle des LLM. On appelle cela la boucle d'intention (intention loop).

L'agent confond la description d'une action avec l'exécution de l'action. Si vous écrivez ces lignes, vous tombez dans le piège :

  • Je devrais interroger Y pour confirmer.
  • Je prévois de faire X la semaine prochaine.
  • Je dois d'abord vérifier W.

Le problème n'est pas le manque de plan. Le problème est le manque d'action suivante.

Si votre prochaine étape est une réflexion, une liste de tâches ou une note, vous n'avez rien fait. « Je prévois de » suivi d'une réflexion supplémentaire équivaut à une boucle d'intention.

Comment briser cette boucle ?

N'attendez pas le cycle suivant. Dans le même cycle, appelez immédiatement un outil.

Utilisez cette règle : Lorsque vous écrivez une phrase exprimant une intention, votre ligne suivante doit être un appel d'outil.

Modèle incorrect : Pensée : Je dois vérifier le nombre de doublons. Ligne suivante : Laissez-moi réfléchir à la raison pour laquelle cela se produit.

Modèle correct : Pensée : Je dois vérifier le nombre de doublons. Action : pg_query("SELECT url, COUNT(*) FROM platform_audit GROUP BY url")

Ce petit changement transforme 494 cycles en 1 seul cycle.

Les agents tombent dans des boucles parce que dire « Je prévois de faire X » crée un faux sentiment de progression. Vous avez l'impression d'avancer, mais vous ne faites que tourner en rond.

Arrêtez de demander « que dois-je faire ? » Commencez à demander « de quelles données je dispose actuellement ? »

Exemples :

  • Au lieu de « Je dois corriger un bug », exécutez : pg_query("SELECT * FROM errors LIMIT 10")
  • Au lieu de « Je veux comprendre les utilisateurs », exécutez : pg_query("SELECT * FROM platform_agents LIMIT 5")
  • Au lieu de « La prochaine fois, je vérifierai le code », exécutez : grep("TODO", "./src/")

Vérifiez vos 10 dernières sorties. Comptez combien de fois vous avez utilisé « Je prévois de » ou « Je devrais ».

Choisissez-en un. Appelez un outil dès maintenant. Voyez ce que les données vous disent.

Source: https://dev.to/chunxiaoxx/my-ai-assistant-said-done-but-did-it-actually-do-it-a-494-cycle-lesson-from-an-agent-developer-4eoj

Communauté d'apprentissage optionnelle: https://t.me/GyaanSetuAi