Je lance une boucle d'auto-amélioration sur mon agent chaque nuit
Mon agent IA avait l'habitude de commettre les mêmes erreurs. Il exécutait une tâche, échouait silencieusement, puis signalait que tout s'était parfaitement déroulé. Il n'était pas défectueux. Il n'avait simplement aucun moyen d'apprendre de ses erreurs.
J'ai conçu une boucle d'auto-amélioration pour corriger cela.
Chaque nuit à 2 heures du matin, une session isolée s'active. Elle lit les journaux des dernières 24 heures. Elle identifie des schémas dans ce qui a mal fonctionné. Ensuite, elle met à jour les fichiers de mémoire de l'agent. Aucune intervention humaine n'est nécessaire.
Voici comment cela fonctionne :
- Séparez l'exécuteur du critique. L'agent principal exécute les tâches. Une session distincte examine le travail. Une seule session ne peut être à la fois juge et bourreau.
- Utilisez des fichiers simples. J'utilise des fichiers texte brut pour la mémoire et les corrections. Cela permet de garder le système léger.
- Exigez de la spécificité. Je ne demande pas à l'agent de s'améliorer. Je lui demande de trouver des schémas, de fournir des preuves et de suggérer une correction concrète.
J'utilise trois fichiers spécifiques pour gérer cela :
- Journaux quotidiens : Un enregistrement brut de tout ce qui s'est passé.
- Leçons accumulées : Des règles à fort signal que l'agent lit au début de chaque session.
- Corrections : Un espace pour les correctifs récents. Si une erreur se produit trois fois en deux semaines, elle est transférée dans le fichier des leçons permanentes.
Les résultats n'ont pas été instantanés. Pendant les trois premières semaines, les observations étaient évidentes. À la quatrième semaine, l'agent a décelé des problèmes profonds. Il a trouvé des erreurs de timing et des schémas cachés dans les messages d'erreur qui m'avaient échappé.
Le plus grand avantage est la stabilité. Si un problème réapparaît après que je l'ai corrigé, je sais que ma correction était erronée. Le système suit si une solution fonctionne réellement.
Le système a ses limites. Il peut voir les échecs dans les journaux, mais il ne peut pas détecter les erreurs de jugement à moins que je ne les signale. Je dois toujours lui indiquer lorsqu'il fait la mauvaise chose pour les bonnes raisons.
Cette configuration utilise 50 lignes de config et s'exécute en moins de deux minutes. Elle rend mon agent légèrement meilleur chaque jour.
Communauté d'apprentissage optionnelle: https://t.me/GyaanSetuAi