Vous ne pouvez pas être votre propre second regard

L'IA n'a pas besoin d'être plus intelligente. Elle a besoin d'être moins optionnelle.

J'ai vu mon partenaire IA échouer quatre fois en une seule journée. Chaque échec présentait le même schéma. L'IA a tenté de s'auto-vérifier, mais elle a utilisé la même logique qui avait causé l'erreur.

Vous ne pouvez pas être votre propre second regard. Un véritable second regard doit provenir de l'extérieur du processus. Il doit s'agir d'un fichier sur disque, d'un horodatage ou d'un humain qui ne fait pas partie de la boucle.

Voici les quatre échecs :

  • La règle qui s'est ignorée elle-même. L'IA a écrit une règle pour effectuer une vérification avant toute promotion en direct. Dix heures plus tard, elle a proposé une promotion sans cette vérification. Une règle écrite par un agent n'est qu'une note pour soi-même, pas un garde-fou.

  • Le fil de discussion face au monde réel. L'IA a lu un fil de discussion indiquant qu'une configuration était prête. Elle n'a pas vérifié le système réel. Le monde avait déjà changé, mais l'IA s'est fiée uniquement à la conversation.

  • L'outil ignoré. Une compétence personnalisée existait pour prévenir les erreurs. L'IA a ignoré cette compétence et a tenté de deviner le schéma de la base de données à la place. Elle a contourné la barrière parce qu'elle en avait la possibilité.

  • Le bug répétitif. L'IA a détecté une erreur le matin. Le soir, elle a commis exactement la même erreur sur un nouveau jeu de données. La première leçon n'est pas devenue une règle ; ce n'était qu'un correctif ponctuel.

Le problème réside dans la source. Si vos garde-fous lisent les informations au même endroit que vos erreurs, ils échoueront. C'est comme si une seule personne portait quatre chapeaux différents et appelait cela un comité.

Pour corriger cela, vous devez sortir la détection de la discrétion de l'IA.

  • Imposer des vérifications obligatoires. Ne laissez pas l'IA décider si une vérification est nécessaire.
  • Prioriser le monde réel sur le fil de discussion. Vérifiez toujours le système réel avant de vous fier à un journal de chat.
  • Automatiser l'utilisation des outils. Si une tâche correspond à une compétence, celle-ci doit s'exécuter automatiquement.
  • Définir les seuils dès le départ. Établissez des règles avant d'examiner les données pour éviter les biais.

La discipline dans laquelle un agent peut choisir de s'engager n'est pas une véritable discipline. Ce n'est que de la décoration.

Construisez des structures que l'agent ne peut pas contourner.

Source : https://dev.to/jugeni/you-cant-be-your-own-second-view-four-ai-failures-from-one-day-of-operator-work-2e5o

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi