N'utilisez pas un LLM pour décider des actions d'un agent IA
Arrêtez d'utiliser les LLM pour décider de ce que votre agent IA est autorisé à faire.
Je fais partie d'un groupe appelé AARM. Nous étudions comment sécuriser les agents IA. Nous sommes d'accord sur un point : le contrôle doit se situer au point d'action. Vous vérifiez l'appel d'un outil avant son exécution. L'agent ne peut pas contourner cette vérification. Dire à un agent « s'il te plaît, ne fais pas cela » n'est pas un modèle de sécurité.
Beaucoup de gens utilisent un second LLM comme juge. L'agent veut agir. Vous envoyez cette action à un second modèle. Vous lui demandez si l'action est sûre. Le modèle répond par oui ou par non. C'est un modèle qui surveille un modèle. Cette approche présente deux défauts majeurs.
Premièrement, le juge présente la même faiblesse que l'agent. Les agents peuvent être trompés par une injection de prompt ou par des requêtes d'utilisateurs astucieuses. Si vous pouvez tromper l'agent, vous pouvez probablement tromper le juge. Vous placez un second système sensible à la pression devant le premier.
Deuxièmement, les LLM ne sont pas déterministes. Vous pouvez poser la même question à un modèle deux fois et obtenir des réponses différentes. Cela est dû à l'échantillonnage. Pour la plupart des tâches, cela ne pose pas de problème. Pour la sécurité, c'est un risque.
Un agent pourrait être autorisé à supprimer une base de données le mardi, mais être bloqué le mercredi. Il n'y a aucune logique pour expliquer pourquoi. C'était simplement un coup de dés différent. Vous ne pouvez pas expliquer cela à un auditeur. Vous ne pouvez pas vous y fier à deux heures du matin quand les choses tournent mal.
Une règle est différente. Une règle dit : « refuser la suppression en production ». Cela fonctionne à chaque fois. Vous pouvez la tester. Vous pouvez auditer les journaux. Vous pouvez assumer la décision.
Les modèles sont utiles pour la sécurité, mais pas comme ultime barrière. Utilisez les modèles pour les tâches de détection :
- Repérer des schémas étranges.
- Signaler du texte sensible.
- Évaluer les niveaux de risque.
- Identifier des anomalies.
Laissez le modèle signaler le problème, mais ne le laissez pas ouvrir la porte. La décision finale doit reposer sur un système qui donne la même réponse à chaque fois.
Plus votre agent s'approche de l'argent, des données de production ou des informations clients, plus cela importe. Si un agent écrit un mauvais paragraphe, ce n'est pas une crise. Si un agent supprime une base de données, c'est un désastre.
La décision finale doit être banale. Elle doit être une ligne ferme que l'agent ne peut pas contourner par la discussion.
Source: https://dev.to/brianrhall/dont-use-an-llm-to-decide-what-your-ai-agent-is-allowed-to-do-1dkn
Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi