Deja de confiar en el agente: Vincula las aprobaciones a llamadas de herramientas exactas

La mayoría de los sistemas agénticos protegen acciones peligrosas, como la escritura de archivos o las transferencias de dinero, con una simple aprobación.

Por lo general, esta aprobación es un flag booleano en el estado del sistema. Ejemplo: approved: true.

Esto es un error. Un booleano falla de tres maneras que los atacantes explotan:

El problema es que está modelando la aprobación como una propiedad de toda la sesión. Debe ser una evidencia para una llamada específica.

Cómo solucionarlo:

Cuando un humano aprueba una llamada, cree una etiqueta segura. Esta etiqueta debe bloquear estas cuatro cosas:

Verifique esta etiqueta en el momento exacto de la ejecución. Utilice una clave secreta que solo el sistema conozca.

Siga estas reglas para la implementación:

La autorización no debe ser una pieza de estado flotante. Debe ser un sobre vinculado que demuestre: "Esta persona específica aprobó estos argumentos específicos para esta herramienta específica hasta este momento específico".

Deje de usar booleanos. No son una simplificación. Son un error.

Fuente: https://dev.to/whatsonyourmind/stop-trusting-the-agent-bind-tool-call-approvals-to-the-exact-call-5080

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi