Pare de confiar no agente: vincule aprovações a chamadas de ferramentas exatas

A maioria dos sistemas agênticos protege ações perigosas, como escrita de arquivos ou transferências de dinheiro, com uma simples aprovação.

Geralmente, essa aprovação é uma flag booleana no estado do sistema. Exemplo: approved: true.

Isso é um erro. Um booleano falha de três maneiras que os atacantes exploram:

O problema é que você está modelando a aprovação como uma propriedade de toda a sessão. Ela deve ser uma evidência para uma chamada específica.

Como corrigir:

Quando um humano aprova uma chamada, crie uma tag segura. Esta tag deve travar estas quatro coisas:

Verifique esta tag no exato momento da execução. Use uma chave secreta que apenas o sistema conheça.

Siga estas regras para a implementação:

A autorização não deve ser um pedaço flutuante de estado. Ela deve ser um envelope vinculado que prove: "Esta pessoa específica aprovou estes argumentos específicos para esta ferramenta específica até este momento específico."

Pare de usar booleanos. Eles não são uma simplificação. Eles são um bug.

Fonte: https://dev.to/whatsonyourmind/stop-trusting-the-agent-bind-tool-call-approvals-to-the-exact-call-5080

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi