Não Use um LLM para Decidir as Ações de um Agente de IA

Pare de usar LLMs para decidir o que seu agente de IA tem permissão para fazer.

Eu faço parte de um grupo chamado AARM. Estudamos como proteger agentes de IA. Concordamos em uma coisa: o controle deve estar no ponto de ação. Você verifica uma chamada de ferramenta antes que ela seja executada. O agente não pode burlar essa verificação. Dizer a um agente "por favor, não faça isso" não é um modelo de segurança.

Muitas pessoas usam um segundo LLM como juiz. O agente quer agir. Você envia essa ação para um segundo modelo. Você pergunta a ele se a ação é segura. O modelo diz sim ou não. Isso é um modelo vigiando outro modelo. Essa abordagem tem duas falhas principais.

Primeiro, o juiz tem a mesma fraqueza que o agente. Agentes podem ser enganados por prompt injection ou solicitações astutas de usuários. Se você consegue enganar o agente, provavelmente conseguirá enganar o juiz. Você está colocando um segundo sistema que responde a pressões à frente do primeiro.

Segundo, LLMs não são determinísticos. Você pode fazer a mesma pergunta a um modelo duas vezes e obter respostas diferentes. Isso acontece devido à amostragem. Para a maioria das tarefas, tudo bem. Para segurança, isso é um risco.

Um agente pode ter permissão para excluir um banco de dados na terça-feira, mas ser bloqueado na quarta-feira. Não há lógica para explicar o porquê. Foi apenas um resultado diferente do acaso. Você não consegue explicar isso a um auditor. Você não pode confiar nisso às duas da manhã quando as coisas derem errado.

Uma regra é diferente. Uma regra diz "negar exclusão em produção". Isso funciona todas as vezes. Você pode testá-la. Você pode auditar os logs. Você pode sustentar a decisão.

Modelos são úteis para segurança, mas não como o portão final. Use modelos para tarefas de suporte:

  • Identificar padrões estranhos.
  • Sinalizar textos sensíveis.
  • Pontuar níveis de risco.
  • Identificar anomalias.

Deixe o modelo sinalizar o problema, mas não deixe que ele abra o portão. A decisão final deve residir em um sistema que forneça a mesma resposta todas as vezes.

Quanto mais perto seu agente chegar de dinheiro, dados de produção ou informações de clientes, mais isso importa. Se um agente escrever um parágrafo ruim, não é uma crise. Se um agente derrubar um banco de dados, é um desastre.

A decisão final deve ser entediante. Deve ser uma linha rígida que o agente não consiga contornar através da conversa.

Source: https://dev.to/brianrhall/dont-use-an-llm-to-decide-what-your-ai-agent-is-allowed-to-do-1dkn

Optional learning community: https://t.me/GyaanSetuAi