𝗗𝗼𝗻'𝘁 𝗨𝘀𝗲 𝗔𝗻 𝗟𝗟𝗠 𝗧𝗼 𝗗𝗲𝗰𝗶𝗱𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗔𝗰𝘁𝗶𝗼𝗻𝘀

Translated for your language. Ler o original.

AI-assisted draft.

GyaanSetu Editorialhá 17 horas2min de leitura

Não Use um LLM para Decidir as Ações de um Agente de IA

Pare de usar LLMs para decidir o que seu agente de IA tem permissão para fazer.

Eu faço parte de um grupo chamado AARM. Estudamos como proteger agentes de IA. Concordamos em uma coisa: o controle deve estar no ponto de ação. Você verifica uma chamada de ferramenta antes que ela seja executada. O agente não pode burlar essa verificação. Dizer a um agente "por favor, não faça isso" não é um modelo de segurança.

Muitas pessoas usam um segundo LLM como juiz. O agente quer agir. Você envia essa ação para um segundo modelo. Você pergunta a ele se a ação é segura. O modelo diz sim ou não. Isso é um modelo vigiando outro modelo. Essa abordagem tem duas falhas principais.

Primeiro, o juiz tem a mesma fraqueza que o agente. Agentes podem ser enganados por prompt injection ou solicitações astutas de usuários. Se você consegue enganar o agente, provavelmente conseguirá enganar o juiz. Você está colocando um segundo sistema que responde a pressões à frente do primeiro.

Segundo, LLMs não são determinísticos. Você pode fazer a mesma pergunta a um modelo duas vezes e obter respostas diferentes. Isso acontece devido à amostragem. Para a maioria das tarefas, tudo bem. Para segurança, isso é um risco.

Um agente pode ter permissão para excluir um banco de dados na terça-feira, mas ser bloqueado na quarta-feira. Não há lógica para explicar o porquê. Foi apenas um resultado diferente do acaso. Você não consegue explicar isso a um auditor. Você não pode confiar nisso às duas da manhã quando as coisas derem errado.

Uma regra é diferente. Uma regra diz "negar exclusão em produção". Isso funciona todas as vezes. Você pode testá-la. Você pode auditar os logs. Você pode sustentar a decisão.

Modelos são úteis para segurança, mas não como o portão final. Use modelos para tarefas de suporte:

Identificar padrões estranhos.
Sinalizar textos sensíveis.
Pontuar níveis de risco.
Identificar anomalias.

Deixe o modelo sinalizar o problema, mas não deixe que ele abra o portão. A decisão final deve residir em um sistema que forneça a mesma resposta todas as vezes.

Quanto mais perto seu agente chegar de dinheiro, dados de produção ou informações de clientes, mais isso importa. Se um agente escrever um parágrafo ruim, não é uma crise. Se um agente derrubar um banco de dados, é um desastre.

A decisão final deve ser entediante. Deve ser uma linha rígida que o agente não consiga contornar através da conversa.

Source: https://dev.to/brianrhall/dont-use-an-llm-to-decide-what-your-ai-agent-is-allowed-to-do-1dkn

Optional learning community: https://t.me/GyaanSetuAi

𝗗𝗼𝗻'𝘁 𝗨𝘀𝗲 𝗔𝗻 𝗟𝗟𝗠 𝗧𝗼 𝗗𝗲𝗰𝗶𝗱𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗔𝗰𝘁𝗶𝗼𝗻𝘀

Continuar lendo

𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜 𝗜𝗻𝗰𝗶𝗱𝗲𝗻𝘁 𝗥𝗲𝘀𝗽𝗼𝗻𝘀𝗲: 𝗥𝗼𝗹𝗹 𝗕𝗮𝗰𝗸 𝗥𝗼𝗴𝘂𝗲 𝗔𝗴𝗲𝗻𝘁𝘀

𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

Avaliação de Agentes de IA: Métricas Determinísticas + um Juiz LLM

Sistemas de IA Multiagentes: Um Guia para Fluxos de Trabalho

𝗛𝗮𝗿𝗱𝗲𝗻𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻