Guardrails para Agentes de IA Empresariais
A maioria dos conselhos sobre guardrails de IA parece um discurso de vendas. Eles focam em diagramas sofisticados e checklists.
A segurança real em produção é menos glamorosa. Ela depende de coisas que já existiam muito antes dos LLMs.
Passei dois anos construindo agentes de IA para uma empresa da Fortune 100. Esses agentes lidam com falhas de CI/CD, incidentes de Kubernetes e documentação de infraestrutura.
Aqui está a pilha em camadas que usamos para mantê-los seguros.
Identidade no limite do agente. Cada agente usa uma identidade de carga de trabalho (workload identity). Ele nunca usa credenciais compartilhadas. O escopo do IAM é o seu teto de segurança. Se o agente não precisa de acesso ao banco de dados, a role do IAM não deve tê-lo. Este é o seu controle mais importante.
Listas de permissão de ferramentas (allow-lists). A plataforma decide quais ferramentas um agente pode ver. Um agente de busca de código não deve ter uma ferramenta de e-mail. Usamos configurações estáticas para isso. Nunca usamos registro dinâmico de ferramentas.
Controles de saída de rede (egress). Os agentes só alcançam endpoints permitidos. Usamos filtragem de DNS e um proxy de saída. Isso impede que alucinações do modelo acessem URLs erradas.
Isolamento de segredos. Os agentes nunca veem segredos em texto puro. Usamos tokens de sessão de curta duração injetados durante as chamadas de ferramentas. Nunca coloque segredos em um prompt. Qualquer coisa em um prompt pode ser registrada ou reproduzida.
Trilhas de auditoria completas. Você deve registrar cada chamada de modelo e cada chamada de ferramenta. Isso inclui entradas, saídas, argumentos de ferramentas e identidade do usuário. Você precisa disso para entender o que deu errado durante um incidente.
Aprovação humana. Para qualquer ação que altere um sistema de registro (system of record), a plataforma deve pausar. Um humano deve aprovar a ação. Esta é a sua rede de segurança.
Evite estes erros comuns:
Instruções no nível do prompt. Dizer a um modelo "nunca faça X" não é segurança. Um usuário pode enganar o modelo. Mova o controle para a camada de IAM ou de ferramentas.
Filtros genéricos de PII. Eles possuem altas taxas de erro. É melhor limitar o acesso aos dados via IAM para que o agente nunca veja informações sensíveis.
Modelos de guardrail. Usar um segundo LLM para avaliar o primeiro adiciona latência. Não é um controle de segurança real. É apenas um ensemble de modelos.
Lições que aprendi da maneira mais difícil:
Corrija o IAM antes dos prompts. Perdi tempo ajustando prompts quando deveria estar restringindo as roles do IAM. Mova os controles para o nível mais baixo possível da pilha.
Construa uma trilha de auditoria robusta. Capturar apenas o prompt e a resposta não é suficiente. Você precisa das chamadas de ferramentas e argumentos intermediários. É barato registrar cedo, mas caro corrigir depois.
Limite a comunicação entre agentes. Em sistemas multiagentes, estabeleça um limite rígido para as chamadas entre agentes. Isso evita falhas em cascata.
A segurança de IA em escala não é um problema de modelo. É um problema de plataforma. Trate seus agentes com a mesma disciplina operacional de qualquer outro sistema de produção.
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi