𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

📅3 hours ago⏱2 min read

Guardrails para Agentes de IA Empresariais

A maioria dos conselhos sobre guardrails de IA parece um discurso de vendas. Eles focam em diagramas sofisticados e checklists.

A segurança real em produção é menos glamorosa. Ela depende de coisas que já existiam muito antes dos LLMs.

Passei dois anos construindo agentes de IA para uma empresa da Fortune 100. Esses agentes lidam com falhas de CI/CD, incidentes de Kubernetes e documentação de infraestrutura.

Aqui está a pilha em camadas que usamos para mantê-los seguros.

Identidade no limite do agente. Cada agente usa uma identidade de carga de trabalho (workload identity). Ele nunca usa credenciais compartilhadas. O escopo do IAM é o seu teto de segurança. Se o agente não precisa de acesso ao banco de dados, a role do IAM não deve tê-lo. Este é o seu controle mais importante.
Listas de permissão de ferramentas (allow-lists). A plataforma decide quais ferramentas um agente pode ver. Um agente de busca de código não deve ter uma ferramenta de e-mail. Usamos configurações estáticas para isso. Nunca usamos registro dinâmico de ferramentas.
Controles de saída de rede (egress). Os agentes só alcançam endpoints permitidos. Usamos filtragem de DNS e um proxy de saída. Isso impede que alucinações do modelo acessem URLs erradas.
Isolamento de segredos. Os agentes nunca veem segredos em texto puro. Usamos tokens de sessão de curta duração injetados durante as chamadas de ferramentas. Nunca coloque segredos em um prompt. Qualquer coisa em um prompt pode ser registrada ou reproduzida.
Trilhas de auditoria completas. Você deve registrar cada chamada de modelo e cada chamada de ferramenta. Isso inclui entradas, saídas, argumentos de ferramentas e identidade do usuário. Você precisa disso para entender o que deu errado durante um incidente.
Aprovação humana. Para qualquer ação que altere um sistema de registro (system of record), a plataforma deve pausar. Um humano deve aprovar a ação. Esta é a sua rede de segurança.

Evite estes erros comuns:

Instruções no nível do prompt. Dizer a um modelo "nunca faça X" não é segurança. Um usuário pode enganar o modelo. Mova o controle para a camada de IAM ou de ferramentas.
Filtros genéricos de PII. Eles possuem altas taxas de erro. É melhor limitar o acesso aos dados via IAM para que o agente nunca veja informações sensíveis.
Modelos de guardrail. Usar um segundo LLM para avaliar o primeiro adiciona latência. Não é um controle de segurança real. É apenas um ensemble de modelos.

Lições que aprendi da maneira mais difícil:

Corrija o IAM antes dos prompts. Perdi tempo ajustando prompts quando deveria estar restringindo as roles do IAM. Mova os controles para o nível mais baixo possível da pilha.
Construa uma trilha de auditoria robusta. Capturar apenas o prompt e a resposta não é suficiente. Você precisa das chamadas de ferramentas e argumentos intermediários. É barato registrar cedo, mas caro corrigir depois.
Limite a comunicação entre agentes. Em sistemas multiagentes, estabeleça um limite rígido para as chamadas entre agentes. Isso evita falhas em cascata.

A segurança de IA em escala não é um problema de modelo. É um problema de plataforma. Trate seus agentes com a mesma disciplina operacional de qualquer outro sistema de produção.

Fonte: https://dev.to/srujan_t04/-guardrails-for-enterprise-ai-agents-whats-actually-load-bearing-in-production-2dhd

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

Continue reading

A Regra de Infraestrutura para uma IA Segura

O Framework de Governança de IA Agêntica

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻𝗰𝗲 𝗼𝗻 𝗔𝗪𝗦: 𝗪𝗵𝗮𝘁 𝗟𝗲𝗮𝗱𝗲𝗿𝘀 𝗡𝗲𝗲𝗱 𝘁𝗼 𝗞𝗻𝗼𝘄

𝗔𝗜 𝗚𝗮𝘁𝗲𝘄𝗮𝘆: 𝗧𝗵𝗲 𝗖𝗲𝗻𝘁𝗿𝗮𝗹 𝗡𝗲𝗿𝘃𝗼𝘂𝘀 𝗦𝘆𝘀𝘁𝗲𝗺 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗟𝗟𝗠𝘀

𝗪𝗵𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗙𝗮𝗶𝗹 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻