Não existe um Pull Request para um Agente Autônomo
As revisões de segurança tradicionais dependem de um diff. Alguém abre um pull request. Alguém o lê. O código em produção corresponde ao código que você revisou.
Agentes autônomos quebram esse modelo.
Um agente planeja e chama ferramentas em tempo de execução (runtime). Ele não envia ações em um commit. Ele decide as ações enquanto está rodando. Se você revisar apenas o código da aplicação, perderá o risco real.
Um agente não é apenas código. É uma configuração de runtime. Esta configuração inclui:
• O system prompt • O harness ou loop • A superfície de ferramentas (tool surface) • Memória e identidade • Políticas de saída de rede (egress) • Imagens de container
Dois agentes usando o mesmo modelo podem agir de forma diferente com base nessas configurações. O modelo permanece fixo. A configuração muda tudo.
Muitas equipes tratam os system prompts como simples configurações de caixa de texto. Elas os editam em um dashboard. Isso é um erro. Uma mudança de uma única linha pode remover uma salvaguarda (guardrail). Um prompt editável é um caminho de código não revisado.
Incidentes reais provam isso:
• Um bot deu conselhos ilegais para proprietários de imóveis por semanas. • Um bot de suporte começou a xingar clientes devido a uma atualização de prompt. • Arquivos maliciosos usaram caracteres invisíveis para burlar regras.
Esses não foram falhas do modelo. Foram mudanças de configuração que ninguém revisou.
Você deve tratar a configuração como código.
Coloque seus system prompts e configurações de harness em controle de versão. Altere-os apenas por meio de pull requests. Use diffs para ver o que mudou.
Use um hash de conteúdo para sua configuração implantada. Este hash deve incluir a versão do prompt, o ID do modelo e o digest do container. Se você alterar o prompt, a identidade do agente muda. Você não pode trocar um prompt silenciosamente.
Aplique detecção de desvio (drift detection) à superfície do agente. Não monitore apenas o host. Monitore as listas de servidores MCP e as políticas de saída (egress) específicas para aquele agente.
Ao fazer o logging, acompanhe estas duas coisas:
• Tamanho do contexto no momento da decisão: Quanta informação o modelo tinha quando agiu? • O prompt pai: Em sistemas multiagentes, o que o agente chamador enviou?
Você não precisa de novas ferramentas. Use seu controle de versão e logging estruturado existentes. Você só precisa apontá-los para o lugar certo.
Você versiona e revisa seus system prompts? Ou qualquer pessoa com acesso ao console pode alterá-los sem deixar rastros?
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
