Não existe um Pull Request para um Agente Autônomo

As revisões de segurança tradicionais dependem de um diff. Alguém abre um pull request. Alguém o lê. O código em produção corresponde ao código que você revisou.

Agentes autônomos quebram esse modelo.

Um agente planeja e chama ferramentas em tempo de execução (runtime). Ele não envia ações em um commit. Ele decide as ações enquanto está rodando. Se você revisar apenas o código da aplicação, perderá o risco real.

Um agente não é apenas código. É uma configuração de runtime. Esta configuração inclui:

• O system prompt • O harness ou loop • A superfície de ferramentas (tool surface) • Memória e identidade • Políticas de saída de rede (egress) • Imagens de container

Dois agentes usando o mesmo modelo podem agir de forma diferente com base nessas configurações. O modelo permanece fixo. A configuração muda tudo.

Muitas equipes tratam os system prompts como simples configurações de caixa de texto. Elas os editam em um dashboard. Isso é um erro. Uma mudança de uma única linha pode remover uma salvaguarda (guardrail). Um prompt editável é um caminho de código não revisado.

Incidentes reais provam isso:

• Um bot deu conselhos ilegais para proprietários de imóveis por semanas. • Um bot de suporte começou a xingar clientes devido a uma atualização de prompt. • Arquivos maliciosos usaram caracteres invisíveis para burlar regras.

Esses não foram falhas do modelo. Foram mudanças de configuração que ninguém revisou.

Você deve tratar a configuração como código.

Coloque seus system prompts e configurações de harness em controle de versão. Altere-os apenas por meio de pull requests. Use diffs para ver o que mudou.

Use um hash de conteúdo para sua configuração implantada. Este hash deve incluir a versão do prompt, o ID do modelo e o digest do container. Se você alterar o prompt, a identidade do agente muda. Você não pode trocar um prompt silenciosamente.

Aplique detecção de desvio (drift detection) à superfície do agente. Não monitore apenas o host. Monitore as listas de servidores MCP e as políticas de saída (egress) específicas para aquele agente.

Ao fazer o logging, acompanhe estas duas coisas:

• Tamanho do contexto no momento da decisão: Quanta informação o modelo tinha quando agiu? • O prompt pai: Em sistemas multiagentes, o que o agente chamador enviou?

Você não precisa de novas ferramentas. Use seu controle de versão e logging estruturado existentes. Você só precisa apontá-los para o lugar certo.

Você versiona e revisa seus system prompts? Ou qualquer pessoa com acesso ao console pode alterá-los sem deixar rastros?

Fonte: https://dev.to/brennhill/theres-no-pull-request-to-review-for-an-autonomous-agent-so-what-do-you-review-355m

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi