Quando seu Agente se Comporta Mal, Você Sabe Qual Deles Fez Isso?

Um agente deleta um registro que não deveria tocar. Ele envia uma mensagem para o tenant errado. Ele chama uma API em um loop e dispara sua conta.

Dez minutos após um incidente, você faz uma pergunta: qual agente fez isso?

Se você não sabe, não pode consertar. Você não pode interromper o build. Você não pode auditar o erro. Você não pode aprender com o erro.

Este é um problema de identidade.

A maioria das equipes enfrenta três padrões que ocultam as ações dos agentes:

  • Contas de serviço compartilhadas: Dez agentes usam um único conjunto de credenciais. Cada ação parece igual em seus logs.
  • Credenciais humanas: O agente usa o seu login. Os logs mostram o seu nome, não o nome do agente. Isso cria um risco de segurança massivo.
  • Silent drift (desvio silencioso): Dois builds diferentes usam o mesmo nome. Um usa um novo modelo ou um novo prompt, mas os logs mostram a mesma identidade.

Para corrigir isso, siga estes passos:

  1. Dê a cada agente sua própria identidade. Não use credenciais humanas. Não use contas compartilhadas. O agente deve se autenticar como ele mesmo.

  2. Carimbe seis campos específicos em cada ação:

  • Accountable party: Quem é o responsável por este agente?
  • Operational owner: Quem o mantém diariamente?
  • Tenant: Para qual cliente isso é?
  • Agent-type-id: Qual build específico é este?
  • Agent-instance-id: Qual execução específica é esta?
  • Trace context: Onde isso está na cadeia de chamadas?
  1. Use hashes para versionamento. Não nomeie seu agente como "support-agent-v2". Se você alterar o prompt do sistema, o nome permanece o mesmo, mas o comportamento muda. Em vez disso, use um hash de conteúdo. Crie um hash baseado na imagem do container, no prompt, no modelo e na configuração. Se você alterar uma linha de código, o ID muda. Isso torna o silent drift visível.

  2. Registre a linhagem. Agentes geram subagentes. Você deve registrar qual agente pai iniciou o subagente. Você também deve registrar o prompt que o pai deu ao subagente. Esta é a única maneira de encontrar instruções injetadas ou dados envenenados.

A identidade é sua superfície de recuperação. Ela permite que você use um kill switch e construa uma trilha de auditoria. Você deve configurar isso antes que um incidente ocorra. Adicionar identidade durante uma crise é tarde demais.

Verifique seus logs agora mesmo. Olhe para uma ação de uma hora atrás. Você consegue identificar o build específico que realizou essa ação? Se não conseguir, você tem uma lacuna a ser fechada.

Fonte: https://dev.to/brennhill/when-your-agent-does-something-bad-can-you-tell-which-agent-did-it-37a2

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi