Quando seu Agente se Comporta Mal, Você Sabe Qual Deles Fez Isso?
Um agente deleta um registro que não deveria tocar. Ele envia uma mensagem para o tenant errado. Ele chama uma API em um loop e dispara sua conta.
Dez minutos após um incidente, você faz uma pergunta: qual agente fez isso?
Se você não sabe, não pode consertar. Você não pode interromper o build. Você não pode auditar o erro. Você não pode aprender com o erro.
Este é um problema de identidade.
A maioria das equipes enfrenta três padrões que ocultam as ações dos agentes:
- Contas de serviço compartilhadas: Dez agentes usam um único conjunto de credenciais. Cada ação parece igual em seus logs.
- Credenciais humanas: O agente usa o seu login. Os logs mostram o seu nome, não o nome do agente. Isso cria um risco de segurança massivo.
- Silent drift (desvio silencioso): Dois builds diferentes usam o mesmo nome. Um usa um novo modelo ou um novo prompt, mas os logs mostram a mesma identidade.
Para corrigir isso, siga estes passos:
Dê a cada agente sua própria identidade. Não use credenciais humanas. Não use contas compartilhadas. O agente deve se autenticar como ele mesmo.
Carimbe seis campos específicos em cada ação:
- Accountable party: Quem é o responsável por este agente?
- Operational owner: Quem o mantém diariamente?
- Tenant: Para qual cliente isso é?
- Agent-type-id: Qual build específico é este?
- Agent-instance-id: Qual execução específica é esta?
- Trace context: Onde isso está na cadeia de chamadas?
Use hashes para versionamento. Não nomeie seu agente como "support-agent-v2". Se você alterar o prompt do sistema, o nome permanece o mesmo, mas o comportamento muda. Em vez disso, use um hash de conteúdo. Crie um hash baseado na imagem do container, no prompt, no modelo e na configuração. Se você alterar uma linha de código, o ID muda. Isso torna o silent drift visível.
Registre a linhagem. Agentes geram subagentes. Você deve registrar qual agente pai iniciou o subagente. Você também deve registrar o prompt que o pai deu ao subagente. Esta é a única maneira de encontrar instruções injetadas ou dados envenenados.
A identidade é sua superfície de recuperação. Ela permite que você use um kill switch e construa uma trilha de auditoria. Você deve configurar isso antes que um incidente ocorra. Adicionar identidade durante uma crise é tarde demais.
Verifique seus logs agora mesmo. Olhe para uma ação de uma hora atrás. Você consegue identificar o build específico que realizou essa ação? Se não conseguir, você tem uma lacuna a ser fechada.
Fonte: https://dev.to/brennhill/when-your-agent-does-something-bad-can-you-tell-which-agent-did-it-37a2
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
