When Your Agent Misbehaves, Do You Know Which One Did It?

Translated for your language. Ler o original.

AI-assisted draft.

GyaanSetu Editorialhá 2 semanas2min de leitura

When Your Agent Misbehaves, Do You Know Which One Did It?

Quando seu Agente se Comporta Mal, Você Sabe Qual Deles Fez Isso?

Um agente deleta um registro que não deveria tocar. Ele envia uma mensagem para o tenant errado. Ele chama uma API em um loop e dispara sua conta.

Dez minutos após um incidente, você faz uma pergunta: qual agente fez isso?

Se você não sabe, não pode consertar. Você não pode interromper o build. Você não pode auditar o erro. Você não pode aprender com o erro.

Este é um problema de identidade.

A maioria das equipes enfrenta três padrões que ocultam as ações dos agentes:

Contas de serviço compartilhadas: Dez agentes usam um único conjunto de credenciais. Cada ação parece igual em seus logs.
Credenciais humanas: O agente usa o seu login. Os logs mostram o seu nome, não o nome do agente. Isso cria um risco de segurança massivo.
Silent drift (desvio silencioso): Dois builds diferentes usam o mesmo nome. Um usa um novo modelo ou um novo prompt, mas os logs mostram a mesma identidade.

Para corrigir isso, siga estes passos:

Dê a cada agente sua própria identidade. Não use credenciais humanas. Não use contas compartilhadas. O agente deve se autenticar como ele mesmo.
Carimbe seis campos específicos em cada ação:

Accountable party: Quem é o responsável por este agente?
Operational owner: Quem o mantém diariamente?
Tenant: Para qual cliente isso é?
Agent-type-id: Qual build específico é este?
Agent-instance-id: Qual execução específica é esta?
Trace context: Onde isso está na cadeia de chamadas?

Use hashes para versionamento. Não nomeie seu agente como "support-agent-v2". Se você alterar o prompt do sistema, o nome permanece o mesmo, mas o comportamento muda. Em vez disso, use um hash de conteúdo. Crie um hash baseado na imagem do container, no prompt, no modelo e na configuração. Se você alterar uma linha de código, o ID muda. Isso torna o silent drift visível.
Registre a linhagem. Agentes geram subagentes. Você deve registrar qual agente pai iniciou o subagente. Você também deve registrar o prompt que o pai deu ao subagente. Esta é a única maneira de encontrar instruções injetadas ou dados envenenados.

A identidade é sua superfície de recuperação. Ela permite que você use um kill switch e construa uma trilha de auditoria. Você deve configurar isso antes que um incidente ocorra. Adicionar identidade durante uma crise é tarde demais.

Verifique seus logs agora mesmo. Olhe para uma ação de uma hora atrás. Você consegue identificar o build específico que realizou essa ação? Se não conseguir, você tem uma lacuna a ser fechada.

Fonte: https://dev.to/brennhill/when-your-agent-does-something-bad-can-you-tell-which-agent-did-it-37a2

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

When Your Agent Misbehaves, Do You Know Which One Did It?

Continuar lendo

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

A fronteira mais segura é aquela que o agente não consegue atravessar

Plano de Rollback para Agentes de IA: Desfaça Ações Erradas Antes que os Usuários Percam a Confiança

Seus agentes estão bem. A transição entre eles não está.

Your Agent Didn't Break Prod. Your Pipeline Did.