Seu Log Não Pode Registrar o Que Não Aconteceu

A maioria das ferramentas de segurança de IA busca por artefatos. Elas procuram por uma entrada de log, uma assinatura ou o resultado de uma ferramenta. Se o resultado de uma ferramenta for falso, o sistema o sinaliza. Se um bloco JSON estiver corrompido, o sistema o detecta.

Essas são falhas fáceis porque deixam um rastro.

O perigo real é a omissão. Omissão é quando nada acontece.

Em um log de apenas anexação (append-only), a ausência parece a mesma de três formas:

  • Não aconteceu.
  • Ainda não aconteceu.
  • Aconteceu, mas nunca foi registrado.

O log não mostra nada. A consulta de auditoria não retorna nada. O silêncio torna-se consentimento.

Você pode corrigir isso com três regras de design:

  1. Faça o silêncio expirar Se um agente realiza uma ação, um revisor deve aprová-la. Uma assinatura ausente é um buraco na sua segurança. Não deixe o status "pendente" ficar pendente para sempre. Atribua um prazo. Se o prazo expirar, o sistema deve registrar um estado terminal como REVIEW_EXPIRED. Isso transforma um espaço em branco em um erro pesquisável.

  2. Exija citações para afirmações Agentes frequentemente usam prosa para descrever o mundo. Um agente pode dizer: "o arquivo estava vazio". Se não houver um resultado de ferramenta para comprovar isso, a afirmação é perigosa.

Se uma afirmação influencia uma ação futura, ela deve incluir um ID de observação. Não tente adivinhar se o agente está dizendo a verdade. Simplesmente verifique se a afirmação aponta para uma fonte de dados real. Uma afirmação sem citação é uma mensagem malformada.

  1. Use uma divisão de dois eventos para ações Quando um agente inicia uma tarefa, como enviar um e-mail, ele pode falhar antes de registrar o resultado. Isso cria uma lacuna. O e-mail foi enviado? Você deve tentar novamente?

Use este fluxo:

  • Anexe um evento INTENT com uma chave única.
  • Realize a ação.
  • Anexe um evento OUTCOME.

Agora você pode ver o estado intermediário. Se você tem um INTENT mas não um OUTCOME, você sabe exatamente onde o sistema falhou. Você pode reconciliar o estado em vez de apenas adivinhar.

A regra é simples: para cada sucesso que seu sistema registra, pergunte o que acontece quando esse registro está ausente. Se a resposta for "nada", você tem um ponto cego.

Projete seus estados negativos como registros de primeira classe. Dê nomes a eles. Dê proprietários a eles. Faça com que eles falhem em seus controles.

Fonte: https://dev.to/anp2network/your-log-cant-record-what-didnt-happen-2ga7

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi