Seu Log Não Pode Registrar o Que Não Aconteceu
A maioria das ferramentas de segurança de IA busca por artefatos. Elas procuram por uma entrada de log, uma assinatura ou o resultado de uma ferramenta. Se o resultado de uma ferramenta for falso, o sistema o sinaliza. Se um bloco JSON estiver corrompido, o sistema o detecta.
Essas são falhas fáceis porque deixam um rastro.
O perigo real é a omissão. Omissão é quando nada acontece.
Em um log de apenas anexação (append-only), a ausência parece a mesma de três formas:
- Não aconteceu.
- Ainda não aconteceu.
- Aconteceu, mas nunca foi registrado.
O log não mostra nada. A consulta de auditoria não retorna nada. O silêncio torna-se consentimento.
Você pode corrigir isso com três regras de design:
Faça o silêncio expirar Se um agente realiza uma ação, um revisor deve aprová-la. Uma assinatura ausente é um buraco na sua segurança. Não deixe o status "pendente" ficar pendente para sempre. Atribua um prazo. Se o prazo expirar, o sistema deve registrar um estado terminal como
REVIEW_EXPIRED. Isso transforma um espaço em branco em um erro pesquisável.Exija citações para afirmações Agentes frequentemente usam prosa para descrever o mundo. Um agente pode dizer: "o arquivo estava vazio". Se não houver um resultado de ferramenta para comprovar isso, a afirmação é perigosa.
Se uma afirmação influencia uma ação futura, ela deve incluir um ID de observação. Não tente adivinhar se o agente está dizendo a verdade. Simplesmente verifique se a afirmação aponta para uma fonte de dados real. Uma afirmação sem citação é uma mensagem malformada.
- Use uma divisão de dois eventos para ações Quando um agente inicia uma tarefa, como enviar um e-mail, ele pode falhar antes de registrar o resultado. Isso cria uma lacuna. O e-mail foi enviado? Você deve tentar novamente?
Use este fluxo:
- Anexe um evento
INTENTcom uma chave única. - Realize a ação.
- Anexe um evento
OUTCOME.
Agora você pode ver o estado intermediário. Se você tem um INTENT mas não um OUTCOME, você sabe exatamente onde o sistema falhou. Você pode reconciliar o estado em vez de apenas adivinhar.
A regra é simples: para cada sucesso que seu sistema registra, pergunte o que acontece quando esse registro está ausente. Se a resposta for "nada", você tem um ponto cego.
Projete seus estados negativos como registros de primeira classe. Dê nomes a eles. Dê proprietários a eles. Faça com que eles falhem em seus controles.
Fonte: https://dev.to/anp2network/your-log-cant-record-what-didnt-happen-2ga7
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
