¿Cuando tu agente se comporta mal, sabes cuál fue?

Un agente elimina un registro que no debería tocar. Envía un mensaje al tenant equivocado. Llama a una API en un bucle y dispara tu factura.

Diez minutos después de un incidente, te haces una pregunta: ¿qué agente hizo esto?

Si no lo sabes, no puedes arreglarlo. No puedes detener la build. No puedes auditar el error. No puedes aprender del error.

Este es un problema de identidad.

La mayoría de los equipos se enfrentan a tres patrones que ocultan las acciones de los agentes:

  • Cuentas de servicio compartidas: Diez agentes usan un mismo conjunto de credenciales. Cada acción parece igual en tus logs.
  • Credenciales humanas: El agente usa tu inicio de sesión. Los logs muestran tu nombre, no el del agente. Esto crea un riesgo de seguridad masivo.
  • Deriva silenciosa (silent drift): Dos builds diferentes usan el mismo nombre. Una usa un modelo nuevo o un prompt nuevo, pero los logs muestran la misma identidad.

Para solucionar esto, sigue estos pasos:

  1. Dale a cada agente su propia identidad. No uses credenciales humanas. No uses cuentas compartidas. El agente debe autenticarse como sí mismo.

  2. Marca seis campos específicos en cada acción:

  • Parte responsable: ¿Quién es responsable de este agente?
  • Propietario operativo: ¿Quién lo mantiene diariamente?
  • Tenant: ¿Para qué cliente es esto?
  • Agent-type-id: ¿Qué build específica es esta?
  • Agent-instance-id: ¿Qué ejecución específica es esta?
  • Contexto de traza (trace context): ¿Dónde se encuentra esto en la cadena de llamadas?
  1. Usa hashes para el versionado. No nombres a tu agente "support-agent-v2". Si cambias el prompt del sistema, el nombre sigue siendo el mismo, pero el comportamiento cambia. En su lugar, usa un hash de contenido. Crea un hash basado en la imagen del contenedor, el prompt, el modelo y la configuración. Si cambias una línea de código, el ID cambia. Esto hace que la deriva silenciosa sea visible.

  2. Registra el linaje. Los agentes generan subagentes. Debes registrar qué agente padre inició el subagente. También debes registrar el prompt que el padre le dio al subagente. Esta es la única forma de encontrar instrucciones inyectadas o datos envenenados.

La identidad es tu superficie de recuperación. Te permite usar un interruptor de apagado (kill switch) y construir un rastro de auditoría. Debes configurar esto antes de que ocurra un incidente. Añadir identidad durante una crisis es demasiado tarde.

Revisa tus logs ahora mismo. Mira una acción de hace una hora. ¿Puedes nombrar la build específica que realizó esa acción? Si no puedes, tienes una brecha que cerrar.

Fuente: https://dev.to/brennhill/when-your-agent-does-something-bad-can-you-tell-which-agent-did-it-37a2

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi