When Your Agent Misbehaves, Do You Know Which One Did It?

Translated for your language. Leer el original.

AI-assisted draft.

GyaanSetu Editorialhace 2 semanas2min de lectura

When Your Agent Misbehaves, Do You Know Which One Did It?

¿Cuando tu agente se comporta mal, sabes cuál fue?

Un agente elimina un registro que no debería tocar. Envía un mensaje al tenant equivocado. Llama a una API en un bucle y dispara tu factura.

Diez minutos después de un incidente, te haces una pregunta: ¿qué agente hizo esto?

Si no lo sabes, no puedes arreglarlo. No puedes detener la build. No puedes auditar el error. No puedes aprender del error.

Este es un problema de identidad.

La mayoría de los equipos se enfrentan a tres patrones que ocultan las acciones de los agentes:

Cuentas de servicio compartidas: Diez agentes usan un mismo conjunto de credenciales. Cada acción parece igual en tus logs.
Credenciales humanas: El agente usa tu inicio de sesión. Los logs muestran tu nombre, no el del agente. Esto crea un riesgo de seguridad masivo.
Deriva silenciosa (silent drift): Dos builds diferentes usan el mismo nombre. Una usa un modelo nuevo o un prompt nuevo, pero los logs muestran la misma identidad.

Para solucionar esto, sigue estos pasos:

Dale a cada agente su propia identidad. No uses credenciales humanas. No uses cuentas compartidas. El agente debe autenticarse como sí mismo.
Marca seis campos específicos en cada acción:

Parte responsable: ¿Quién es responsable de este agente?
Propietario operativo: ¿Quién lo mantiene diariamente?
Tenant: ¿Para qué cliente es esto?
Agent-type-id: ¿Qué build específica es esta?
Agent-instance-id: ¿Qué ejecución específica es esta?
Contexto de traza (trace context): ¿Dónde se encuentra esto en la cadena de llamadas?

Usa hashes para el versionado. No nombres a tu agente "support-agent-v2". Si cambias el prompt del sistema, el nombre sigue siendo el mismo, pero el comportamiento cambia. En su lugar, usa un hash de contenido. Crea un hash basado en la imagen del contenedor, el prompt, el modelo y la configuración. Si cambias una línea de código, el ID cambia. Esto hace que la deriva silenciosa sea visible.
Registra el linaje. Los agentes generan subagentes. Debes registrar qué agente padre inició el subagente. También debes registrar el prompt que el padre le dio al subagente. Esta es la única forma de encontrar instrucciones inyectadas o datos envenenados.

La identidad es tu superficie de recuperación. Te permite usar un interruptor de apagado (kill switch) y construir un rastro de auditoría. Debes configurar esto antes de que ocurra un incidente. Añadir identidad durante una crisis es demasiado tarde.

Revisa tus logs ahora mismo. Mira una acción de hace una hora. ¿Puedes nombrar la build específica que realizó esa acción? Si no puedes, tienes una brecha que cerrar.

Fuente: https://dev.to/brennhill/when-your-agent-does-something-bad-can-you-tell-which-agent-did-it-37a2

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi

When Your Agent Misbehaves, Do You Know Which One Did It?

Seguir leyendo

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

El límite más seguro es aquel que el agente no puede cruzar

Plan de reversión para agentes de IA: Deshacer acciones incorrectas antes de que los usuarios pierdan la confianza

Your Agents Are Fine. The Handoff Between Them Isn't.

Tu agente no rompió producción. Fue tu pipeline.