No hay un Pull Request para un agente autónomo

Las revisiones de seguridad tradicionales dependen de un diff. Alguien abre un pull request. Alguien lo lee. El código en producción coincide con el código que revisaste.

Los agentes autónomos rompen este modelo.

Un agente planifica y llama a herramientas en tiempo de ejecución. No envía acciones en un commit. Decide las acciones mientras se ejecuta. Si solo revisas el código de la aplicación, te perderás el riesgo real.

Un agente no es solo código. Es una configuración en tiempo de ejecución. Esta configuración incluye:

• El prompt del sistema • El harness o bucle • La superficie de herramientas • Memoria e identidad • Políticas de salida de red (egress) • Imágenes de contenedores

Dos agentes que utilizan el mismo modelo pueden actuar de forma diferente según estos ajustes. El modelo permanece fijo. La configuración lo cambia todo.

Muchos equipos tratan los prompts del sistema como simples ajustes de un cuadro de texto. Los editan en un panel de control. Esto es un error. Un cambio de una sola línea puede eliminar una medida de seguridad (guardrail). Un prompt editable es una ruta de código no revisada.

Incidentes reales lo demuestran:

• Un bot dio consejos ilegales a propietarios de viviendas durante semanas. • Un bot de soporte empezó a insultar a los clientes debido a una actualización del prompt. • Archivos maliciosos utilizaron caracteres invisibles para eludir las reglas.

Estos no fueron fallos del modelo. Fueron cambios de configuración que nadie revisó.

Debes tratar la configuración como si fuera código.

Pon tus prompts del sistema y las configuraciones del harness en un control de versiones. Cámbialos solo mediante pull requests. Usa diffs para ver qué ha cambiado.

Utiliza un hash de contenido para tu configuración desplegada. Este hash debe incluir la versión del prompt, el ID del modelo y el digest del contenedor. Si cambias el prompt, la identidad del agente cambia. No puedes sustituir un prompt de forma silenciosa.

Aplica la detección de deriva (drift detection) a la superficie del agente. No te limites a monitorizar el host. Monitoriza las listas de servidores MCP y las políticas de salida (egress) específicas para ese agente.

Al registrar logs, rastrea estas dos cosas:

• Tamaño del contexto en el momento de la decisión: ¿Cuánta información tenía el modelo cuando actuó? • El prompt padre: En sistemas multi-agente, ¿qué envió el agente que realizó la llamada?

No necesitas herramientas nuevas. Utiliza tu control de versiones y tus registros estructurados actuales. Solo necesitas apuntarlos al lugar correcto.

¿Controlas las versiones y revisas tus prompts del sistema? ¿O puede cualquiera con acceso a la consola cambiarlos sin dejar rastro?

Fuente: https://dev.to/brennhill/theres-no-pull-request-to-review-for-an-autonomous-agent-so-what-do-you-review-355m

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi