Construir un playground para agentes de IA antes de la producción
Un agente de programación ejecutó una vez un script de limpieza contra lo que creía que era una base de datos de staging. En realidad, era la de producción. El agente eliminó cuatro meses de pedidos de clientes porque hizo exactamente lo que se le ordenó con las credenciales incorrectas.
Este fallo no es un motivo para evitar los agentes. Es un motivo para construir un playground.
No le darías acceso a la base de datos de producción a un nuevo ingeniero en su primer día. Le das un entorno de staging, acceso de solo lectura y tareas supervisadas. Los agentes necesitan el mismo proceso de incorporación (onboarding). Pueden realizar mil acciones por minuto, por lo que el coste de saltarse un playground es mil veces mayor.
Un playground real debe hacer tres cosas:
- Permitir que el agente ejecute su ciclo de decisión completo.
- Evitar que todos los efectos secundarios lleguen a los sistemas reales.
- Registrarlo todo para su inspección.
No te limites a probar el prompt. Probar un prompt es hacer una pregunta y leer una respuesta. El comportamiento de un agente es una secuencia de llamadas a herramientas (tool calls). Los fallos reales ocurren en medio de un ciclo cuando una herramienta devuelve datos inesperados.
No necesitas crear un sandbox para el modelo. Necesitas crear un sandbox para el ejecutor.
Coloca un punto de intercepción (seam) donde las llamadas a herramientas se conviertan en acciones. Utiliza un ejecutor de playground que use mocks en lugar de un ejecutor en vivo. El ciclo del agente no debería notar la diferencia. Si tu agente llama directamente a un cliente de base de datos, no tienes ninguna costura ni seguridad.
Prueba tres áreas específicas:
- Comportamiento: ¿Elige el agente la herramienta correcta en el orden correcto?
- Llamadas a herramientas: ¿Son los argumentos correctos y están dentro de límites seguros?
- Modos de fallo: ¿Qué sucede cuando una API agota el tiempo de espera (timeout) o devuelve basura?
Un mock que siempre tiene éxito no le enseña nada al agente. Tu playground debe permitirte inyectar fallos, como tiempos de espera de red o datos malformados. Así es como verás si un agente reintenta de forma sensata o empieza a alucinar.
Si tu agente ejecuta código, necesitas un aislamiento fuerte. Utiliza microVMs para código no confiable. No empieces con contenedores simples solo porque son fáciles. Una configuración sencilla puede derivar en un incidente de seguridad masivo.
Recuerda que los agentes son no deterministas. Que una prueba pase una vez no significa que el agente sea fiable. Debes ejecutar la misma tarea varias veces. Si un agente pasa 7 de cada 10 veces, fallará para aproximadamente el 30% de tus usuarios reales. La consistencia es tu métrica más importante.
Por último, protégete contra salidas de herramientas adversarias. Un agente trata los datos de las herramientas como instrucciones. Un usuario malintencionado podría sembrar una base de datos con una inyección de prompt para desviar al agente. Prueba tu agente alimentándolo con payloads hostiles en el playground.
Construye una ruta de graduación, no un botón de lanzamiento:
- Empieza con mocks y un sandboxing completo.
- Prueba la consistencia a través de muchas ejecuciones.
- Realiza pruebas contra entradas adversarias.
- Pasa a un modo de ejecución de prueba (dry-run) con datos que simulen producción.
- Solo entonces concede acceso limitado, controlado y supervisado.
Dale a tu agente un lugar donde equivocarse de forma barata. Así podrá acertar donde realmente importa.
Fuente: https://dev.to/nazar_boyko/building-an-ai-agent-playground-before-giving-it-production-access-4glh
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi
