Guardrails para Agentes de IA Empresariales
La mayoría de los consejos sobre guardrails de IA suenan a discurso de ventas. Se centran en diagramas sofisticados y listas de verificación.
La seguridad real en entornos de producción es menos glamurosa. Se basa en elementos que existían mucho antes de los LLM.
Pasé dos años construyendo agentes de IA para una empresa Fortune 100. Estos agentes gestionan fallos de CI/CD, incidentes de Kubernetes y documentación de infraestructura.
Aquí está la pila de capas que utilizamos para mantenerlos seguros.
Identidad en el límite del agente. Cada agente utiliza una identidad de carga de trabajo (workload identity). Nunca utiliza credenciales compartidas. El alcance de IAM es su techo de seguridad. Si el agente no necesita acceso a la base de datos, el rol de IAM no debe tenerlo. Este es su control más importante.
Listas de herramientas permitidas (tool allow-lists). La plataforma decide qué herramientas puede ver un agente. Un agente de búsqueda de código no debería tener una herramienta de correo electrónico. Utilizamos configuraciones estáticas para esto. Nunca utilizamos el registro dinámico de herramientas.
Controles de salida de red (network egress controls). Los agentes solo acceden a endpoints permitidos. Utilizamos filtrado DNS y un proxy de salida. Esto evita que las alucinaciones del modelo accedan a URLs incorrectas.
Aislamiento de secretos. Los agentes nunca ven secretos en bruto. Utilizamos tokens de sesión de corta duración inyectados durante las llamadas a las herramientas. Nunca coloque secretos en un prompt. Cualquier cosa en un prompt puede ser registrada o replicada.
Pistas de auditoría completas. Debe registrar cada llamada al modelo y cada llamada a la herramienta. Esto incluye entradas, salidas, argumentos de la herramienta e identidad del usuario. Necesita esto para entender qué salió mal durante un incidente.
Aprobación humana. Para cualquier acción que modifique un sistema de registro (system of record), la plataforma debe pausarse. Un humano debe aprobar la acción. Esta es su red de seguridad.
Evite estos errores comunes:
Instrucciones a nivel de prompt. Decirle a un modelo "nunca hagas X" no es seguridad. Un usuario puede engañar al modelo. Traslade el control a la capa de IAM o de herramientas.
Filtros de PII genéricos. Estos tienen altas tasas de error. Es mejor limitar el acceso a los datos a través de IAM para que el agente nunca vea información sensible.
Modelos de guardrail. Usar un segundo LLM para calificar al primero añade latencia. No es un control de seguridad real. Es solo un conjunto de modelos (model ensemble).
Lecciones que aprendí por las malas:
Corrija el IAM antes que los prompts. Perdí tiempo ajustando prompts cuando debería haber estado restringiendo los roles de IAM. Traslade los controles lo más bajo posible en la pila.
Construye un registro de auditoría exhaustivo. Capturar solo el prompt y la respuesta no es suficiente. Necesitas las llamadas a herramientas y los argumentos intermedios. Es barato registrarlo pronto, pero costoso corregirlo después.
Limita la comunicación entre agentes. En sistemas multiagente, establece un límite estricto para las llamadas de agente a agente. Esto evita fallos en cascada.
La seguridad de la IA a escala no es un problema del modelo. Es un problema de la plataforma. Trata a tus agentes con la misma disciplina operativa que cualquier otro sistema de producción.
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi