Inyección de prompts en LLM y seguridad de guardrails

Los LLM no tienen una frontera clara entre instrucciones y datos. Todo en la ventana de contexto es un flujo continuo de tokens. La inyección de prompts ocurre cuando los datos del atacante actúan como instrucciones. No se puede alcanzar la seguridad mediante el simple filtrado. Se debe gestionar mediante una defensa en profundidad.

El fallo de las defensas comunes:

El "ASCII Smuggling" es una amenaza importante. Utiliza caracteres invisibles, como etiquetas Unicode o espacios de ancho cero, para ocultar instrucciones. El modelo los lee, pero el humano no ve nada. Esto permite la suplantación de identidad y la exfiltración de datos a través de correos electrónicos o calendarios.

Cómo defender su aplicación:

La seguridad es un fallo del pipeline, no solo un fallo del modelo. La solución reside en el código de su aplicación.

Fuente: https://dev.to/geekaara/llm-prompt-injection-guardrail-security-glm

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi