Sicurezza contro il Prompt Injection e i Guardrail degli LLM

Gli LLM non hanno un confine netto tra istruzioni e dati. Tutto ciò che si trova nella finestra di contesto è un unico flusso di token. Il prompt injection avviene quando i dati dell'attaccante agiscono come istruzioni. Non è possibile raggiungere la sicurezza solo tramite il filtraggio. Bisogna gestirla con una strategia di difesa in profondità (defense-in-depth).

Il fallimento delle difese comuni:

L'ASCII Smuggling è una minaccia importante. Utilizza caratteri invisibili come i Unicode Tags o gli spazi a larghezza zero (zero-width spaces) per nascondere le istruzioni. Il modello le legge, ma l'essere umano non vede nulla. Ciò consente il furto di identità (identity spoofing) e l'esfiltrazione di dati tramite email o calendari.

Come difendere la propria applicazione:

La sicurezza è un difetto della pipeline, non solo un difetto del modello. La soluzione risiede nel codice della propria applicazione.

Fonte: https://dev.to/geekaara/llm-prompt-injection-guardrail-security-glm

Community di apprendimento opzionale: https://t.me/GyaanSetuAi