Guardrail per gli Agenti AI Enterprise
La maggior parte dei consigli sui guardrail per l'IA sembra un discorso di vendita. Si concentra su diagrammi elaborati e checklist.
La vera sicurezza in produzione è meno glamour. Si basa su elementi che esistevano molto prima degli LLM.
Ho trascorso due anni a costruire agenti AI per un'azienda della Fortune 100. Questi agenti gestiscono fallimenti CI/CD, incidenti Kubernetes e documentazione infrastrutturale.
Ecco lo stack a livelli che utilizziamo per mantenerli sicuri.
Identità al confine dell'agente. Ogni agente utilizza un'identità di carico di lavoro (workload identity). Non utilizza mai credenziali condivise. Lo scope IAM è il tuo limite di sicurezza. Se l'agente non ha bisogno di accedere al database, il ruolo IAM non deve averne l'accesso. Questo è il tuo controllo più importante.
Allow-list degli strumenti. La piattaforma decide quali strumenti un agente può vedere. Un agente di ricerca del codice non dovrebbe avere uno strumento per l'email. Utilizziamo configurazioni statiche per questo. Non utilizziamo mai la registrazione dinamica degli strumenti.
Controlli di uscita della rete (network egress). Gli agenti raggiungono solo endpoint presenti nella allow-list. Utilizziamo il filtraggio DNS e un proxy di uscita. Questo impedisce alle allucinazioni del modello di colpire URL errati.
Isolamento dei segreti. Gli agenti non vedono mai segreti in chiaro. Utilizziamo token di sessione a breve durata iniettati durante le chiamate agli strumenti. Non inserire mai segreti in un prompt. Qualsiasi cosa in un prompt può essere registrata o riprodotta.
Tracciabilità completa (audit trails). È necessario registrare ogni chiamata al modello e ogni chiamata allo strumento. Ciò include input, output, argomenti degli strumenti e identità dell'utente. Ne hai bisogno per capire cosa è andato storto durante un incidente.
Approvazione umana. Per qualsiasi azione che modifichi un sistema di record (system of record), la piattaforma deve mettersi in pausa. Un essere umano deve approvare l'azione. Questa è la tua rete di sicurezza.
Evita questi errori comuni:
Istruzioni a livello di prompt. Dire a un modello "non fare mai X" non è sicurezza. Un utente può ingannare il modello. Sposta il controllo al livello IAM o degli strumenti.
Filtri PII generici. Questi hanno tassi di errore elevati. È meglio limitare l'accesso ai dati tramite IAM in modo che l'agente non veda mai informazioni sensibili.
Modelli guardrail. Utilizzare un secondo LLM per valutare il primo aggiunge latenza. Non è un vero controllo di sicurezza. È solo un ensemble di modelli.
Lezioni imparate a proprie spese:
Correggi l'IAM prima dei prompt. Ho perso tempo a ottimizzare i prompt quando avrei dovuto restringere i ruoli IAM. Sposta i controlli il più in basso possibile nello stack.
Rendi il tuo audit trail estremamente dettagliato. Catturare solo il prompt e la risposta non è sufficiente. Hai bisogno delle chiamate agli strumenti (tool calls) e degli argomenti intermedi. Costa poco registrare i dati fin dall'inizio, ma costa molto correggerli in seguito.
Limita la comunicazione tra agenti. Nei sistemi multi-agente, imposta un limite massimo (hard cap) alle chiamate tra agenti. Questo previene i guasti a cascata.
La sicurezza dell'IA su larga scala non è un problema del modello. È un problema della piattaforma. Tratta i tuoi agenti con la stessa disciplina operativa di qualsiasi altro sistema in produzione.
Community di apprendimento opzionale: https://t.me/GyaanSetuAi