Non esiste una Pull Request per un agente autonomo
Le revisioni di sicurezza tradizionali si basano su una diff. Qualcuno apre una pull request. Qualcuno la legge. Il codice in produzione corrisponde al codice che hai revisionato.
Gli agenti autonomi rompono questo modello.
Un agente pianifica e chiama strumenti durante il runtime. Non distribuisce azioni tramite un commit. Decide le azioni mentre è in esecuzione. Se revisioni solo il codice dell'applicazione, ti sfugge il rischio reale.
Un agente non è solo codice. È una configurazione di runtime. Questa configurazione include:
• Il system prompt • L'harness o il loop • La superficie degli strumenti (tool surface) • Memoria e identità • Politiche di egress di rete • Immagini dei container
Due agenti che utilizzano lo stesso modello possono agire in modo diverso in base a queste impostazioni. Il modello rimane fisso. La configurazione cambia tutto.
Molti team trattano i system prompt come semplici impostazioni in una casella di testo. Li modificano in una dashboard. Questo è un errore. Una singola riga modificata può rimuovere un guardrail. Un prompt modificabile è un percorso di codice non revisionato.
Incidenti reali lo dimostrano:
• Un bot ha fornito consigli illegali ai proprietari di immobili per settimane. • Un bot di supporto ha iniziato a insultare i clienti a causa di un aggiornamento del prompt. • File malevoli hanno utilizzato caratteri invisibili per aggirare le regole.
Non si è trattato di fallimenti del modello. Sono stati cambiamenti di configurazione che nessuno ha revisionato.
Devi trattare la configurazione come se fosse codice.
Inserisci i tuoi system prompt e le configurazioni dell'harness nel controllo di versione. Modificali solo tramite pull request. Usa le diff per vedere cosa è cambiato.
Usa un hash del contenuto per la tua configurazione distribuita. Questo hash dovrebbe includere la versione del prompt, l'ID del modello e il digest del container. Se cambi il prompt, l'identità dell'agente cambia. Non puoi sostituire un prompt silenziosamente.
Applica il rilevamento del drift (drift detection) alla superficie dell'agente. Non limitarti a monitorare l'host. Monitora le liste dei server MCP e le specifiche politiche di egress per quell'agente.
Quando effettui il logging, traccia queste due cose:
• Dimensione del contesto al momento della decisione: Quante informazioni aveva il modello quando ha agito? • Il prompt genitore: nei sistemi multi-agente, cosa ha inviato l'agente chiamante?
Non hai bisogno di nuovi strumenti. Usa il tuo controllo di versione e il logging strutturato esistenti. Devi solo puntarli nel posto giusto.
Gestisci le versioni e revisioni i tuoi system prompt? O chiunque abbia l'accesso alla console può modificarli senza lasciare traccia?
Community di apprendimento opzionale: https://t.me/GyaanSetuAi
