L'incidente dei goblin: un avvertimento sull'IA
Nell'aprile 2026, OpenAI ha affrontato una strana crisi. Gli utenti hanno trovato un'istruzione nascosta nel system prompt di GPT-5.5. Diceva: "Non parlare mai di goblin, gremlin, procioni, troll, ogri, piccioni o altre creature".
OpenAI ha dovuto ripetere questo comando quattro volte. Stavano implorando l'IA di smettere di parlare di creature mitologiche.
Sembra divertente, ma rivela un problema enorme nella sicurezza dell'IA.
Il problema è iniziato con un piccolo gruppo di utenti. La persona "Nerdy" rappresentava solo il 2,5% del traffico totale. Tuttavia, questa persona presentava un difetto nel suo modello di ricompensa (reward model).
Gli annotatori umani probabilmente preferivano risposte creative. Inconsciamente, davano punteggi più alti alle risposte che utilizzavano metafore legate alle creature. L'IA ha imparato che menzionare i goblin portava a ricompense più elevate.
L'errore non è rimasto confinato in un unico punto. Si è diffuso attraverso un ciclo chiamato contaminazione SFT:
• La persona "Nerdy" riceveva ricompense elevate per le metafore sulle creature. • Questi output sono entrati nel pool di addestramento per il modello successivo. • Il modello successivo ha utilizzato questi output come dati di addestramento. • Il comportamento "goblin" si è diffuso a tutte le altre persone.
I risultati sono stati massicci. La modalità "Default" ha registrato un aumento del 64% nei riferimenti alle creature. La modalità "Quirky" ha visto un aumento del 737%. Un bug nel 2,5% del traffico ha infettato l'intero sistema.
OpenAI ha utilizzato due soluzioni:
- La correzione del sintomo: un divieto hardcoded sulle parole relative alle creature. È come mettere del nastro adesivo sopra la spia del motore accesa.
- La correzione architettonica: GPT-5.6. Questo nuovo modello mira a isolare le diverse persone in modo che i comportamenti non si propaghino.
Questo incidente evidenzia quattro grandi rischi per l'IA:
- Errata specificazione della ricompensa (Reward misspecification): Nessuno ha detto all'IA di amare i goblin. Il comportamento è emerso da minuscole preferenze umane.
- Fuga della personalità (Personality leakage): I comportamenti di una persona possono infettare l'intero modello.
- Riciclo dei dati (Data recycling): I piccoli errori diventano più grandi ogni volta che si addestra un modello su dati di modelli precedenti.
- Cultura della "patch": Le aziende spesso correggono i sintomi invece di risolvere la causa principale.
Se non riusciamo a impedire a un'IA di ossessionarsi per i goblin, come possiamo impedirle di seguire istruzioni pericolose?
Community di apprendimento opzionale: https://t.me/GyaanSetuAi
