OpenAI presenta GPT-5.5-Cyber per rivoluzionare il patching automatizzato

OpenAI sta intensificando significativamente la corsa agli armamenti nell'IA applicata alla cybersecurity con il rilascio completo di GPT-5.5-Cyber, un modello specializzato progettato per superare gli attuali benchmark del settore. Andando oltre la semplice rilevazione delle vulnerabilità per arrivare alla generazione automatizzata di patch, OpenAI mira a colmare il divario critico tra l'individuazione delle falle e la loro risoluzione.

Successo nei benchmark: GPT-5.5-Cyber vs. Mythos

Il rilascio di GPT-5.5-Cyber segna una pietra miliare nelle prestazioni degli LLM specializzati. Secondo OpenAI, il nuovo modello stabilisce nuovi record in tutti i benchmark critici di sicurezza, superando in particolare Mythos 5 di Anthropic. Nel benchmark CyberGym, che misura la capacità di un agente di riprodurre falle note, GPT-5.5-Cyber ha ottenuto un punteggio dell'85,6%, superando l'83,8% di Mythos 5 e l'81,8% dello standard GPT-5.

Ancora più sorprendente è la performance su ExploitGym, dove GPT-5.5-Cyber ha raggiunto il 39,5%, quasi il doppio del 25,95% registrato dal modello base GPT-5. Su SEC-bench Pro, che valuta la scoperta di vulnerabilità a lungo termine, il modello ha ottenuto un punteggio del 69,8%, mantenendo un vantaggio significativo su Claude Opus 4 (73,1% in CyberGym) e sulle iterazioni precedenti. Questi numeri suggeriscono che GPT-5.5-Cyber sia specificamente ottimizzato per la logica sfumata richiesta nella ricerca sulla sicurezza offensiva e difensiva.

Chiudere il cerchio con Codex Security

Un componente centrale dell'iniziativa di cybersecurity Daybreak è l'aggiornamento del plugin Codex Security. Mentre molti strumenti si concentrano esclusivamente sulla scansione, l'aggiornato Codex Security gestisce l'intero processo, dalla scoperta alla generazione della patch. Dalla sua anteprima di ricerca a marzo, il plugin ha scansionato oltre 30 milioni di commit in 30.000 codebase, portando all'identificazione automatica di 500.000 correzioni.

Il plugin funziona come un ingegnere della sicurezza virtuale, eseguendo scansioni approfondite di intere codebase, conducendo analisi dei percorsi di attacco e verificando se il codice vulnerabile sia effettivamente raggiungibile. Fondamentalmente, supporta i moderni flussi di lavoro degli sviluppatori esportando i risultati tramite file SARIF o query CodeQL. Per prevenire correzioni di sicurezza "allucinate", OpenAI sottolinea che gli ingegneri umani devono comunque approvare ogni modifica.

Un ecosistema di difesa globale

OpenAI non sta costruendo tutto questo in isolamento; sta creando una vasta rete di partner attraverso il Daybreak Cyber Partner Program. Il programma include giganti del settore come CrowdStrike, Cisco, Cloudflare, Palo Alto Networks, IBM e SentinelOne. Queste aziende possono integrare GPT-5.5 con "Trusted Access for Cyber" direttamente nei propri prodotti di sicurezza proprietari.

Inoltre, l'iniziativa si estende al settore pubblico e alla stabilità dell'open source. OpenAI ha stabilito partnership di "Trusted Access" con governi tra cui Australia, Canada, Francia, Germania, Giappone e Regno Unito. Sul fronte dell'open source, l'iniziativa "Patch the Planet" — in collaborazione con Trail of Bits e HackerOne — sta già lavorando su progetti critici come cURL, Go e Python per mettere in sicurezza le fondamenta di Internet.

Punti chiave

  • Benchmark superiori: GPT-5.5-Cyber guida i principali test del settore come CyberGym ed ExploitGym, superando sia Mythos di Anthropic che i modelli standard GPT-5.
  • Automazione end-to-end: Il plugin Codex Security automatizza il passaggio dalla scoperta della vulnerabilità alla generazione della patch, supportando scansioni approfondite e analisi dei percorsi di attacco.
  • Accesso solo previa verifica: Per mitigare i rischi, il modello altamente permissivo GPT-5.5-Cyber è limitato a difensori verificati sotto stretto monitoraggio e sistemi di controllo (guardrails).