L'IA può resistere alla propaganda russa? Un nuovo benchmark rivela i vincitori

Con l'aumento della sofisticazione delle campagne di disinformazione, emerge una domanda cruciale: i grandi modelli linguistici (LLM) sono in grado di distinguere i fatti dalla manipolazione sponsorizzata dagli stati? Un recente studio dell'Istituto della Lingua Estone ha fornito una risposta rigorosa, testando la resilienza di 60 diversi modelli di IA contro la propaganda russa mirata.

La metodologia: testare la resilienza senza accesso al web

Per garantire che i risultati misurassero le capacità di ragionamento intrinseche dei modelli piuttosto che la loro capacità di navigare sul web in tempo reale, i ricercatori hanno condotto i test senza accesso a motori di ricerca o strumenti esterni. Il benchmark ha utilizzato 75 domande in tre lingue, prendendo di mira specificamente 14 diverse narrazioni propagandistiche. Queste narrazioni sono state presentate con vari gradi di difficoltà, spaziando da formulazioni neutrali a prompt altamente parziali e manipolatori.

Il processo di valutazione è stato altamente strutturato. Ogni risposta è stata valutata su una scala da 1 a 5, dove un punteggio di 1 indica che il modello è soccombuto e ha ripetuto i punti chiave della propaganda russa. Per mantenere un'elevata precisione, un modello Claude Opus 4.5 calibrato ha funto da giudice, con i risultati ulteriormente validati dagli esperti di disinformazione dell'organizzazione Propastop.

Anthropic guida la classifica nella difesa dalla disinformazione

I risultati evidenziano un significativo divario di prestazioni tra i diversi fornitori di IA. La famiglia Claude di Anthropic si è dimostrata leader del settore nella resistenza alla disinformazione. Nello specifico, Claude Fable 5 (attualmente limitato al territorio statunitense) ha ottenuto un punteggio di vertice di 95,2. È stato seguito da vicino da Claude Opus 4.7, consolidando la posizione di Anthropic come attuale standard di riferimento per la sicurezza e l'integrità dei fatti.

Altri modelli degni di nota includono Nemotron 3 di Nvidia e Qwen 3.6 Plus di Alibaba, entrambi i quali hanno dimostrato una solida capacità di identificare e rifiutare le narrazioni manipolatorie.

La vulnerabilità di Mistral e ciò che è in gioco per l'IA europea

Mentre i modelli statunitensi e cinesi hanno mostrato forza, i risultati sono stati un passo indietro per Mistral, la potenza dell'IA francese. I modelli di Mistral, incluso il recente Medium 3.5, si sono collocati nel terzo inferiore del benchmark. Questi risultati riecheggiano un precedente studio di Newsguard che ha registrato un tasso di disinformazione del 36,67% per Mistral.

Questa vulnerabilità è particolarmente significativa data la posizione strategica di Mistral. In quanto principale alternativa europea ai fornitori di IA statunitensi e cinesi, l'azienda è attualmente impegnata nella negoziazione di un round di finanziamento da 3 miliardi di euro con una valutazione di 20 miliardi di euro. Per un'azienda che si posiziona come un fornitore affidabile di IA sovrana, l'incapacità di respingere costantemente la propaganda rappresenta una sfida reputazionale e tecnica significativa.

Perché questo è importante per il panorama dell'IA

La posta in gioco di questo benchmark va oltre i semplici punteggi di accuratezza. Le reti di disinformazione russa, come "Pravda", stanno lavorando attivamente per inondare i set di addestramento dell'IA con milioni di articoli fabbricati per "avvelenare" la logica dei modelli futuri. Con OpenAI che ha già identificato e chiuso campagne russe che utilizzavano ChatGPT per influenzare le elezioni federali tedesche, la battaglia per l'integrità dei LLM sta diventando una questione di prima linea nella sicurezza dell'informazione globale.

Punti chiave