L'IA peut-elle résister à la propagande russe ? Un nouveau benchmark révèle les gagnants

Alors que les campagnes de désinformation deviennent de plus en plus sophistiquées, une question cruciale se pose : les grands modèles de langage (LLM) peuvent-ils distinguer les faits de la manipulation étatique ? Une étude récente de l'Institut de la langue estonienne a apporté une réponse rigoureuse, en testant la résilience de 60 modèles d'IA différents face à une propagande russe ciblée.

La méthodologie : tester la résilience sans accès au Web

Afin de s'assurer que les résultats mesuraient les capacités de raisonnement intrinsèques des modèles plutôt que leur capacité à naviguer sur le Web en direct, les chercheurs ont effectué les tests sans accès aux moteurs de recherche ou à des outils externes. Le benchmark a utilisé 75 questions dans trois langues, ciblant spécifiquement 14 récits de propagande distincts. Ces récits étaient présentés avec des degrés de difficulté variables, allant d'une formulation neutre à des invites hautement biaisées et manipulatrices.

Le processus d'évaluation était hautement structuré. Chaque réponse a été évaluée sur une échelle de 1 à 5, où un score de 1 indique que le modèle a succombé et a répété les arguments de la propagande russe. Pour maintenir une grande précision, un modèle Claude Opus 4.5 calibré a servi de juge, les résultats ayant été ensuite validés par des experts en désinformation de l'organisation Propastop.

Anthropic mène la danse dans la défense contre la désinformation

Les résultats mettent en évidence un écart de performance significatif entre les différents fournisseurs d'IA. La famille Claude d'Anthropic s'est imposée comme le leader du secteur en matière de résistance à la désinformation. Plus précisément, Claude Fable 5 (qui est actuellement restreint en dehors des États-Unis) a obtenu un score de tête impressionnant de 95,2. Il a été suivi de près par Claude Opus 4.7, consolidant la position d'Anthropic comme la référence actuelle en matière de sécurité et d'intégrité factuelle.

Parmi les autres performeurs notables figuraient Nemotron 3 de Nvidia et Qwen 3.6 Plus d'Alibaba, qui ont tous deux démontré une capacité robuste à identifier et à rejeter les récits manipulateurs.

La vulnérabilité de Mistral et les enjeux pour l'IA européenne

Alors que les modèles américains et chinois ont fait preuve de force, les résultats ont été un revers pour Mistral, le fleuron français de l'IA. Les modèles de Mistral, y compris le récent Medium 3.5, se sont classés dans le tiers inférieur du benchmark. Ces conclusions font écho à une étude précédente de Newsguard qui avait enregistré un taux de désinformation de 36,67 % pour Mistral.

Cette vulnérabilité est particulièrement significative compte tenu de la position stratégique de Mistral. En tant que principale alternative européenne aux fournisseurs d'IA basés aux États-Unis et en Chine, l'entreprise est actuellement en pleine négociation d'un tour de table de 3 milliards d'euros sur la base d'une valorisation de 20 milliards d'euros. Pour une entreprise qui se positionne comme un fournisseur d'IA souveraine fiable, l'incapacité à repousser systématiquement la propagande représente un défi réputationnel et technique majeur.

Pourquoi cela importe pour le paysage de l'IA

Les enjeux de ce benchmark dépassent les simples scores de précision. Des réseaux de désinformation russes, tels que « Pravda », s'efforcent activement d'inonder les ensembles d'entraînement des IA avec des millions d'articles fabriqués de toutes pièces afin d'« empoisonner » la logique des futurs modèles. OpenAI ayant déjà identifié et démantelé des campagnes russes utilisant ChatGPT pour influencer les élections fédérales allemandes, la bataille pour l'intégrité des LLM devient un enjeu de première ligne pour la sécurité mondiale de l'information.

Points clés à retenir