AIはロシアのプロパガンダに抵抗できるか? 新しいベンチマークが勝者を明らかに
誤情報キャンペーンがますます巧妙化する中、一つの重要な問いが浮上しています。大規模言語モデル(LLM)は、事実と国家主導の操作を区別できるのでしょうか? エストニア語研究所による最近の研究は、60種類の異なるAIモデルを対象としたロシアのプロパガンダに対する耐性をテストし、その問いに対して厳格な回答を提示しました。
メソドロジー:ウェブアクセスなしでの耐性テスト
結果が、ライブウェブの閲覧能力ではなく、モデル固有の推論能力を測定したものとなるよう、研究者たちは検索エンジンや外部ツールへのアクセスなしでテストを実施しました。このベンチマークでは、3つの言語にわたる75の質問を使用し、特に14の異なるプロパガンダのナラティブを対象としました。これらのナラティブは、中立的な言い回しから、非常に偏った操作的なプロンプトに至るまで、さまざまな難易度で提示されました。
評価プロセスは高度に構造化されていました。各回答は1から5のスケールでスコア化され、スコアが1の場合は、モデルがロシア側の主張に屈し、それを繰り返したことを示します。高い精度を維持するため、調整済みの Claude Opus 4.5 が判定役を務め、その結果は組織 Propastop の誤情報専門家によってさらに検証されました。
Anthropicが誤情報防御でトップに
結果は、異なるAIプロバイダー間での顕著なパフォーマンスの差を浮き彫りにしました。Anthropic の Claude ファミリーは、誤情報への抵抗において業界のリーダーとして浮上しました。具体的には、Claude Fable 5(現在は米国以外では制限されています)が 95.2 という圧倒的なトップスコアを記録しました。これに Claude Opus 4.7 が僅差で続き、安全性と事実の整合性における現在のゴールドスタンダードとしての Anthropic の地位を固めました。
他の注目すべきパフォーマンスを示したのは、Nvidia の Nemotron 3 と Alibaba の Qwen 3.6 Plus であり、両者とも操作的なナラティブを特定し、拒絶する強力な能力を示しました。
Mistralの脆弱性と欧州AIへの影響
米国や中国のモデルが強さを見せた一方で、結果はフランスのAI大手である Mistral にとっての痛手となりました。最近の Medium 3.5 を含む Mistral のモデルは、ベンチマークの下位3分の1に位置しました。これらの調査結果は、Mistral の誤情報率が 36.67 パーセントであったと記録した、以前の Newsguard の研究結果とも一致しています。
この脆弱性は、Mistralの戦略的な地位を考えると特に重大です。米国や中国のAIプロバイダーに対する欧州の主要な代替手段として、同社は現在、200億ユーロの評価額で30億ユーロの資金調達ラウンドの交渉を進めています。信頼できる主権的AIプロバイダーとして自らを位置づけている企業にとって、プロパガンダを一貫して退けることができないことは、評判および技術的な面で大きな課題となります。
なぜこれがAI業界にとって重要なのか
このベンチマークの重要性は、単なる精度スコアにとどまりません。「Pravda」のようなロシアの偽情報ネットワークは、将来のモデルの論理を「汚染」するために、数百万もの捏造された記事をAIの学習セットに流し込もうと積極的に動いています。OpenAIが、ドイツ連邦選挙に影響を与えるためにChatGPTを利用したロシアのキャンペーンをすでに特定し、停止させていることを踏まえると、LLMの完全性をめぐる戦いは、グローバルな情報セキュリティにおける最前線の課題となりつつあります。
主な要点
- Anthropicの優位性: Claudeモデル、特にClaude Fable 5は、テストされた他のすべてのモデルと比較して、プロパガンダに対して優れた耐性を示しました。
- 圧力にさらされるMistral: 高い評価額と欧州における重要性にもかかわらず、Mistralのモデルは誤情報への対応に大きく苦戦し、米国や中国の競合他社に後れを取っています。
- 学習における脅威: 国家主導のアクターが大規模な偽情報キャンペーンを通じてLLMの出力を操作しようと積極的に試みていることから、このベンチマークは強固な防御策の緊急性を浮き彫りにしています。