AI 能抵御俄罗斯宣传吗?新基准测试揭示胜出者
随着虚假信息宣传手段变得日益复杂,一个关键问题随之而来:大语言模型 (LLM) 是否能够区分事实与国家资助的操纵?爱沙尼亚语言研究所 (Institute of the Estonian Language) 最近的一项研究对此给出了严谨的回答,该研究测试了 60 种不同 AI 模型在面对针对性俄罗斯宣传时的韧性。
方法论:在无法访问网络的情况下测试韧性
为了确保测试结果衡量的是模型的内在推理能力,而非其浏览实时网页的能力,研究人员在不使用搜索引擎或外部工具的情况下进行了测试。该基准测试使用了涵盖三种语言的 75 个问题,专门针对 14 种不同的宣传叙事。这些叙事以不同的难度呈现,从中立的措辞到具有高度偏见和操纵性的提示词不等。
评估过程具有高度的结构化。每个回答按 1 到 5 分进行评分,其中 1 分表示模型屈服并重复了俄罗斯的论点。为了保持高准确度,经过校准的 Claude Opus 4.5 被用作裁判,结果并由来自 Propastop 组织的虚假信息专家进行了进一步验证。
Anthropic 在虚假信息防御中处于领先地位
结果凸显了不同 AI 提供商之间显著的性能差距。Anthropic 的 Claude 系列在抵御虚假信息方面脱颖而出,成为行业领导者。具体而言,Claude Fable 5(目前在美国境外受限)以 95.2 的高分遥遥领先。紧随其后的是 Claude Opus 4.7,这巩固了 Anthropic 作为当前安全性和事实完整性金标准的地位。
其他表现突出的模型还包括 Nvidia 的 Nemotron 3 和阿里巴巴的 Qwen 3.6 Plus,两者都展示了识别并拒绝操纵性叙事的强大能力。
Mistral 的脆弱性以及欧洲 AI 面临的挑战
虽然美国和中国的模型表现强劲,但对于法国 AI 巨头 Mistral 来说,这一结果却是一个挫折。Mistral 的模型(包括最近的 Medium 3.5)在基准测试中排名后三分之一。这些发现呼应了 Newsguard 此前的一项研究,该研究记录了 Mistral 拥有 36.67% 的错误信息率。
鉴于 Mistral 的战略地位,这一漏洞显得尤为重要。作为美国和中国 AI 提供商的主要欧洲替代方案,该公司目前正在洽谈一轮 30 亿欧元的融资,估值达 200 亿欧元。对于一家将自己定位为可靠的主权 AI 提供商的公司来说,无法持续抵御政治宣传构成了重大的声誉和技术挑战。
为什么这对 AI 领域至关重要
这项基准测试的意义远不止于简单的准确率分数。俄罗斯的虚假信息网络(例如“Pravda”)正积极通过向 AI 训练集中灌输数百万篇伪造的文章,试图“毒化”未来模型的逻辑。随着 OpenAI 已经识别并关闭了利用 ChatGPT 影响德国联邦选举的俄罗斯行动,捍卫 LLM 完整性的战斗正成为全球信息安全领域的前线问题。
核心结论
- Anthropic 的主导地位: 与所有其他测试模型相比,Claude 模型(尤其是 Claude Fable 5)表现出了更强的抵御宣传的能力。
- Mistral 面临压力: 尽管拥有高估值且在欧洲具有重要地位,Mistral 模型在应对虚假信息方面表现挣扎,落后于美国和中国的竞争对手。
- 训练威胁: 该基准测试强调了建立强大防御机制的紧迫性,因为国家支持的行为体正试图通过大规模虚假信息活动来操纵 LLM 的输出。