AI能否抵御俄罗斯的宣传？新基准测试揭示了胜者

📅4 hours ago⏱3 min read

In this article

AI 能抵御俄罗斯宣传吗？新基准测试揭示胜出者

随着虚假信息宣传手段变得日益复杂，一个关键问题随之而来：大语言模型 (LLM) 是否能够区分事实与国家资助的操纵？爱沙尼亚语言研究所 (Institute of the Estonian Language) 最近的一项研究对此给出了严谨的回答，该研究测试了 60 种不同 AI 模型在面对针对性俄罗斯宣传时的韧性。

方法论：在无法访问网络的情况下测试韧性

为了确保测试结果衡量的是模型的内在推理能力，而非其浏览实时网页的能力，研究人员在不使用搜索引擎或外部工具的情况下进行了测试。该基准测试使用了涵盖三种语言的 75 个问题，专门针对 14 种不同的宣传叙事。这些叙事以不同的难度呈现，从中立的措辞到具有高度偏见和操纵性的提示词不等。

评估过程具有高度的结构化。每个回答按 1 到 5 分进行评分，其中 1 分表示模型屈服并重复了俄罗斯的论点。为了保持高准确度，经过校准的 Claude Opus 4.5 被用作裁判，结果并由来自 Propastop 组织的虚假信息专家进行了进一步验证。

Anthropic 在虚假信息防御中处于领先地位

结果凸显了不同 AI 提供商之间显著的性能差距。Anthropic 的 Claude 系列在抵御虚假信息方面脱颖而出，成为行业领导者。具体而言，Claude Fable 5（目前在美国境外受限）以 95.2 的高分遥遥领先。紧随其后的是 Claude Opus 4.7，这巩固了 Anthropic 作为当前安全性和事实完整性金标准的地位。

其他表现突出的模型还包括 Nvidia 的 Nemotron 3 和阿里巴巴的 Qwen 3.6 Plus，两者都展示了识别并拒绝操纵性叙事的强大能力。

Mistral 的脆弱性以及欧洲 AI 面临的挑战

虽然美国和中国的模型表现强劲，但对于法国 AI 巨头 Mistral 来说，这一结果却是一个挫折。Mistral 的模型（包括最近的 Medium 3.5）在基准测试中排名后三分之一。这些发现呼应了 Newsguard 此前的一项研究，该研究记录了 Mistral 拥有 36.67% 的错误信息率。

鉴于 Mistral 的战略地位，这一漏洞显得尤为重要。作为美国和中国 AI 提供商的主要欧洲替代方案，该公司目前正在洽谈一轮 30 亿欧元的融资，估值达 200 亿欧元。对于一家将自己定位为可靠的主权 AI 提供商的公司来说，无法持续抵御政治宣传构成了重大的声誉和技术挑战。

为什么这对 AI 领域至关重要

这项基准测试的意义远不止于简单的准确率分数。俄罗斯的虚假信息网络（例如“Pravda”）正积极通过向 AI 训练集中灌输数百万篇伪造的文章，试图“毒化”未来模型的逻辑。随着 OpenAI 已经识别并关闭了利用 ChatGPT 影响德国联邦选举的俄罗斯行动，捍卫 LLM 完整性的战斗正成为全球信息安全领域的前线问题。

核心结论

Anthropic 的主导地位： 与所有其他测试模型相比，Claude 模型（尤其是 Claude Fable 5）表现出了更强的抵御宣传的能力。
Mistral 面临压力： 尽管拥有高估值且在欧洲具有重要地位，Mistral 模型在应对虚假信息方面表现挣扎，落后于美国和中国的竞争对手。
训练威胁： 该基准测试强调了建立强大防御机制的紧迫性，因为国家支持的行为体正试图通过大规模虚假信息活动来操纵 LLM 的输出。

AI能否抵御俄罗斯的宣传？新基准测试揭示了胜者

AI 能抵御俄罗斯宣传吗？新基准测试揭示胜出者

方法论：在无法访问网络的情况下测试韧性

Anthropic 在虚假信息防御中处于领先地位

Mistral 的脆弱性以及欧洲 AI 面临的挑战

为什么这对 AI 领域至关重要

核心结论

Continue reading

𝗧𝗵𝗲 𝗚𝗿𝗲𝗮𝗍 𝗔𝗜 𝗗𝗶𝘃𝗲𝗿𝗴𝗲𝗻𝗰𝗲

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

美国政府召回了一款 AI 模型

AI 红队测试：保护大语言模型免受对抗性风险的影响

Probably 融资 900 万美元，利用精密工程解决 LLM 幻觉问题