美国政府 vs Anthropic:对“不可破解”大语言模型的无理要求
在 Fable 5 模型发布后,美国政府与 Anthropic 之间出现了日益严重的裂痕,引发了关于 AI 安全和监管审查的辩论。随着官员指责这家 AI 实验室规避行政命令,一种更深层次的技术紧张关系正在浮现:政府要求前沿模型必须是“不可破解”的。
关于 Fable 5 与网络指令的冲突
这种紧张局势源于 Anthropic 的决定:在由特朗普政府近期签署的网络行政命令所授权的指定政府监管审核机构完全投入运行之前,就发布了其最新模型 Fable 5。尽管该命令要求进行自愿性监管,但政府官员声称 Anthropic 忽视了指令的精神,从而导致该公司被指责为“不良行为者”。
目前涉及商务部、中央情报局(CIA)以及科学顾问 Michael Kratsios 的讨论凸显了巨大的沟通鸿沟。官员们表示担心,尽管 Anthropic 知道存在“越狱”(jailbreak)风险——据报道这一线索是由 Amazon 及其他科技行业合作伙伴提供的——但仍继续推进。然而,这种摩擦似乎不仅关乎技术安全,也关乎监管的时机问题。
技术现实:大语言模型(LLM)真的能做到不可破解吗?
政府批评的核心在于 Anthropic 因忽视潜在的越狱风险而“走错了岔路”,但这忽略了大语言模型(LLM)架构的一个基本现实。在 AI 行业内,共识是绝对的安全在目前看来是不可能的。甚至 OpenAI 也承认,像提示词注入(prompt injection)这样的漏洞可能永远无法完全解决。
Anthropic 首席执行官 Dario Amodei 此前曾指出,虽然在生物学或技术等敏感领域的越狱可能关乎“生死”,但行业仍在努力研究如何降低这些风险。通过要求模型在进行国际分发前必须具备本质上的不可破解性,美国政府可能会开创一个扼杀创新的先例,因为没有任何前沿模型(包括 GPT-5.5 或 Kimi 2.7)拥有完美的安全护盾。
行业抵制与出口管制辩论
面对不断升级的紧张局势,包括 Alex Stamos 和 Rachel Tobac 等行业资深人士在内的 100 多名网络安全专家和高管,已向商务部长 Lutnick 和国家网络主管 Cairncross 发表公开信。他们呼吁取消对 Anthropic 的 Fable 和 Mythos 模型的出口管制。
专家们认为,虽然 Fable 在识别软件漏洞方面能力极强,但与 Opus 或 Sonnet 等其他模型相比,它并不具备独特的危险性。至关重要的是,他们警告称,严格的出口管制实际上正在削弱西方防御者的能力。通过限制获取美国顶尖模型,政府可能会在无意中使中国的开放权重模型获得优势,据报道,这些模型仅落后于美国领先的前沿模型几个月。
核心要点
- 监管摩擦: Anthropic 因在政府自愿监管机构成立之前就发布了 Fable 5 而面临指责。
- 安全悖论: 政府对“不可破解”AI 的需求,与提示词注入(prompt injection)和越狱(jailbreaking)是当前 LLM 架构中固有风险这一技术现实相冲突。
- 地缘政治风险: 行业专家警告称,对 Fable 等模型采取激进的出口管制可能会削弱美国的网络防御能力,同时无法阻止中国 AI 的快速进步。