为什么标准 AI 基准测试会系统性地低估智能体能力

当前的 AI 评估方法无法捕捉前沿模型的真实潜力,往往将计算预算的不足误认为是智能的匮乏。英国 AI 安全研究所 (AISI) 揭示,AI 智能体的性能并非一个固定分数,而是一条随着测试时计算量增加而急剧上升的缩放曲线。

计算-能力曲线

AISI 研究的核心发现是,AI 智能体的成功率与其“测试时计算”(test-time compute)——即智能体在执行任务时被允许使用的处理能力和 Token 数量——有着密不可分的联系。当研究人员在评估中应用固定的预算上限时,他们衡量的是模型的最低能力,而非其最大潜力。

这种现象在多个高风险领域都清晰可见。在利用 TerminalBench 2.0 和 SWE-Bench Pro 等基准测试进行的软件工程任务中,当 Token 预算从 100 万增加到 1000 万时,成功率飙升了约 25%。同样,在“Humanity's Last Exam”中的数学和学术任务中,当预算达到 500 万 Token 时,性能提升了 22%。

人类与 AI 任务时间的幂律关系

该研究确立了人类专家完成任务所需的时间与 AI 智能体消耗的 Token 数量之间的直接相关性。这种关系遵循幂律:人类只需一分钟的任务,智能体可能需要消耗数千个 Token;而一小时的任务则可能消耗数百万个 Token。

这在当前的测试中造成了一个巨大的盲点。例如,AISI 的网络安全任务“The Last Ones”大约需要 20 小时的人类专业知识。该研究所测试的所有模型,在消耗少于 3000 万 Token 的情况下都无法解决此任务。通过使用标准的、低预算的评估方法,研究人员实际上将最复杂、最关键的任务排除在了测量过程之外。

进步的加速与提升的三个维度

AISI 指出,前沿模型的“时间跨度”(time horizon)——即它们能够处理的任务复杂度——正在以比此前预想快得多的速度扩张。早期的估计认为,在 250 万 Token 的固定预算下,网络安全任务的时间跨度每 4.7 个月翻一倍;但在更高的预算下,这一速度会显著加快。在 5000 万 Token 的预算下,翻倍速度加快到每 40 到 50 天一次。

较新的模型(如测试的 GPT 和 Claude 系列)在三个特定维度上表现出进步:

  • 覆盖范围 (Reach): 处理日益困难的任务的能力。
  • 可靠性 (Reliability): 更一致地解决同一任务的能力。
  • 效率 (Efficiency): 使用更少 Token 解决任务的能力。

对 AI 安全与部署的影响

这项研究将 AI 评估的范式从“固定分数”转向了“计算感知曲线”(compute-aware curves)。对于开发者和创始人而言,这意味着模型的效用不仅取决于其训练过程,还取决于部署期间分配了多少推理计算量。

随着单个 Token 成本的持续下降,此前在经济上看似不可行的能力将成为标准配置。对于 AI 安全和安全保障而言,这意味着如果监管机构和公司依赖传统的低预算基准测试,那么与自主智能体相关的风险(如复杂的网络攻击)可能会被严重低估。

核心要点

  • 基准测试具有误导性: 固定的 Token 预算捕捉的是模型的最低性能,系统性地低估了 AI 智能体所能达到的上限。
  • 计算量扩展能力: 随着测试时计算预算的增加,软件工程和数学领域的成功率会大幅跃升。
  • “翻倍”速度正在加快: 在更高的计算预算下,前沿模型掌握复杂任务的速度比此前估计的要快得多。