为什么标准 AI 基准测试会系统性地低估智能体能力

Translated for your language. 阅读原文.

AI-assisted draft.

本文目录

为什么标准 AI 基准测试会系统性地低估智能体能力

当前的 AI 评估方法无法捕捉前沿模型的真实潜力，往往将计算预算的不足误认为是智能的匮乏。英国 AI 安全研究所 (AISI) 揭示，AI 智能体的性能并非一个固定分数，而是一条随着测试时计算量增加而急剧上升的缩放曲线。

计算-能力曲线

AISI 研究的核心发现是，AI 智能体的成功率与其“测试时计算”（test-time compute）——即智能体在执行任务时被允许使用的处理能力和 Token 数量——有着密不可分的联系。当研究人员在评估中应用固定的预算上限时，他们衡量的是模型的最低能力，而非其最大潜力。

这种现象在多个高风险领域都清晰可见。在利用 TerminalBench 2.0 和 SWE-Bench Pro 等基准测试进行的软件工程任务中，当 Token 预算从 100 万增加到 1000 万时，成功率飙升了约 25%。同样，在“Humanity's Last Exam”中的数学和学术任务中，当预算达到 500 万 Token 时，性能提升了 22%。

人类与 AI 任务时间的幂律关系

该研究确立了人类专家完成任务所需的时间与 AI 智能体消耗的 Token 数量之间的直接相关性。这种关系遵循幂律：人类只需一分钟的任务，智能体可能需要消耗数千个 Token；而一小时的任务则可能消耗数百万个 Token。

这在当前的测试中造成了一个巨大的盲点。例如，AISI 的网络安全任务“The Last Ones”大约需要 20 小时的人类专业知识。该研究所测试的所有模型，在消耗少于 3000 万 Token 的情况下都无法解决此任务。通过使用标准的、低预算的评估方法，研究人员实际上将最复杂、最关键的任务排除在了测量过程之外。

进步的加速与提升的三个维度

AISI 指出，前沿模型的“时间跨度”（time horizon）——即它们能够处理的任务复杂度——正在以比此前预想快得多的速度扩张。早期的估计认为，在 250 万 Token 的固定预算下，网络安全任务的时间跨度每 4.7 个月翻一倍；但在更高的预算下，这一速度会显著加快。在 5000 万 Token 的预算下，翻倍速度加快到每 40 到 50 天一次。

较新的模型（如测试的 GPT 和 Claude 系列）在三个特定维度上表现出进步：

覆盖范围 (Reach)： 处理日益困难的任务的能力。
可靠性 (Reliability)： 更一致地解决同一任务的能力。
效率 (Efficiency)： 使用更少 Token 解决任务的能力。

对 AI 安全与部署的影响

这项研究将 AI 评估的范式从“固定分数”转向了“计算感知曲线”（compute-aware curves）。对于开发者和创始人而言，这意味着模型的效用不仅取决于其训练过程，还取决于部署期间分配了多少推理计算量。

随着单个 Token 成本的持续下降，此前在经济上看似不可行的能力将成为标准配置。对于 AI 安全和安全保障而言，这意味着如果监管机构和公司依赖传统的低预算基准测试，那么与自主智能体相关的风险（如复杂的网络攻击）可能会被严重低估。

核心要点

基准测试具有误导性： 固定的 Token 预算捕捉的是模型的最低性能，系统性地低估了 AI 智能体所能达到的上限。
计算量扩展能力： 随着测试时计算预算的增加，软件工程和数学领域的成功率会大幅跃升。
“翻倍”速度正在加快： 在更高的计算预算下，前沿模型掌握复杂任务的速度比此前估计的要快得多。

为什么标准 AI 基准测试会系统性地低估智能体能力

为什么标准 AI 基准测试会系统性地低估智能体能力

计算-能力曲线

人类与 AI 任务时间的幂律关系

进步的加速与提升的三个维度

对 AI 安全与部署的影响

核心要点

继续阅读

导致 AI Agent 失效的 7 个错误

导致 AI Agent 失效的 7 个致命错误

AI Agent 评估过早结束

智能体 AI 的兴起：为什么技术团队正在引领自动化前沿

为什么前沿 AI 模型无法通过金融分诊测试