AI Agent 在专家级任务中得分仅为 0%

AI Agent 在专家级任务中失败了。

ALE 基准测试针对专业工作对顶尖模型进行了测试。这些任务需要真正的专业知识,而不仅仅是总结 PDF 这样简单的任务。

结果显而易见。像 Fable 5 和 GPT-5.5 这样的模型在最难的专家级问题上得分均为 0%。掷硬币的表现可能都比它们好。

在中级任务上的表现也很低。表现最好的 Agent 成功率也仅为 15% 到 21%。

AI Agent 并不像炒作所说的那样强大。

你会看到 Agent 预订航班或编写代码的视频。这些演示看起来很棒,但演示是经过精心策划的,而基准测试则不然。

演示与实际部署之间存在巨大的鸿沟。许多团队基于尚不存在的能力做出产品决策。他们计划让 Agent 管理整个工作流,这是一个错误。

以下是数据所显示的情况:

  • Agent 作为中级任务的助手表现良好。
  • 专家级的自主性尚未实现。
  • 基准测试比演示更可靠。

如果你今天使用 Agent 进行开发,请针对它们目前的局限性进行构建。不要针对演讲者承诺的“即将到来”的功能进行构建。

行业忽视了这些结果。人们继续基于炒作而非数据来制定路线图。

如果你在产品中使用 Agent,请像对待初级开发人员一样对待它们。它们可以处理规则明确的小任务,但在没有监督的情况下,处理复杂工作时会失败。

请遵循以下规则:

  • 在高风险工作中保持人工参与(Human-in-the-loop)。
  • 给 Agent 非常狭窄的任务。
  • 根据你的实际工作量来衡量性能。

务实的方法不如炒作贴那么有趣,但它能带来可运行的软件。

Agent 是工具,而不是自主的劳动力。请面向现实进行构建。

你见过团队试图交付的最被过度炒作的 Agent 能力是什么?请在下方分享你的故事。

Source: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1

Optional learning community: https://t.me/GyaanSetuAi