AI 智能体在专家级任务中得分 0%

Translated for your language. 阅读原文.

AI-assisted draft.

前天2分钟阅读

AI Agent 在专家级任务中得分仅为 0%

AI Agent 在专家级任务中失败了。

ALE 基准测试针对专业工作对顶尖模型进行了测试。这些任务需要真正的专业知识，而不仅仅是总结 PDF 这样简单的任务。

结果显而易见。像 Fable 5 和 GPT-5.5 这样的模型在最难的专家级问题上得分均为 0%。掷硬币的表现可能都比它们好。

在中级任务上的表现也很低。表现最好的 Agent 成功率也仅为 15% 到 21%。

AI Agent 并不像炒作所说的那样强大。

你会看到 Agent 预订航班或编写代码的视频。这些演示看起来很棒，但演示是经过精心策划的，而基准测试则不然。

演示与实际部署之间存在巨大的鸿沟。许多团队基于尚不存在的能力做出产品决策。他们计划让 Agent 管理整个工作流，这是一个错误。

以下是数据所显示的情况：

如果你今天使用 Agent 进行开发，请针对它们目前的局限性进行构建。不要针对演讲者承诺的“即将到来”的功能进行构建。

行业忽视了这些结果。人们继续基于炒作而非数据来制定路线图。

如果你在产品中使用 Agent，请像对待初级开发人员一样对待它们。它们可以处理规则明确的小任务，但在没有监督的情况下，处理复杂工作时会失败。

请遵循以下规则：

务实的方法不如炒作贴那么有趣，但它能带来可运行的软件。

Agent 是工具，而不是自主的劳动力。请面向现实进行构建。

你见过团队试图交付的最被过度炒作的 Agent 能力是什么？请在下方分享你的故事。

Optional learning community: https://t.me/GyaanSetuAi

继续阅读