AI Agent 在专家级任务中得分仅为 0%
AI Agent 在专家级任务中失败了。
ALE 基准测试针对专业工作对顶尖模型进行了测试。这些任务需要真正的专业知识,而不仅仅是总结 PDF 这样简单的任务。
结果显而易见。像 Fable 5 和 GPT-5.5 这样的模型在最难的专家级问题上得分均为 0%。掷硬币的表现可能都比它们好。
在中级任务上的表现也很低。表现最好的 Agent 成功率也仅为 15% 到 21%。
AI Agent 并不像炒作所说的那样强大。
你会看到 Agent 预订航班或编写代码的视频。这些演示看起来很棒,但演示是经过精心策划的,而基准测试则不然。
演示与实际部署之间存在巨大的鸿沟。许多团队基于尚不存在的能力做出产品决策。他们计划让 Agent 管理整个工作流,这是一个错误。
以下是数据所显示的情况:
- Agent 作为中级任务的助手表现良好。
- 专家级的自主性尚未实现。
- 基准测试比演示更可靠。
如果你今天使用 Agent 进行开发,请针对它们目前的局限性进行构建。不要针对演讲者承诺的“即将到来”的功能进行构建。
行业忽视了这些结果。人们继续基于炒作而非数据来制定路线图。
如果你在产品中使用 Agent,请像对待初级开发人员一样对待它们。它们可以处理规则明确的小任务,但在没有监督的情况下,处理复杂工作时会失败。
请遵循以下规则:
- 在高风险工作中保持人工参与(Human-in-the-loop)。
- 给 Agent 非常狭窄的任务。
- 根据你的实际工作量来衡量性能。
务实的方法不如炒作贴那么有趣,但它能带来可运行的软件。
Agent 是工具,而不是自主的劳动力。请面向现实进行构建。
你见过团队试图交付的最被过度炒作的 Agent 能力是什么?请在下方分享你的故事。
Source: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1
Optional learning community: https://t.me/GyaanSetuAi