AI Agent 评估过早结束
大多数人认为 AI Agent 的评估在发布时就结束了。他们看到基准测试中的高分,就以为 Agent 已经准备就绪。这是一个误区。
高分往往只意味着 Agent 通过了几个特定的案例。这并不意味着它已经能够应对现实世界。
当前的基准测试存在巨大的差距。对 15 个主要基准测试的审查显示:
- 零个基准测试在评分中包含了安全性(safety)或安保性(security)。
- 零个基准测试包含了成本效率。
- 15 个中有 13 个仅依赖于二元(成功或失败)的结果。
- 没有一个达到 50% 的部署就绪度。
仅测试最终输出是危险的。如果 Agent 给出了正确的答案,看起来像是成功了,但它所采取的路径可能是错误的。
Agent 可能会:
- 使用错误的工具得到了正确的答案。
- 完全跳过了验证步骤。
- 产生事实幻觉(hallucinate facts)但得出了正确的结论。
- 通过不断的重试耗尽你的预算。
如果一个客服 Agent 为错误的账户处理了退款,输出结果看起来没问题,但 Agent 其实已经失败了。
你必须对轨迹(trajectory)进行评分,而不仅仅是答案。
真正的评估必须涵盖以下维度:
- 工具和参数的正确性。
- 事实依据(Grounding)与准确性。
- 成本与延迟。
- 策略与安全性。
- 错误恢复能力。
不要再把评估仅仅当作一份发布报告。要把它视为一个持续的循环。
更好的工作方式:
- 构建能力的公开基准测试。
- 在发布前进行离线测试。
- 实时监控生产环境的追踪(traces)。
- 捕获工具调用、参数和中间决策。
- 利用失败的生产环境追踪来改进你的离线数据集。
评估是一个可观测性(observability)问题。只有当 Agent 的行为与你的业务目标、工具和用户意图保持一致时,它才是成功的。而这些因素每天都在变化。
不要只是存储追踪(traces)。要评估它们。没有评估的追踪存储仅仅是一个搜索问题。没有生产数据的离线评估仅仅是一场表演。
评估的最后一步不应该是一个分数。最后一步应该是下一个追踪。
Source: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa
Optional learning community: https://t.me/GyaanSetuAi
