在 LLM 基准测试时代评估智能体 AI

大多数 AI 测试都遵循一个简单的模式:给模型一个提示词,将答案与参考答案进行对比,然后对结果进行评分。

这适用于摘要任务,也适用于分类任务。但当模型必须在不断变化的环境中采取行动时,这种方法就失效了。

《The Age of LLM》论文引入了一种更好的方法。这是一种在网格上的 1v1 游戏。两个模型在“战争迷雾”下进行竞争。它们无法看到一切,必须通过侦察或猜测来寻找敌方单位。它们还必须通过外交手段来提出交易或最后通牒。

每一个动作都必须遵循严格的 JSON schema。如果动作非法,系统会将其丢弃。

该测试衡量以下特定技能:

  • 状态追踪:模型是否记得它看到了什么以及失去了什么?
  • 信念管理:在信息不完整的情况下,它能否做出合理的行动?
  • 动作有效性:它是否遵循环境规则?
  • 长程策略:它能否选择一组能达成目标的动作序列?

模型听起来可能很流利,但在实践中可能会失败。它可能会忘记自身状态,或者发出无效的工具调用。

结果呈现出一种模式。许多模型在不确定性面前会陷入简单的陷阱。大多数模型选择了激进的军事行动。虽然发生了外交行为,但协议很少能最终达成。许多错误源于糟糕的状态追踪。

标准基准测试忽略了这些失败。一个模型可以写出精彩的解释,却无法追踪一个隐藏单位。只有当环境迫使模型采取行动时,你才会发现这个问题。

当前的 AI 研究通常侧重于工具使用。工具使用是必要的,但仅靠它是不够的。一个真正的智能体必须能够维持上下文,并在情况发生变化时进行恢复。

行业正在从关注对话质量转向关注结果。衡量有用系统的标准是它们是否完成了工作,而不是它们产出了多少文采斐然的散文。

如果一个智能体无法维持信念状态,它就不具备战略性。如果它无法遵循 schema,它的工具使用就是脆弱的。

真正的智能体能力需要两点:

  1. 规划能力。
  2. 在不确定性下执行的能力。

在软件中,错误的输出是一个 bug。在 AI 智能体中,错误的输出通常是一种“静默失败”。一个工具调用毫无作用,或者一个隐藏的假设是错误的。如果你只对最终答案进行评分,你就会错过问题所在。

我们必须测试:

  • 部分可观测性
  • 隐藏状态
  • 长程协调
  • 动作有效性
  • 从错误中恢复

评估必须更接近这些系统在现实世界中的工作方式。

Source: https://dev.to/prabhakar_chaudhary_7afe4/what-the-age-of-llm-benchmark-says-about-evaluating-agentic-ai-2hfc

Optional learning community: https://t.me/GyaanSetuAi