在 LLM 基准测试时代评估智能体 AI

Translated for your language. 阅读原文.

AI-assisted draft.

大多数 AI 测试都遵循一个简单的模式：给模型一个提示词，将答案与参考答案进行对比，然后对结果进行评分。

这适用于摘要任务，也适用于分类任务。但当模型必须在不断变化的环境中采取行动时，这种方法就失效了。

《The Age of LLM》论文引入了一种更好的方法。这是一种在网格上的 1v1 游戏。两个模型在“战争迷雾”下进行竞争。它们无法看到一切，必须通过侦察或猜测来寻找敌方单位。它们还必须通过外交手段来提出交易或最后通牒。

每一个动作都必须遵循严格的 JSON schema。如果动作非法，系统会将其丢弃。

该测试衡量以下特定技能：

模型听起来可能很流利，但在实践中可能会失败。它可能会忘记自身状态，或者发出无效的工具调用。

结果呈现出一种模式。许多模型在不确定性面前会陷入简单的陷阱。大多数模型选择了激进的军事行动。虽然发生了外交行为，但协议很少能最终达成。许多错误源于糟糕的状态追踪。

标准基准测试忽略了这些失败。一个模型可以写出精彩的解释，却无法追踪一个隐藏单位。只有当环境迫使模型采取行动时，你才会发现这个问题。

当前的 AI 研究通常侧重于工具使用。工具使用是必要的，但仅靠它是不够的。一个真正的智能体必须能够维持上下文，并在情况发生变化时进行恢复。

行业正在从关注对话质量转向关注结果。衡量有用系统的标准是它们是否完成了工作，而不是它们产出了多少文采斐然的散文。

如果一个智能体无法维持信念状态，它就不具备战略性。如果它无法遵循 schema，它的工具使用就是脆弱的。

真正的智能体能力需要两点：

在软件中，错误的输出是一个 bug。在 AI 智能体中，错误的输出通常是一种“静默失败”。一个工具调用毫无作用，或者一个隐藏的假设是错误的。如果你只对最终答案进行评分，你就会错过问题所在。

我们必须测试：

评估必须更接近这些系统在现实世界中的工作方式。

Optional learning community: https://t.me/GyaanSetuAi

继续阅读