每个人都在谈论 Prompt。但 Agent 真正失败的地方在于 Loop

Prompt engineering(提示工程)占据了所有的注意力。人们分享 Prompt 并以此自诩聪明。但在我构建的 Agentic Systems(智能体系统)中,导致失败的往往不是 Prompt,而是 Loop(循环)。

一个 Agent 不仅仅是单次的 Prompt 与响应。它是一个循环。

  • 观察状态。
  • 执行动作。
  • 评估结果。
  • 决定继续还是停止。

如果其中任何一个步骤失败,Agent 就会失败。为了研究这一点,我分析了 12 个模型在 1,412 次运行中的表现。以下是 Loop 失败的原因以及修复方法。

常见的 Loop 失败类型:

  • Token Spirals(Token 螺旋):Agent 不断重复自身,消耗过多的 Token。
  • Blind Spots(盲点):Agent 无法感知其环境,从而重复同样的错误。
  • False Success(虚假成功):Agent 给出了错误的答案,却认为自己是正确的。
  • Dead Ends(死胡同):Agent 发现了错误,但无法利用该数据进行改进。

更优质的 Prompt 无法解决这些问题。你需要的是 Loop Engineering(循环工程)。

构建更佳 Loop 的四个设计原则:

  • 限制循环范围:为迭代次数和 Token 数量设置硬性限制。如果 Agent 达到了上限,它必须停止并寻求帮助。
  • 使环境清晰易读:确保“观察”步骤能为 Agent 提供所有事实。如果 Agent 重复失败的动作,说明它缺乏正确的信息。
  • 将执行者与评估者分离:不要让同一个模型检查自己的工作。使用不同的模型或基于规则的检查来判断输出。
  • 闭环处理:利用错误来驱动真正的修复。当循环失败时,添加回归测试以防止再次发生。

我根据这些规则构建了一个名为 RelayOps 的支持 Agent。我们使用了一个独立的裁判来为该 Agent 打分。

有一次,Agent 引用了正确的文章,但未能回答实际的问题。一个简单的基于规则的检查通过了它,但我们的独立评估器发现了问题。我们利用这次失败修复了系统,并添加了测试以防止此类情况再次发生。

Agent 不需要变得更聪明,而是需要更好的 Loop 设计。

不要只盯着 Prompt。要关注结构。

你见过什么样的 Loop 失败?是 Token 螺旋、盲点,还是一个极其自信地犯错的 Agent?

Source: https://dev.to/manideep_patibandla/everyone-talks-about-prompts-the-loop-is-where-agents-actually-fail-1cej

Optional learning community: https://t.me/GyaanSetuAi