代理式 AI ROI 的隐形杀手

你的 Kubernetes pod 运行正常。你的 API 延迟很低。你的 LLM 提供商显示 99.9% 的可用性。

然而,你的自动化贷款系统在三小时内就烧光了整个月的 API 预算。两个 Agent 陷入了死循环。

这就是“健康但幻觉”悖论。

在传统软件中,系统要么在线,要么离线。在代理网格(Agentic mesh)中,系统看起来很健康,但可能完全失效。如果你对 Agent 使用标准的站点可靠性工程(SRE),你监控的信号是错误的。你正在测量一个功能性脑死亡患者的心跳。

为什么标准基础设施无法防止代理崩溃(Agentic collapse)?

传统的 SRE 是为确定性系统构建的。当服务失败时,它会抛出错误。它是二元的。Agent 的失败则不同。Agent 不会崩溃,它会“漂移”(drift)。它不会超时,它会幻觉出一个参数,导致后续步骤发生隐形失败。

我们在从单体 Bot 向企业级代理架构(Agent fabrics)转型的过程中看到了这种差距。团队报告基准测试准确率为 95%,但系统在生产环境中失败了。基准测试衡量的是模型能否回答问题,而不是衡量一个涉及四个 Agent 的 12 步工作流系统能否维持状态。

你需要代理可靠性工程(Agent Reliability Engineering, ARE)。

传统的 SRE 管理二元状态。ARE 管理概率分布。如果你只追踪 CPU 和内存,你对 Agent 的失败将视而不见。

多 Agent 系统中的错误不会简单地累加,而是会成倍增加。因为 Agent 会将其他 Agent 的输出视为事实,第一步中的微小错误在第五步时就会演变成一场灾难。

常见的失败模式包括:

  • Agent 无限循环
  • 状态漂移
  • 提示词注入级联
  • 工具调用幻觉

一个危险的例子:一个 Agent 调用了一个更新工具。它虚构了一个不存在的参数。API 忽略了多余的参数并返回了 200 OK。Agent 认为它成功了,但业务逻辑却在无声无息中失败了。

ARE 专注于“意图-行动-结果”(intent-action-outcome)循环。你不仅要监控 Agent 是否调用了工具,还要监控该调用是否符合原始意图,以及结果是否达到了目标。

代理可靠性工程师(ARE)的角色负责:

  • 意图分析:检测 Agent 何时偏离目标。
  • 护栏微调:调整约束条件以停止循环。
  • 可靠性映射:决定何时必须将任务移交给人工。
  • 审计架构:捕获内部推理过程和状态变化。

不要再谈论准确率了。开始谈论系统可靠性(System Dependability)。

你可以通过量化人工干预的成本向 CFO 证明其合理性。每当人工修复一次 Agent 的错误,那就是一次可靠性失败。将这些工时乘以专家的薪资,不可靠带来的成本便一目了然。

使用代理错误预算(Agentic Error Budgets)。对于一个简单的邮件摘要器,你的错误预算可以很高。但对于一个转账 1000 万美元的系统,你的错误预算必须为零。

不要把 AI 当作一个软件功能。要把它当作一种系统性风险。这个时代的赢家拥有的不会是模型最聪明的公司,而是拥有最可靠系统的公司。

Source: https://dev.to/omnithium/the-silent-killer-of-agentic-ai-roi-why-multi-agent-reliability-needs-a-new-sre-discipline-5h7e

Optional learning community: https://t.me/GyaanSetuAi