智能体 AI 投资回报率的无声杀手

Translated for your language. 阅读原文.

AI-assisted draft.

代理式 AI ROI 的隐形杀手

你的 Kubernetes pod 运行正常。你的 API 延迟很低。你的 LLM 提供商显示 99.9% 的可用性。

然而，你的自动化贷款系统在三小时内就烧光了整个月的 API 预算。两个 Agent 陷入了死循环。

这就是“健康但幻觉”悖论。

在传统软件中，系统要么在线，要么离线。在代理网格（Agentic mesh）中，系统看起来很健康，但可能完全失效。如果你对 Agent 使用标准的站点可靠性工程（SRE），你监控的信号是错误的。你正在测量一个功能性脑死亡患者的心跳。

为什么标准基础设施无法防止代理崩溃（Agentic collapse）？

传统的 SRE 是为确定性系统构建的。当服务失败时，它会抛出错误。它是二元的。Agent 的失败则不同。Agent 不会崩溃，它会“漂移”（drift）。它不会超时，它会幻觉出一个参数，导致后续步骤发生隐形失败。

我们在从单体 Bot 向企业级代理架构（Agent fabrics）转型的过程中看到了这种差距。团队报告基准测试准确率为 95%，但系统在生产环境中失败了。基准测试衡量的是模型能否回答问题，而不是衡量一个涉及四个 Agent 的 12 步工作流系统能否维持状态。

你需要代理可靠性工程（Agent Reliability Engineering, ARE）。

传统的 SRE 管理二元状态。ARE 管理概率分布。如果你只追踪 CPU 和内存，你对 Agent 的失败将视而不见。

多 Agent 系统中的错误不会简单地累加，而是会成倍增加。因为 Agent 会将其他 Agent 的输出视为事实，第一步中的微小错误在第五步时就会演变成一场灾难。

常见的失败模式包括：

一个危险的例子：一个 Agent 调用了一个更新工具。它虚构了一个不存在的参数。API 忽略了多余的参数并返回了 200 OK。Agent 认为它成功了，但业务逻辑却在无声无息中失败了。

ARE 专注于“意图-行动-结果”（intent-action-outcome）循环。你不仅要监控 Agent 是否调用了工具，还要监控该调用是否符合原始意图，以及结果是否达到了目标。

代理可靠性工程师（ARE）的角色负责：

不要再谈论准确率了。开始谈论系统可靠性（System Dependability）。

你可以通过量化人工干预的成本向 CFO 证明其合理性。每当人工修复一次 Agent 的错误，那就是一次可靠性失败。将这些工时乘以专家的薪资，不可靠带来的成本便一目了然。

使用代理错误预算（Agentic Error Budgets）。对于一个简单的邮件摘要器，你的错误预算可以很高。但对于一个转账 1000 万美元的系统，你的错误预算必须为零。

不要把 AI 当作一个软件功能。要把它当作一种系统性风险。这个时代的赢家拥有的不会是模型最聪明的公司，而是拥有最可靠系统的公司。

Optional learning community: https://t.me/GyaanSetuAi