Agentic AI 中的可观测性
传统的微服务已经解决了可观测性问题。链路追踪 (Traces) 展示路径,指标 (Metrics) 展示延迟,日志 (Logs) 讲述故事。
Agentic AI 打破了这一模型。
一个用户问题可能会触发防护栏 (guardrails)、会话读取、多次 LLM 调用、网页搜索和推理循环。故障往往是微妙的。某个工具可能响应缓慢,上下文窗口可能变得过大,或者模型在负载下性能下降却不返回错误。
我最近运行了 OpenTelemetry NBA Agent 演示,以测试我们如何观测这些系统。以下是我在构建可靠 AI 智能体方面的心得。
智能体可观测性的三大支柱
• 链路追踪比单元测试更有价值。同一个提示词在不同运行中可能会产生不同的答案。你必须看到智能体采取的路径,而不仅仅是最终文本。
• 将意图与行动关联起来。一个词的回答适用于天气查询,但对于财务建议则会失败。你需要将防护栏决策和工具使用与用户意图联系起来。
• 及早建立基准。模型更新和 API 变更会改变行为。在部署之前,你需要指标来了解情况是改善了还是恶化了。
测量内容
你不能只监控模型调用。你必须对整个生态系统进行插桩 (instrument)。
模型层 追踪操作名称、供应商详情和 Token 使用情况。监控持续时间和结束原因。
工具和 MCP 服务器 像对待微服务一样对待工具。追踪延迟、成功率和参数。如果智能体响应缓慢,通常是因为外部 API 慢,而不是 LLM。
防护栏 (Guardrails) 测量防护栏触发的频率以及涉及的主题。这有助于向领导层证明安全层成本的合理性。
记忆与会话 关注上下文膨胀。每轮对话中不断增加的输入 Token 数量可能会导致成本剧增。
仪表板的关键指标
• 延迟:首字延迟 (TTFT) 和端到端对话延迟。 • 成本:总 Token 数和每个会话的预估支出。 • 可靠性:按 Span 类型划分的错误率(LLM vs 工具 vs HTTP)。 • 行为:智能体循环深度和工具调用频率。
Agentic AI 是一个规划器具有概率性的分布式系统。如果你看不见完整的智能体循环,你就无法在生产环境中运行它。
Optional learning community: https://t.me/GyaanSetuAi
