缺乏共享记录,AI 事件管理将走向崩溃

AI Agent 正在进入事件响应领域。

像 LangChain、PagerDuty 和 New Relic 这样的公司正在构建 SRE Agent。这些工具可以读取 trace、提取日志并起草更新。它们工作迅速,并能提供丰富的上下文。

但其中隐藏着一个陷阱。

许多团队将 AI 上下文视为私有的草稿本。他们利用 AI 进行缓解工作(例如寻找根本原因),却忽略了协调工作。

事件管理不仅仅是寻找原因,更关乎协调。它关乎让团队成员就以下事项达成共识:

  • 发生了什么。
  • 发生了什么变化。
  • 已经排除了哪些可能。
  • 下一步由谁负责。
  • 业务方需要了解什么。

如果这些信息仅停留在私聊或 Agent 的笔记中,整个流程就会失效。

一个有用的 AI 事件记录不是聊天日志,而是一个结构化的运营对象。它必须包含:

  • 触发因素(告警、服务、严重程度)。
  • 证据(trace、日志、指标、最近的部署)。
  • 假设(你认为发生了什么以及原因)。
  • 被否定的理论(你已证明不是原因的事项)。
  • 决策与审批(为什么选择回滚或等待)。

这种结构可以防止一种常见的 AI 失效。Agent 可能会变成一个“引力井”:它发现一个看似合理的诱因后就会深陷其中,随后通过解读所有新数据来支持该单一理论。

共享且结构化的记录会迫使团队去审视反证。它能有效抑制 Agent 的偏见。

响应人员不需要更多的噪音,他们需要的是“共享状态”。当新成员加入事件处理时,他们不应该花五分钟去翻阅 Slack。他们应该能立即看到当前的假设、证据和待办事项。

目标不是做一个演示效果惊艳的自主响应器,而是做一个能留下组织知识的工具。

不要再盲目追求最聪明的模型了,开始构建结构化记录吧。

  • 为事件定义清晰的字段。
  • 让 Agent 能够安全地读取和写入该记录。
  • 确保记录捕捉的是决策,而不仅仅是数据。
  • 利用记录将事件的混乱转化为可复用的知识。

最好的 AI 工具是能让人的团队步调一致的工具。

Source: https://dev.to/focused_dot_io/ai-incident-management-breaks-without-a-shared-record-focused-labs-1og5

Optional learning community: https://t.me/GyaanSetuAi