缺乏共享记录,AI 事件管理将走向崩溃
AI Agent 正在进入事件响应领域。
像 LangChain、PagerDuty 和 New Relic 这样的公司正在构建 SRE Agent。这些工具可以读取 trace、提取日志并起草更新。它们工作迅速,并能提供丰富的上下文。
但其中隐藏着一个陷阱。
许多团队将 AI 上下文视为私有的草稿本。他们利用 AI 进行缓解工作(例如寻找根本原因),却忽略了协调工作。
事件管理不仅仅是寻找原因,更关乎协调。它关乎让团队成员就以下事项达成共识:
- 发生了什么。
- 发生了什么变化。
- 已经排除了哪些可能。
- 下一步由谁负责。
- 业务方需要了解什么。
如果这些信息仅停留在私聊或 Agent 的笔记中,整个流程就会失效。
一个有用的 AI 事件记录不是聊天日志,而是一个结构化的运营对象。它必须包含:
- 触发因素(告警、服务、严重程度)。
- 证据(trace、日志、指标、最近的部署)。
- 假设(你认为发生了什么以及原因)。
- 被否定的理论(你已证明不是原因的事项)。
- 决策与审批(为什么选择回滚或等待)。
这种结构可以防止一种常见的 AI 失效。Agent 可能会变成一个“引力井”:它发现一个看似合理的诱因后就会深陷其中,随后通过解读所有新数据来支持该单一理论。
共享且结构化的记录会迫使团队去审视反证。它能有效抑制 Agent 的偏见。
响应人员不需要更多的噪音,他们需要的是“共享状态”。当新成员加入事件处理时,他们不应该花五分钟去翻阅 Slack。他们应该能立即看到当前的假设、证据和待办事项。
目标不是做一个演示效果惊艳的自主响应器,而是做一个能留下组织知识的工具。
不要再盲目追求最聪明的模型了,开始构建结构化记录吧。
- 为事件定义清晰的字段。
- 让 Agent 能够安全地读取和写入该记录。
- 确保记录捕捉的是决策,而不仅仅是数据。
- 利用记录将事件的混乱转化为可复用的知识。
最好的 AI 工具是能让人的团队步调一致的工具。
Optional learning community: https://t.me/GyaanSetuAi
