什么是多智能体 SRE?
SRE 团队想要使用 AI。大多数团队之所以失败,是因为他们将 AI 视为单一工具。相反,你应该将 AI 视为一个智能体团队。
在生产环境中,仅靠一个大型模型来处理故障是行不通的。其失败原因有三点:
- 上下文限制。真实的故障包含的数据量太大,单个提示词(prompt)无法处理。
- 缺乏专业化。检测、分诊和修复是不同的工作。单个提示词无法同时出色地完成这三项任务。
- 信任问题。你无法审计单个不透明的模型。你无法暂停它,也无法将其部分工作交给人工处理。
多智能体系统将故障生命周期分解为多个专家。
• 检测智能体(Detection agent)。监控信号并识别故障。 • 关联智能体(Correlation agent)。对相关告警进行分组并消除噪音。 • 调查智能体(Investigation agent)。检查日志和链路追踪(traces)以寻找根本原因。 • 修复智能体(Remediation agent)。提出可逆的操作并等待你的批准。 • 复盘智能体(Post-mortem agent)。起草时间线和待办事项供你编辑。
每个智能体负责一项特定的任务。它们相互传递结构化数据。这种结构带来了三个好处:
- 有界上下文(Bounded context)。智能体仅查看其所需的数据,从而保持高质量。
- 可检查的衔接点(Inspectable seams)。你可以准确地看到任何智能体的决策过程。
- 人工接管(Human takeover)。你可以在任何环节介入并继续工作。
注意两个常见的错误。
首先,避免“话痨型”智能体。不要让智能体通过共享聊天记录进行交流。使用类型化产物(typed artifacts)来防止循环和信息陈旧。
其次,限制权限。不要给每个智能体相同的凭据。限制每个智能体的操作范围以防止错误。
如果你想开始尝试,可以从关联智能体开始。它是只读的,风险较低。一旦运行成功,再添加调查智能体。接着添加检测智能体。最后添加修复智能体。
循序渐进。你需要一个在凌晨 3 点也能让你信任的系统。
作者:Dr. Samson Tanimawo
来源:https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj
可选学习社区:https://t.me/GyaanSetuAi