什么是多智能体 SRE?

SRE 团队想要使用 AI。大多数团队之所以失败,是因为他们将 AI 视为单一工具。相反,你应该将 AI 视为一个智能体团队。

在生产环境中,仅靠一个大型模型来处理故障是行不通的。其失败原因有三点:

多智能体系统将故障生命周期分解为多个专家。

• 检测智能体(Detection agent)。监控信号并识别故障。 • 关联智能体(Correlation agent)。对相关告警进行分组并消除噪音。 • 调查智能体(Investigation agent)。检查日志和链路追踪(traces)以寻找根本原因。 • 修复智能体(Remediation agent)。提出可逆的操作并等待你的批准。 • 复盘智能体(Post-mortem agent)。起草时间线和待办事项供你编辑。

每个智能体负责一项特定的任务。它们相互传递结构化数据。这种结构带来了三个好处:

注意两个常见的错误。

首先,避免“话痨型”智能体。不要让智能体通过共享聊天记录进行交流。使用类型化产物(typed artifacts)来防止循环和信息陈旧。

其次,限制权限。不要给每个智能体相同的凭据。限制每个智能体的操作范围以防止错误。

如果你想开始尝试,可以从关联智能体开始。它是只读的,风险较低。一旦运行成功,再添加调查智能体。接着添加检测智能体。最后添加修复智能体。

循序渐进。你需要一个在凌晨 3 点也能让你信任的系统。

作者:Dr. Samson Tanimawo

来源:https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj

可选学习社区:https://t.me/GyaanSetuAi