什么是多智能体 SRE？

📅2 hours ago⏱2 min read

什么是多智能体 SRE？

SRE 团队想要使用 AI。大多数团队之所以失败，是因为他们将 AI 视为单一工具。相反，你应该将 AI 视为一个智能体团队。

在生产环境中，仅靠一个大型模型来处理故障是行不通的。其失败原因有三点：

上下文限制。真实的故障包含的数据量太大，单个提示词（prompt）无法处理。
缺乏专业化。检测、分诊和修复是不同的工作。单个提示词无法同时出色地完成这三项任务。
信任问题。你无法审计单个不透明的模型。你无法暂停它，也无法将其部分工作交给人工处理。

多智能体系统将故障生命周期分解为多个专家。

• 检测智能体（Detection agent）。监控信号并识别故障。 • 关联智能体（Correlation agent）。对相关告警进行分组并消除噪音。 • 调查智能体（Investigation agent）。检查日志和链路追踪（traces）以寻找根本原因。 • 修复智能体（Remediation agent）。提出可逆的操作并等待你的批准。 • 复盘智能体（Post-mortem agent）。起草时间线和待办事项供你编辑。

每个智能体负责一项特定的任务。它们相互传递结构化数据。这种结构带来了三个好处：

有界上下文（Bounded context）。智能体仅查看其所需的数据，从而保持高质量。
可检查的衔接点（Inspectable seams）。你可以准确地看到任何智能体的决策过程。
人工接管（Human takeover）。你可以在任何环节介入并继续工作。

注意两个常见的错误。

首先，避免“话痨型”智能体。不要让智能体通过共享聊天记录进行交流。使用类型化产物（typed artifacts）来防止循环和信息陈旧。

其次，限制权限。不要给每个智能体相同的凭据。限制每个智能体的操作范围以防止错误。

如果你想开始尝试，可以从关联智能体开始。它是只读的，风险较低。一旦运行成功，再添加调查智能体。接着添加检测智能体。最后添加修复智能体。

循序渐进。你需要一个在凌晨 3 点也能让你信任的系统。

作者：Dr. Samson Tanimawo

来源：https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj

可选学习社区：https://t.me/GyaanSetuAi

什么是多智能体 SRE？

Continue reading

理解具有韧性的 AI 智能体

导致 AI Agent 失效的 7 个错误

为什么 AI Agent 在生产环境中会失败

AI 智能体存在可靠性问题

AI 多智能体系统需要 DevOps 的严谨性