𝗠𝗖𝗣 𝗦𝗲𝗿𝘃𝗲𝗿𝘀 𝗠𝗮𝗸𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗨𝘀𝗲𝗳𝘂𝗹 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻
你的 AI 可以编写代码。但它能告诉你你的集群现在是否正在发生故障吗?
直到最近,AI Agent 还是“盲目”的。它们可以编写 Terraform 脚本,但无法看到你的实时指标。它们就像一个没有 VPN 访问权限的聪明工程师。它们依赖于训练数据,而不是你系统的实际状态。
Model Context Protocol (MCP) 改变了这一切。
MCP 是一种开放标准,就像是 AI 的 USB-C 接口。它为模型提供了一种连接实时工具的方式。你的 Agent 不再需要基于旧数据进行猜测,而是可以直接获取实时信息。
这一转变将 AI 从一个文本框转变为你基础设施中的积极参与者。
值得关注的关键 MCP 服务器:
• GitHub:分类处理 Issue、管理 PR 以及检查 CI/CD 状态。 • AWS:查询 EC2、S3 和 IAM 以查找配置错误或成本问题。 • Kubernetes:通过 API 获取实时的 Pod 状态和诊断事件。 • Datadog:在发生故障期间获取实时指标和告警历史。 • Terraform:检查 Plan 并检测状态漂移 (state drift)。 • PagerDuty:查询事件并分析值班模式。 • Vault:在不暴露实际密钥的情况下检查安全策略。
如何在不破坏现有系统的情况下开始使用:
不要一次性安装所有工具。过多的工具会产生噪音并降低模型的响应速度。
请遵循以下框架:
- 从可观测性开始(Datadog 或 Prometheus)。
- 添加基础设施层(AWS 或 Kubernetes)。
- 添加版本控制(GitHub)。
务必始终从只读模式开始。在允许 Agent 执行写操作之前,先让你的团队建立对数据的信任。
SRE 的角色正在发生转变。工作的机械部分——例如告警分类和指标关联——正在移交给 Agent。最有价值的工程师将是那些学会编排 (orchestrate) 这些 Agent 的人。
停止追逐热点。开始解决你实际的瓶颈。
你的团队第一个会使用的 MCP 服务器是什么?
Source: https://dev.to/dev_tips/mcp-servers-just-made-your-ai-agent-actually-useful-in-prod-1glh