マルチエージェントSREとは何か?
SREチームはAIを活用したいと考えています。しかし、ほとんどのチームはAIを単一のツールとして扱ってしまうため、失敗に終わります。AIは、エージェントの「チーム」として扱うべきです。
インシデントに対して一つの巨大なモデルを投入する手法は、本番環境では失敗します。それには3つの理由があります。
- コンテキストの制限。実際のインシデントには、一つのプロンプトで処理するには多すぎるデータが含まれています。
- 専門性の欠如。検知、トリアージ、修復はそれぞれ異なる業務です。一つのプロンプトでこれらすべてを高い精度で行うことはできません。
- 信頼性の問題。中身の不透明な単一のモデルを監査することはできません。また、モデルの動作を一時停止したり、作業の一部を人間に引き継いだりすることもできません。
マルチエージェントシステムは、インシデントのライフサイクルを専門家(スペシャリスト)に分割します。
• 検知エージェント (Detection agent)。シグナルを監視し、インシデントを特定します。 • 相関エージェント (Correlation agent)。関連するアラートをグループ化し、ノイズを除去します。 • 調査エージェント (Investigation agent)。ログやトレースを確認して根本原因を特定します。 • 修復エージェント (Remediation agent)。元に戻せるアクションを提案し、承認を待ちます。 • ポストモーテム・エージェント (Post-mortem agent)。タイムラインやアクションアイテムのドラフトを作成し、ユーザーが編集できるようにします。
各エージェントは、一つの限定的なタスクを担当します。エージェント同士は構造化されたデータをやり取りします。この構造には3つの利点があります。
- 境界づけられたコンテキスト (Bounded context)。エージェントは必要なデータのみを参照します。これにより、品質が維持されます。
- 検査可能な境界 (Inspectable seams)。各エージェントが何を決定したのかを正確に把握できます。
- 人間による引き継ぎ (Human takeover)。どの時点でも介入して、作業を継続することができます。
2つのよくある間違いに注意してください。
第一に、「おしゃべりすぎるエージェント」を避けることです。共有されたチャット履歴を通じてエージェント同士に会話をさせないでください。ループや情報の陳腐化を防ぐために、型定義されたアーティファクト (typed artifacts) を使用しましょう。
第二に、権限を制限することです。すべてのエージェントに同じ認証情報を与えないでください。エラーを防ぐために、各エージェントができることを制限しましょう。
導入を始めるなら、まずは相関エージェントから始めてください。これは読み取り専用であり、リスクが低いです。それが機能するようになったら、調査エージェントを追加します。次に検知エージェント、最後に修復エージェントを追加します。
ゆっくりと構築しましょう。目指すべきは、午前3時でも信頼できるシステムです。
著者:Dr. Samson Tanimawo
出典:https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj
オプションの学習コミュニティ:https://t.me/GyaanSetuAi