マルチエージェントSREとは何か?

SREチームはAIを活用したいと考えています。しかし、ほとんどのチームはAIを単一のツールとして扱ってしまうため、失敗に終わります。AIは、エージェントの「チーム」として扱うべきです。

インシデントに対して一つの巨大なモデルを投入する手法は、本番環境では失敗します。それには3つの理由があります。

マルチエージェントシステムは、インシデントのライフサイクルを専門家(スペシャリスト)に分割します。

• 検知エージェント (Detection agent)。シグナルを監視し、インシデントを特定します。 • 相関エージェント (Correlation agent)。関連するアラートをグループ化し、ノイズを除去します。 • 調査エージェント (Investigation agent)。ログやトレースを確認して根本原因を特定します。 • 修復エージェント (Remediation agent)。元に戻せるアクションを提案し、承認を待ちます。 • ポストモーテム・エージェント (Post-mortem agent)。タイムラインやアクションアイテムのドラフトを作成し、ユーザーが編集できるようにします。

各エージェントは、一つの限定的なタスクを担当します。エージェント同士は構造化されたデータをやり取りします。この構造には3つの利点があります。

2つのよくある間違いに注意してください。

第一に、「おしゃべりすぎるエージェント」を避けることです。共有されたチャット履歴を通じてエージェント同士に会話をさせないでください。ループや情報の陳腐化を防ぐために、型定義されたアーティファクト (typed artifacts) を使用しましょう。

第二に、権限を制限することです。すべてのエージェントに同じ認証情報を与えないでください。エラーを防ぐために、各エージェントができることを制限しましょう。

導入を始めるなら、まずは相関エージェントから始めてください。これは読み取り専用であり、リスクが低いです。それが機能するようになったら、調査エージェントを追加します。次に検知エージェント、最後に修復エージェントを追加します。

ゆっくりと構築しましょう。目指すべきは、午前3時でも信頼できるシステムです。

著者:Dr. Samson Tanimawo

出典:https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj

オプションの学習コミュニティ:https://t.me/GyaanSetuAi