共有された記録がなければ、AIによるインシデント管理は破綻する

AIエージェントがインシデント対応の領域に参入しています。

LangChain、PagerDuty、New Relicといった企業は、SREエージェントを構築しています。これらのツールはトレースを読み取り、ログを抽出し、アップデートのドラフトを作成できます。それらは迅速に動作し、優れたコンテキストを提供します。

しかし、落とし穴があります。

多くのチームは、AIのコンテキストを自分たちだけの「メモ帳」のように扱っています。根本原因の特定といった緩和作業にはAIを利用しますが、調整作業(コーディネーション)を忘れてしまうのです。

インシデント管理は、単に原因を見つけることではありません。それは「調整」です。人々が以下の事項について合意形成を図ることなのです:

  • 何が起きたのか。
  • 何が変わったのか。
  • 何を除外したのか。
  • 次のステップの担当者は誰か。
  • ビジネス側が何を把握すべきか。

もしこれらの情報がプライベートなチャットやエージェントのメモの中に留まってしまうなら、プロセスは失敗します。

有用なAIインシデント記録は、単なるチャットログではありません。それは構造化された「運用オブジェクト」であるべきです。以下の内容を含める必要があります:

  • トリガー(アラート、サービス、重要度)。
  • エビデンス(トレース、ログ、メトリクス、最近のデプロイ)。
  • 仮説(何が起きていると考えているか、およびその理由)。
  • 棄却された理論(原因ではないと証明されたこと)。
  • 決定と承認(なぜロールバックを選択したのか、あるいは待機することにしたのか)。

この構造は、AIにありがちな失敗を防ぎます。エージェントは「重力の井戸(gravity well)」のようになることがあります。もっともらしい原因を見つけると、そこに固執してしまいます。そして、その一つの理論を裏付けるために、すべての新しいデータを解釈しようとしてしまうのです。

共有された構造化された記録は、チームに「反証となるエビデンス」に目を向けさせます。これにより、エージェントのバイアスを抑制できます。

対応者に必要なのは、さらなるノイズではありません。「共有された状態(shared state)」です。新しいメンバーがインシデントに加わったとき、Slackを5分間も遡って探し回るようなことがあってはなりません。現在の仮説、エビデンス、そして保留中のアクションを即座に把握できるべきです。

目指すべきは、派手なデモを見せる自律型レスポンダーではありません。組織知(institutional knowledge)を残せるツールです。

最も賢いモデルを探すのはやめましょう。構造化された記録の構築を始めましょう。

  • インシデントのための明確なフィールドを定義する。
  • エージェントがこの記録を安全に読み書きできるようにする。
  • データだけでなく、決定事項を記録するようにする。
  • インシデントの混乱を、再利用可能な知識へと変えるために記録を活用する。

最良のAIツールとは、人間のチームを「一つの組織」として動かせるツールのことです。

Source: https://dev.to/focused_dot_io/ai-incident-management-breaks-without-a-shared-record-focused-labs-1og5

Optional learning community: https://t.me/GyaanSetuAi