共有された記録がなければ、AIインシデント管理は機能不全に陥る

Translated for your language. 原文を読む.

AI-assisted draft.

共有された記録がなければ、AIによるインシデント管理は破綻する

AIエージェントがインシデント対応の領域に参入しています。

LangChain、PagerDuty、New Relicといった企業は、SREエージェントを構築しています。これらのツールはトレースを読み取り、ログを抽出し、アップデートのドラフトを作成できます。それらは迅速に動作し、優れたコンテキストを提供します。

しかし、落とし穴があります。

多くのチームは、AIのコンテキストを自分たちだけの「メモ帳」のように扱っています。根本原因の特定といった緩和作業にはAIを利用しますが、調整作業（コーディネーション）を忘れてしまうのです。

インシデント管理は、単に原因を見つけることではありません。それは「調整」です。人々が以下の事項について合意形成を図ることなのです：

もしこれらの情報がプライベートなチャットやエージェントのメモの中に留まってしまうなら、プロセスは失敗します。

有用なAIインシデント記録は、単なるチャットログではありません。それは構造化された「運用オブジェクト」であるべきです。以下の内容を含める必要があります：

この構造は、AIにありがちな失敗を防ぎます。エージェントは「重力の井戸（gravity well）」のようになることがあります。もっともらしい原因を見つけると、そこに固執してしまいます。そして、その一つの理論を裏付けるために、すべての新しいデータを解釈しようとしてしまうのです。

共有された構造化された記録は、チームに「反証となるエビデンス」に目を向けさせます。これにより、エージェントのバイアスを抑制できます。

対応者に必要なのは、さらなるノイズではありません。「共有された状態（shared state）」です。新しいメンバーがインシデントに加わったとき、Slackを5分間も遡って探し回るようなことがあってはなりません。現在の仮説、エビデンス、そして保留中のアクションを即座に把握できるべきです。

目指すべきは、派手なデモを見せる自律型レスポンダーではありません。組織知（institutional knowledge）を残せるツールです。

最も賢いモデルを探すのはやめましょう。構造化された記録の構築を始めましょう。

最良のAIツールとは、人間のチームを「一つの組織」として動かせるツールのことです。

Optional learning community: https://t.me/GyaanSetuAi