ヒューマン・イン・ザ・ループ SRE
自動化は人間よりも速く動く。
2021年、Fastlyの設定変更が世界的なアウトレージ(停止)を引き起こした。自動化によって、そのエラーは1分足らずで拡散した。人間がそれを修正するのに要した時間は49分だった。
これこそが、AI支援型SREの核心的な課題である。AIは人間には到底及ばないスピードで問題を検出し、修正することができる。危険なのはテクノロジーそのものではない。危険なのは、自動化されたアクションと人間の責任(アカウンタビリティ)との間に生じるスピードのギャップである。
自動化が終了し、人間の判断が始まる境界線を定義するために、エスカレーションポリシーを設計しなければならない。
AIを管理するために、「自動化自律性スペクトラム(Automation Autonomy Spectrum)」を活用せよ:
• レベル 0 (Manual): AIは一切の支援を行わない。人間がすべてを行う。 • レベル 1 (Assisted): AIがコンテキストを提供する。決定はすべて人間が行う。 • レベル 2 (Supervised): AIがアクションを提案する。人間がそれぞれを承認しなければならない。 • レベル 3 (Conditional): AIが設定されたルール内で動作する。人間には通知が届く。 • レベル 4 (Autonomous): AIが単独で動作し、検証まで行う。
自動化を永遠にレベル 4 のまま放置してはならない。システムは変化する。根本的な問題が変化すれば、今日機能している自動化が明日には危険なものになる可能性がある。すべての自律的なアクションを定期的にレビューする必要がある。
以下の4つのトリガーが発生した場合は、自動化から人間の監視へと切り替えよ:
- 低い信頼度 (Low Confidence): AIが自身の診断に確信を持てていない。
- 広い影響範囲 (High Blast Radius): そのアクションが多すぎるサービスやユーザーに影響を与える。
- 新規性 (Novelty): 障害パターンが未知のものであり、AIが経験したことがない。
- 規制 (Regulation): アクションが保護対象のシステムやコンプライアンスに関わるシステムに及ぶ。
「AIが決めたことだ」を言い訳にしてはならない。すべてのアクションは、人間またはリーダーシップによって承認されたポリシーに紐付けられていなければならない。
自動化を有効にする前に、ポリシーを構築せよ。データを用いて、AIが正確であることを証明せよ。もしAIの誤りが頻発するようなら、直ちにその自律レベルを下げなさい。
Optional learning community: https://t.me/GyaanSetuAi