ヒューマン・イン・ザ・ループ SRE

📅4 hours ago⏱1 min read

ヒューマン・イン・ザ・ループ SRE

自動化は人間よりも速く動く。

2021年、Fastlyの設定変更が世界的なアウトレージ（停止）を引き起こした。自動化によって、そのエラーは1分足らずで拡散した。人間がそれを修正するのに要した時間は49分だった。

これこそが、AI支援型SREの核心的な課題である。AIは人間には到底及ばないスピードで問題を検出し、修正することができる。危険なのはテクノロジーそのものではない。危険なのは、自動化されたアクションと人間の責任（アカウンタビリティ）との間に生じるスピードのギャップである。

自動化が終了し、人間の判断が始まる境界線を定義するために、エスカレーションポリシーを設計しなければならない。

AIを管理するために、「自動化自律性スペクトラム（Automation Autonomy Spectrum）」を活用せよ：

• レベル 0 (Manual): AIは一切の支援を行わない。人間がすべてを行う。 • レベル 1 (Assisted): AIがコンテキストを提供する。決定はすべて人間が行う。 • レベル 2 (Supervised): AIがアクションを提案する。人間がそれぞれを承認しなければならない。 • レベル 3 (Conditional): AIが設定されたルール内で動作する。人間には通知が届く。 • レベル 4 (Autonomous): AIが単独で動作し、検証まで行う。

自動化を永遠にレベル 4 のまま放置してはならない。システムは変化する。根本的な問題が変化すれば、今日機能している自動化が明日には危険なものになる可能性がある。すべての自律的なアクションを定期的にレビューする必要がある。

以下の4つのトリガーが発生した場合は、自動化から人間の監視へと切り替えよ：

低い信頼度 (Low Confidence): AIが自身の診断に確信を持てていない。
広い影響範囲 (High Blast Radius): そのアクションが多すぎるサービスやユーザーに影響を与える。
新規性 (Novelty): 障害パターンが未知のものであり、AIが経験したことがない。
規制 (Regulation): アクションが保護対象のシステムやコンプライアンスに関わるシステムに及ぶ。

「AIが決めたことだ」を言い訳にしてはならない。すべてのアクションは、人間またはリーダーシップによって承認されたポリシーに紐付けられていなければならない。

自動化を有効にする前に、ポリシーを構築せよ。データを用いて、AIが正確であることを証明せよ。もしAIの誤りが頻発するようなら、直ちにその自律レベルを下げなさい。

Source: https://dev.to/npayyappilly/the-human-in-the-loop-sre-designing-automation-escalation-policies-for-ai-assisted-operations-2c7f

Optional learning community: https://t.me/GyaanSetuAi

ヒューマン・イン・ザ・ループ SRE

Continue reading

𝗛𝗼𝘄 𝗔𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗦𝗥𝗘 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗧𝗵𝗲 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗥𝘂𝗹𝗲 𝗙𝗼𝗿 𝗦𝗮𝗳𝗲 𝗔𝗜

𝗢𝗯𝘀𝗲𝗿𝘃𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝗔𝗜: 𝗠𝗼𝗻𝗶𝘁𝗼𝗿𝗶𝗻𝗴 𝗶𝘀 𝗡𝗼𝘁 𝗘𝗻𝗼𝘂𝗴𝗵

𝗧𝗵𝗲 𝗨𝗻𝘀𝗲𝗲𝗻 𝗖𝗼𝗻𝘀𝗲𝗾𝘂𝗲𝗻𝗰𝗲𝘀 𝗼𝗳 𝗔𝗜

𝗛𝗼𝘄 𝘁𝗼 𝗘𝘃𝗮𝗹𝘂𝗮𝘁𝗲 𝗔𝗜 𝗦𝗥𝗘 𝗧𝗼𝗼𝗹𝘀