مدیریت حوادث مبتنی بر هوش مصنوعی بدون یک سابقه مشترک با شکست مواجه میشود
عوامل هوش مصنوعی (AI agents) در حال ورود به حوزه پاسخگویی به حوادث هستند.
شرکتهایی مانند LangChain، PagerDuty و New Relic در حال ساخت SRE agents هستند. این ابزارها میتوانند ردپاها (traces) را بخوانند، لاگها را استخراج کنند و پیشنویس بهروزرسانیها را تهیه کنند. آنها سریع عمل میکنند و بافت (context) بسیار خوبی ارائه میدهند.
اما یک تله وجود دارد.
بسیاری از تیمها، بافت (context) هوش مصنوعی را مانند یک یادداشت خصوصی در نظر میگیرند. آنها از هوش مصنوعی برای کارهای کاهش اثر (mitigation)، مانند یافتن علت اصلی (root cause) استفاده میکنند، اما کار هماهنگی را فراموش میکنند.
مدیریت حادثه فقط یافتن علت نیست؛ بلکه درباره هماهنگی است. درباره رساندن افراد به توافق بر سر موارد زیر است:
- چه اتفاقی افتاده است.
- چه چیزی تغییر کرده است.
- چه مواردی را رد کردهاید.
- مسئول مرحله بعدی کیست.
- کسبوکار نیاز به شنیدن چه چیزی دارد.
اگر این اطلاعات در یک چت خصوصی یا یادداشتهای یک عامل (agent) باقی بماند، فرآیند شکست میخورد.
یک سابقه مفید برای حوادث هوش مصنوعی، صرفاً یک لاگ چت نیست؛ بلکه یک شیء عملیاتی ساختاریافته است. این سابقه باید شامل موارد زیر باشد:
- محرک (هشدار، سرویس، شدت).
- شواهد (ردپاها، لاگها، متریکها، استقرارهای اخیر).
- فرضیهها (آنچه فکر میکنید در حال رخ دادن است و دلیل آن).
- تئوریهای رد شده (آنچه ثابت کردهاید علت نیست).
- تصمیمات و تأییدیهها (چرا تصمیم به بازگشت به نسخه قبل یا انتظار گرفتید).
این ساختار از یک شکست رایج در هوش مصنوعی جلوگیری میکند. یک عامل میتواند به یک «چاه گرانشی» (gravity well) تبدیل شود؛ یعنی یک علت محتمل را پیدا کند و روی آن قفل شود. سپس تمام دادههای جدید را به گونهای تفسیر میکند که از همان یک تئوری حمایت کند.
یک سابقه مشترک و ساختاریافته، تیم را مجبور میکند به شواهد خلافِ فرضیه نیز نگاه کند. این کار سوگیری (bias) عامل را کنترل میکند.
پاسخدهندگان به نویز بیشتر نیاز ندارند، بلکه به یک وضعیت مشترک (shared state) نیاز دارند. وقتی فرد جدیدی به مدیریت یک حادثه میپیوندد، نباید پنج دقیقه وقت خود را صرف جستجو در Slack کند. او باید بلافاصله فرضیه فعلی، شواهد و اقدامات در انتظار را مشاهده کند.
هدف، داشتن یک پاسخدهنده خودکار با یک دموی پرزرقوبرق نیست. هدف، ابزاری است که دانش سازمانی (institutional knowledge) از خود به جای بگذارد.
به دنبال هوشمندترین مدل نگردید؛ ساختن یک سابقه ساختاریافته را شروع کنید.
- فیلدهای مشخصی برای حوادث تعریف کنید.
- اجازه دهید عوامل به صورت ایمن در این سابقه بخوانند و بنویسند.
- اطمینان حاصل کنید که سابقه، تصمیمات را ثبت میکند، نه فقط دادهها را.
- از این سابقه برای تبدیل آشفتگی حادثه به دانش قابل استفاده مجدد استفاده کنید.
بهترین ابزار هوش مصنوعی ابزاری است که باعث میشود تیم انسانی مانند یک واحد منسجم عمل کند.
Optional learning community: https://t.me/GyaanSetuAi
