مدیریت حوادث مبتنی بر هوش مصنوعی بدون یک سابقه مشترک با شکست مواجه می‌شود

عوامل هوش مصنوعی (AI agents) در حال ورود به حوزه پاسخگویی به حوادث هستند.

شرکت‌هایی مانند LangChain، PagerDuty و New Relic در حال ساخت SRE agents هستند. این ابزارها می‌توانند ردپاها (traces) را بخوانند، لاگ‌ها را استخراج کنند و پیش‌نویس به‌روزرسانی‌ها را تهیه کنند. آن‌ها سریع عمل می‌کنند و بافت (context) بسیار خوبی ارائه می‌دهند.

اما یک تله وجود دارد.

بسیاری از تیم‌ها، بافت (context) هوش مصنوعی را مانند یک یادداشت خصوصی در نظر می‌گیرند. آن‌ها از هوش مصنوعی برای کارهای کاهش اثر (mitigation)، مانند یافتن علت اصلی (root cause) استفاده می‌کنند، اما کار هماهنگی را فراموش می‌کنند.

مدیریت حادثه فقط یافتن علت نیست؛ بلکه درباره هماهنگی است. درباره رساندن افراد به توافق بر سر موارد زیر است:

  • چه اتفاقی افتاده است.
  • چه چیزی تغییر کرده است.
  • چه مواردی را رد کرده‌اید.
  • مسئول مرحله بعدی کیست.
  • کسب‌وکار نیاز به شنیدن چه چیزی دارد.

اگر این اطلاعات در یک چت خصوصی یا یادداشت‌های یک عامل (agent) باقی بماند، فرآیند شکست می‌خورد.

یک سابقه مفید برای حوادث هوش مصنوعی، صرفاً یک لاگ چت نیست؛ بلکه یک شیء عملیاتی ساختاریافته است. این سابقه باید شامل موارد زیر باشد:

  • محرک (هشدار، سرویس، شدت).
  • شواهد (ردپاها، لاگ‌ها، متریک‌ها، استقرارهای اخیر).
  • فرضیه‌ها (آنچه فکر می‌کنید در حال رخ دادن است و دلیل آن).
  • تئوری‌های رد شده (آنچه ثابت کرده‌اید علت نیست).
  • تصمیمات و تأییدیه‌ها (چرا تصمیم به بازگشت به نسخه قبل یا انتظار گرفتید).

این ساختار از یک شکست رایج در هوش مصنوعی جلوگیری می‌کند. یک عامل می‌تواند به یک «چاه گرانشی» (gravity well) تبدیل شود؛ یعنی یک علت محتمل را پیدا کند و روی آن قفل شود. سپس تمام داده‌های جدید را به گونه‌ای تفسیر می‌کند که از همان یک تئوری حمایت کند.

یک سابقه مشترک و ساختاریافته، تیم را مجبور می‌کند به شواهد خلافِ فرضیه نیز نگاه کند. این کار سوگیری (bias) عامل را کنترل می‌کند.

پاسخ‌دهندگان به نویز بیشتر نیاز ندارند، بلکه به یک وضعیت مشترک (shared state) نیاز دارند. وقتی فرد جدیدی به مدیریت یک حادثه می‌پیوندد، نباید پنج دقیقه وقت خود را صرف جستجو در Slack کند. او باید بلافاصله فرضیه فعلی، شواهد و اقدامات در انتظار را مشاهده کند.

هدف، داشتن یک پاسخ‌دهنده خودکار با یک دموی پرزرق‌وبرق نیست. هدف، ابزاری است که دانش سازمانی (institutional knowledge) از خود به جای بگذارد.

به دنبال هوشمندترین مدل نگردید؛ ساختن یک سابقه ساختاریافته را شروع کنید.

  • فیلدهای مشخصی برای حوادث تعریف کنید.
  • اجازه دهید عوامل به صورت ایمن در این سابقه بخوانند و بنویسند.
  • اطمینان حاصل کنید که سابقه، تصمیمات را ثبت می‌کند، نه فقط داده‌ها را.
  • از این سابقه برای تبدیل آشفتگی حادثه به دانش قابل استفاده مجدد استفاده کنید.

بهترین ابزار هوش مصنوعی ابزاری است که باعث می‌شود تیم انسانی مانند یک واحد منسجم عمل کند.

Source: https://dev.to/focused_dot_io/ai-incident-management-breaks-without-a-shared-record-focused-labs-1og5

Optional learning community: https://t.me/GyaanSetuAi