দ্য হিউম্যান-ইন-দ্য-লুপ SRE

অটোমেশন মানুষের চেয়ে দ্রুত কাজ করে।

২০২১ সালে, Fastly-র একটি কনফিগারেশন পরিবর্তনের কারণে বিশ্বব্যাপী আউটটেজ (outage) ঘটেছিল। অটোমেশন এক মিনিটেরও কম সময়ে সেই ত্রুটিটি ছড়িয়ে দিয়েছিল। এটি ঠিক করতে মানুষের ৪৯ মিনিট সময় লেগেছিল।

এটিই হলো AI-assisted SRE-এর মূল চ্যালেঞ্জ। AI এমন গতিতে সমস্যা শনাক্ত ও সমাধান করতে পারে যা মানুষের পক্ষে সম্ভব নয়। বিপদ প্রযুক্তিতে নয়; বিপদ হলো অটোমেটেড অ্যাকশন এবং মানুষের জবাবদিহিতার মধ্যে বিদ্যমান গতির ব্যবধান।

অটোমেশন কোথায় শেষ হবে এবং মানুষের বিচারবুদ্ধি কোথায় শুরু হবে তা নির্ধারণ করতে আপনাকে অবশ্যই একটি এসকেলেশন পলিসি (escalation policy) ডিজাইন করতে হবে।

আপনার AI পরিচালনা করতে Automation Autonomy Spectrum ব্যবহার করুন:

• লেভেল ০ (Manual): AI কোনো সাহায্য করে না। মানুষ সবকিছু করে। • লেভেল ১ (Assisted): AI প্রেক্ষাপট প্রদান করে। মানুষ সমস্ত সিদ্ধান্ত নেয়। • লেভেল ২ (Supervised): AI পদক্ষেপের পরামর্শ দেয়। মানুষকে প্রতিটি পদক্ষেপ অনুমোদন করতে হয়। • লেভেল ৩ (Conditional): AI নির্ধারিত নিয়মের মধ্যে কাজ করে। মানুষকে কেবল জানানো হয়। • লেভেল ৪ (Autonomous): AI নিজেই কাজ করে এবং যাচাই করে।

কোনো অটোমেশনকে কখনোই চিরতরে লেভেল ৪-এ রেখে দেবেন না। সিস্টেম পরিবর্তিত হয়। আজ যে অটোমেশনটি কাজ করছে, মূল সমস্যাটি পরিবর্তিত হলে তা আগামীকাল বিপজ্জনক হয়ে উঠতে পারে। আপনাকে নিয়মিত প্রতিটি অটোনোমাস অ্যাকশন পর্যালোচনা করতে হবে।

যখন এই চারটি ট্রিগার (trigger) ঘটবে, তখন অটোমেশন থেকে মানুষের তত্ত্বাবধানের (human oversight) দিকে ফিরে আসুন:

"AI সিদ্ধান্ত নিয়েছে" — এটিকে অজুহাত হিসেবে ব্যবহার করবেন না। প্রতিটি পদক্ষেপের পেছনে একজন মানুষ বা নেতৃত্ব দ্বারা অনুমোদিত একটি পলিসি থাকতে হবে।

অটোমেশন চালু করার আগেই আপনার পলিসি তৈরি করুন। আপনার AI কতটা নির্ভুল তা প্রমাণ করতে ডেটা ব্যবহার করুন। যদি আপনার AI খুব ঘনঘন ভুল করে, তবে অবিলম্বে এর অটোনমি কমিয়ে দিন।

Source: https://dev.to/npayyappilly/the-human-in-the-loop-sre-designing-automation-escalation-policies-for-ai-assisted-operations-2c7f

Optional learning community: https://t.me/GyaanSetuAi