ह्यूमन-इन-द-लूप SRE

ऑटोमेशन इंसानों की तुलना में अधिक तेज़ी से काम करता है।

2021 में, Fastly के कॉन्फ़िगरेशन में बदलाव के कारण वैश्विक स्तर पर आउटेज (outage) हुआ। ऑटोमेशन ने एक मिनट से भी कम समय में इस त्रुटि को फैला दिया। इसे ठीक करने में इंसानों को 49 मिनट लगे।

यही AI-assisted SRE की मुख्य चुनौती है। AI उन गति से समस्याओं का पता लगा सकता है और उन्हें ठीक कर सकता है जिसे इंसान नहीं छू सकते। खतरा तकनीक नहीं है। खतरा ऑटोमेटेड कार्यों और मानवीय जवाबदेही के बीच की गति का अंतर है।

आपको एक एस्केलेशन पॉलिसी (escalation policy) डिज़ाइन करनी चाहिए ताकि यह परिभाषित किया जा सके कि ऑटोमेशन कहाँ समाप्त होता है और मानवीय निर्णय कहाँ से शुरू होता है।

अपने AI को नियंत्रित करने के लिए Automation Autonomy Spectrum का उपयोग करें:

• लेवल 0 (मैनुअल): AI कोई सहायता प्रदान नहीं करता है। इंसान सब कुछ करते हैं। • लेवल 1 (असिस्टेड): AI संदर्भ (context) प्रदान करता है। सभी निर्णय इंसान लेते हैं। • लेवल 2 (सुपरवाइज्ड): AI कार्यों का सुझाव देता है। इंसानों को प्रत्येक कार्य को मंजूरी देनी होगी। • लेवल 3 (कंडीशनल): AI निर्धारित नियमों के भीतर कार्य करता है। इंसानों को सूचित किया जाता है। • लेवल 4 (ऑटोनॉमस): AI अकेले कार्य करता है और उसकी पुष्टि करता है।

किसी भी ऑटोमेशन को हमेशा के लिए लेवल 4 पर न छोड़ें। सिस्टम बदलते रहते हैं। आज काम करने वाला ऑटोमेशन कल खतरनाक हो सकता है यदि अंतर्निहित समस्या बदल जाती है। आपको नियमित रूप से प्रत्येक ऑटोनॉमस कार्य की समीक्षा करनी चाहिए।

जब ये चार ट्रिगर्स (triggers) हों, तो ऑटोमेशन से मानवीय निगरानी (human oversight) की ओर बढ़ें:

"AI ने निर्णय लिया" को अपना बहाना न बनने दें। प्रत्येक कार्य का संबंध किसी इंसान या नेतृत्व द्वारा अनुमोदित पॉलिसी से होना चाहिए।

ऑटोमेशन शुरू करने से पहले अपनी पॉलिसी बनाएं। यह साबित करने के लिए डेटा का उपयोग करें कि आपका AI सटीक है। यदि आपका AI बहुत बार गलत होता है, तो तुरंत उसकी ऑटोनॉमी (autonomy) को कम कर दें।

स्रोत: https://dev.to/npayyappilly/the-human-in-the-loop-sre-designing-automation-escalation-policies-for-ai-assisted-operations-2c7f

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi