𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

📅4 hours ago⏱1 min read

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻-𝗶𝗻-𝘁𝗵𝗲-𝗟𝗼𝗼𝗽 𝗦𝗥𝗘 (SRE แบบมีมนุษย์ควบคุม)

ระบบอัตโนมัติทำงานได้เร็วกว่ามนุษย์

ในปี 2021 การเปลี่ยนแปลงการตั้งค่าของ Fastly ทำให้เกิดระบบล่มทั่วโลก ระบบอัตโนมัติได้แพร่กระจายข้อผิดพลาดนั้นภายในเวลาไม่ถึงหนึ่งนาที ในขณะที่มนุษย์ต้องใช้เวลาถึง 49 นาทีในการแก้ไข

นี่คือความท้าทายหลักของ AI-assisted SRE AI สามารถตรวจจับและแก้ไขปัญหาได้ด้วยความเร็วที่มนุษย์ไม่สามารถเทียบได้ อันตรายไม่ได้อยู่ที่ตัวเทคโนโลยี แต่อยู่ที่ช่องว่างด้านความเร็วระหว่างการทำงานของระบบอัตโนมัติและความรับผิดชอบของมนุษย์

คุณต้องออกแบบนโยบายการส่งต่อปัญหา (escalation policy) เพื่อกำหนดจุดสิ้นสุดของระบบอัตโนมัติและจุดเริ่มต้นของการตัดสินใจโดยมนุษย์

ใช้ Automation Autonomy Spectrum เพื่อควบคุม AI ของคุณ:

• ระดับ 0 (Manual): AI ไม่ให้ความช่วยเหลือใดๆ มนุษย์เป็นผู้ดำเนินการทุกอย่าง • ระดับ 1 (Assisted): AI ให้ข้อมูลบริบท มนุษย์เป็นผู้ตัดสินใจทั้งหมด • ระดับ 2 (Supervised): AI เสนอแนะการดำเนินการ มนุษย์ต้องอนุมัติในทุกขั้นตอน • ระดับ 3 (Conditional): AI ดำเนินการภายใต้กฎที่กำหนดไว้ และมีการแจ้งเตือนไปยังมนุษย์ • ระดับ 4 (Autonomous): AI ดำเนินการและตรวจสอบด้วยตัวเอง

อย่าปล่อยให้ระบบอัตโนมัติอยู่ในระดับ 4 ตลอดไป เพราะระบบมีการเปลี่ยนแปลง ระบบอัตโนมัติที่ใช้งานได้ดีในวันนี้อาจกลายเป็นอันตรายในวันพรุ่งนี้หากปัญหาพื้นฐานเปลี่ยนไป คุณต้องตรวจสอบทุกการดำเนินการแบบอัตโนมัติอย่างสม่ำเสมอ

เปลี่ยนจากการใช้ระบบอัตโนมัติมาเป็นการกำกับดูแลโดยมนุษย์ เมื่อเกิดปัจจัยกระตุ้น (triggers) 4 ประการนี้:

ความเชื่อมั่นต่ำ (Low Confidence): AI ไม่แน่ใจในการวินิจฉัยของตนเอง
ขอบเขตผลกระทบสูง (High Blast Radius): การดำเนินการนั้นส่งผลกระทบต่อบริการหรือผู้ใช้จำนวนมากเกินไป
ความแปลกใหม่ (Novelty): รูปแบบความล้มเหลวเป็นสิ่งใหม่ที่ AI ไม่เคยเห็นมาก่อน
กฎระเบียบ (Regulation): การดำเนินการนั้นเกี่ยวข้องกับระบบที่ต้องมีการคุ้มครองหรือต้องปฏิบัติตามข้อกำหนด

อย่าใช้คำว่า "AI เป็นคนตัดสินใจ" มาเป็นข้ออ้าง ทุกการดำเนินการต้องสามารถตรวจสอบย้อนกลับไปยังมนุษย์หรือนโยบายที่ได้รับการอนุมัติจากฝ่ายบริหารได้

สร้างนโยบายของคุณก่อนที่จะเปิดใช้งานระบบอัตโนมัติ ใช้ข้อมูลเพื่อพิสูจน์ว่า AI ของคุณมีความแม่นยำ หาก AI ของคุณทำงานผิดพลาดบ่อยเกินไป ให้ลดระดับความเป็นอิสระ (autonomy) ของมันลงทันที

Source: https://dev.to/npayyappilly/the-human-in-the-loop-sre-designing-automation-escalation-policies-for-ai-assisted-operations-2c7f

Optional learning community: https://t.me/GyaanSetuAi

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

Continue reading

𝗛𝗼𝘄 𝗔𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗦𝗥𝗘 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗧𝗵𝗲 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗥𝘂𝗹𝗲 𝗙𝗼𝗿 𝗦𝗮𝗳𝗲 𝗔𝗜

𝗢𝗯𝘀𝗲𝗿𝘃𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝗔𝗜: 𝗠𝗼𝗻𝗶𝘁𝗼𝗿𝗶𝗻𝗴 𝗶𝘀 𝗡𝗼𝘁 𝗘𝗻𝗼𝘂𝗴𝗵

𝗧𝗵𝗲 𝗨𝗻𝘀𝗲𝗲𝗻 𝗖𝗼𝗻𝘀𝗲𝗾𝘂𝗲𝗻𝗰𝗲𝘀 𝗼𝗳 𝗔𝗜

𝗛𝗼𝘄 𝘁𝗼 𝗘𝘃𝗮𝗹𝘂𝗮𝘁𝗲 𝗔𝗜 𝗦𝗥𝗘 𝗧𝗼𝗼𝗹𝘀