𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻-𝗶𝗻-𝘁𝗵𝗲-𝗟𝗼𝗼𝗽 𝗦𝗥𝗘 (SRE แบบมีมนุษย์ควบคุม)

ระบบอัตโนมัติทำงานได้เร็วกว่ามนุษย์

ในปี 2021 การเปลี่ยนแปลงการตั้งค่าของ Fastly ทำให้เกิดระบบล่มทั่วโลก ระบบอัตโนมัติได้แพร่กระจายข้อผิดพลาดนั้นภายในเวลาไม่ถึงหนึ่งนาที ในขณะที่มนุษย์ต้องใช้เวลาถึง 49 นาทีในการแก้ไข

นี่คือความท้าทายหลักของ AI-assisted SRE AI สามารถตรวจจับและแก้ไขปัญหาได้ด้วยความเร็วที่มนุษย์ไม่สามารถเทียบได้ อันตรายไม่ได้อยู่ที่ตัวเทคโนโลยี แต่อยู่ที่ช่องว่างด้านความเร็วระหว่างการทำงานของระบบอัตโนมัติและความรับผิดชอบของมนุษย์

คุณต้องออกแบบนโยบายการส่งต่อปัญหา (escalation policy) เพื่อกำหนดจุดสิ้นสุดของระบบอัตโนมัติและจุดเริ่มต้นของการตัดสินใจโดยมนุษย์

ใช้ Automation Autonomy Spectrum เพื่อควบคุม AI ของคุณ:

• ระดับ 0 (Manual): AI ไม่ให้ความช่วยเหลือใดๆ มนุษย์เป็นผู้ดำเนินการทุกอย่าง • ระดับ 1 (Assisted): AI ให้ข้อมูลบริบท มนุษย์เป็นผู้ตัดสินใจทั้งหมด • ระดับ 2 (Supervised): AI เสนอแนะการดำเนินการ มนุษย์ต้องอนุมัติในทุกขั้นตอน • ระดับ 3 (Conditional): AI ดำเนินการภายใต้กฎที่กำหนดไว้ และมีการแจ้งเตือนไปยังมนุษย์ • ระดับ 4 (Autonomous): AI ดำเนินการและตรวจสอบด้วยตัวเอง

อย่าปล่อยให้ระบบอัตโนมัติอยู่ในระดับ 4 ตลอดไป เพราะระบบมีการเปลี่ยนแปลง ระบบอัตโนมัติที่ใช้งานได้ดีในวันนี้อาจกลายเป็นอันตรายในวันพรุ่งนี้หากปัญหาพื้นฐานเปลี่ยนไป คุณต้องตรวจสอบทุกการดำเนินการแบบอัตโนมัติอย่างสม่ำเสมอ

เปลี่ยนจากการใช้ระบบอัตโนมัติมาเป็นการกำกับดูแลโดยมนุษย์ เมื่อเกิดปัจจัยกระตุ้น (triggers) 4 ประการนี้:

อย่าใช้คำว่า "AI เป็นคนตัดสินใจ" มาเป็นข้ออ้าง ทุกการดำเนินการต้องสามารถตรวจสอบย้อนกลับไปยังมนุษย์หรือนโยบายที่ได้รับการอนุมัติจากฝ่ายบริหารได้

สร้างนโยบายของคุณก่อนที่จะเปิดใช้งานระบบอัตโนมัติ ใช้ข้อมูลเพื่อพิสูจน์ว่า AI ของคุณมีความแม่นยำ หาก AI ของคุณทำงานผิดพลาดบ่อยเกินไป ให้ลดระดับความเป็นอิสระ (autonomy) ของมันลงทันที

Source: https://dev.to/npayyappilly/the-human-in-the-loop-sre-designing-automation-escalation-policies-for-ai-assisted-operations-2c7f

Optional learning community: https://t.me/GyaanSetuAi