Multi-Agent SRE คืออะไร?

ทีม SRE ต้องการนำ AI มาใช้งาน แต่ทีมส่วนใหญ่มักล้มเหลวเพราะมองว่า AI เป็นเพียงเครื่องมือชิ้นเดียว แทนที่จะเป็นแบบนั้น คุณควรปฏิบัติกับ AI ในฐานะทีมของเอเจนต์ (team of agents) แทน

การใช้โมเดลขนาดใหญ่เพียงตัวเดียวจัดการกับอุบัติการณ์ (incident) มักจะล้มเหลวเมื่อใช้งานจริง ซึ่งมีสาเหตุมาจาก 3 ประการ

ระบบ Multi-agent จะแบ่งวงจรชีวิตของอุบัติการณ์ (incident lifecycle) ออกเป็นผู้เชี่ยวชาญเฉพาะด้าน

• Detection agent. คอยเฝ้าดูสัญญาณและระบุอุบัติการณ์ • Correlation agent. จัดกลุ่มการแจ้งเตือนที่เกี่ยวข้องกันและกำจัดสัญญาณรบกวน (noise) • Investigation agent. ตรวจสอบ logs และ traces เพื่อหาสาเหตุที่แท้จริง (root causes) • Remediation agent. เสนอแนวทางการแก้ไขที่สามารถย้อนกลับได้ (reversible actions) และรอการอนุมัติจากคุณ • Post-mortem agent. ร่างลำดับเหตุการณ์ (timelines) และรายการสิ่งที่ต้องทำ (action items) เพื่อให้คุณนำไปแก้ไขต่อ

เอเจนต์แต่ละตัวจะรับผิดชอบงานเฉพาะทางเพียงอย่างเดียว และส่งต่อข้อมูลที่มีโครงสร้าง (structured data) ให้แก่กัน ซึ่งโครงสร้างนี้ให้ประโยชน์ 3 ประการ

ระวังข้อผิดพลาดทั่วไป 2 ประการ

ประการแรก หลีกเลี่ยงเอเจนต์ที่พูดมาก (chatty agents) อย่าปล่อยให้เอเจนต์สื่อสารกันผ่านประวัติการแชท (chat history) ร่วมกัน แต่ควรใช้ typed artifacts เพื่อป้องกันการเกิดลูป (loops) และข้อมูลที่ล้าสมัย

ประการที่สอง จำกัดสิทธิ์การเข้าถึง (permissions) อย่าให้สิทธิ์การเข้าถึง (credentials) แบบเดียวกันกับเอเจนต์ทุกตัว ควรจำกัดขอบเขตสิ่งที่เอเจนต์แต่ละตัวทำได้เพื่อป้องกันข้อผิดพลาด

หากคุณต้องการเริ่มต้น ให้เริ่มจาก correlation agent เนื่องจากเป็นแบบอ่านอย่างเดียว (read-only) และมีความเสี่ยงต่ำ เมื่อส่วนนั้นใช้งานได้แล้ว จึงค่อยเพิ่ม investigation ตามด้วย detection และสุดท้ายคือ remediation

ค่อยๆ สร้างไปอย่างช้าๆ เพราะคุณต้องการระบบที่คุณสามารถไว้วางใจได้แม้ในเวลาตี 3

เขียนโดย Dr. Samson Tanimawo

แหล่งที่มา: https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj

ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi