Multi-Agent SRE คืออะไร?
ทีม SRE ต้องการนำ AI มาใช้งาน แต่ทีมส่วนใหญ่มักล้มเหลวเพราะมองว่า AI เป็นเพียงเครื่องมือชิ้นเดียว แทนที่จะเป็นแบบนั้น คุณควรปฏิบัติกับ AI ในฐานะทีมของเอเจนต์ (team of agents) แทน
การใช้โมเดลขนาดใหญ่เพียงตัวเดียวจัดการกับอุบัติการณ์ (incident) มักจะล้มเหลวเมื่อใช้งานจริง ซึ่งมีสาเหตุมาจาก 3 ประการ
- ข้อจำกัดด้านบริบท (Context limits): อุบัติการณ์จริงมีข้อมูลมากเกินกว่าที่พรอมต์ (prompt) เดียวจะรับไหว
- ขาดความเชี่ยวชาญเฉพาะด้าน: การตรวจจับ (Detection), การคัดกรอง (Triage) และการแก้ไข (Remediation) เป็นงานที่แตกต่างกัน พรอมต์เดียวไม่สามารถทำทั้งสามอย่างได้ดีพร้อมกัน
- ปัญหาด้านความเชื่อมั่น: คุณไม่สามารถตรวจสอบ (audit) โมเดลที่ทำงานแบบปิด (opaque) เพียงตัวเดียวได้ และคุณไม่สามารถสั่งหยุดหรือส่งต่องานบางส่วนของมันให้มนุษย์ทำต่อได้
ระบบ Multi-agent จะแบ่งวงจรชีวิตของอุบัติการณ์ (incident lifecycle) ออกเป็นผู้เชี่ยวชาญเฉพาะด้าน
• Detection agent. คอยเฝ้าดูสัญญาณและระบุอุบัติการณ์ • Correlation agent. จัดกลุ่มการแจ้งเตือนที่เกี่ยวข้องกันและกำจัดสัญญาณรบกวน (noise) • Investigation agent. ตรวจสอบ logs และ traces เพื่อหาสาเหตุที่แท้จริง (root causes) • Remediation agent. เสนอแนวทางการแก้ไขที่สามารถย้อนกลับได้ (reversible actions) และรอการอนุมัติจากคุณ • Post-mortem agent. ร่างลำดับเหตุการณ์ (timelines) และรายการสิ่งที่ต้องทำ (action items) เพื่อให้คุณนำไปแก้ไขต่อ
เอเจนต์แต่ละตัวจะรับผิดชอบงานเฉพาะทางเพียงอย่างเดียว และส่งต่อข้อมูลที่มีโครงสร้าง (structured data) ให้แก่กัน ซึ่งโครงสร้างนี้ให้ประโยชน์ 3 ประการ
- บริบทที่จำกัด (Bounded context): เอเจนต์จะเห็นเฉพาะข้อมูลที่จำเป็นเท่านั้น ซึ่งช่วยรักษาคุณภาพของงานให้สูงอยู่เสมอ
- จุดเชื่อมต่อที่ตรวจสอบได้ (Inspectable seams): คุณสามารถเห็นได้อย่างชัดเจนว่าเอเจนต์แต่ละตัวตัดสินใจอย่างไร
- การเข้าควบคุมโดยมนุษย์ (Human takeover): คุณสามารถเข้ามาแทรกแซง ณ จุดใดก็ได้เพื่อทำงานต่อ
ระวังข้อผิดพลาดทั่วไป 2 ประการ
ประการแรก หลีกเลี่ยงเอเจนต์ที่พูดมาก (chatty agents) อย่าปล่อยให้เอเจนต์สื่อสารกันผ่านประวัติการแชท (chat history) ร่วมกัน แต่ควรใช้ typed artifacts เพื่อป้องกันการเกิดลูป (loops) และข้อมูลที่ล้าสมัย
ประการที่สอง จำกัดสิทธิ์การเข้าถึง (permissions) อย่าให้สิทธิ์การเข้าถึง (credentials) แบบเดียวกันกับเอเจนต์ทุกตัว ควรจำกัดขอบเขตสิ่งที่เอเจนต์แต่ละตัวทำได้เพื่อป้องกันข้อผิดพลาด
หากคุณต้องการเริ่มต้น ให้เริ่มจาก correlation agent เนื่องจากเป็นแบบอ่านอย่างเดียว (read-only) และมีความเสี่ยงต่ำ เมื่อส่วนนั้นใช้งานได้แล้ว จึงค่อยเพิ่ม investigation ตามด้วย detection และสุดท้ายคือ remediation
ค่อยๆ สร้างไปอย่างช้าๆ เพราะคุณต้องการระบบที่คุณสามารถไว้วางใจได้แม้ในเวลาตี 3
เขียนโดย Dr. Samson Tanimawo
แหล่งที่มา: https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj
ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi