𝗪𝗵𝗮𝘁 𝗜𝘀 𝗠𝘂𝗹𝘁𝗶 𝗔𝗴𝗲𝗻𝘁 𝗦𝗥𝗘?

📅2 hours ago⏱2 min read

Multi-Agent SRE คืออะไร?

ทีม SRE ต้องการนำ AI มาใช้งาน แต่ทีมส่วนใหญ่มักล้มเหลวเพราะมองว่า AI เป็นเพียงเครื่องมือชิ้นเดียว แทนที่จะเป็นแบบนั้น คุณควรปฏิบัติกับ AI ในฐานะทีมของเอเจนต์ (team of agents) แทน

การใช้โมเดลขนาดใหญ่เพียงตัวเดียวจัดการกับอุบัติการณ์ (incident) มักจะล้มเหลวเมื่อใช้งานจริง ซึ่งมีสาเหตุมาจาก 3 ประการ

ข้อจำกัดด้านบริบท (Context limits): อุบัติการณ์จริงมีข้อมูลมากเกินกว่าที่พรอมต์ (prompt) เดียวจะรับไหว
ขาดความเชี่ยวชาญเฉพาะด้าน: การตรวจจับ (Detection), การคัดกรอง (Triage) และการแก้ไข (Remediation) เป็นงานที่แตกต่างกัน พรอมต์เดียวไม่สามารถทำทั้งสามอย่างได้ดีพร้อมกัน
ปัญหาด้านความเชื่อมั่น: คุณไม่สามารถตรวจสอบ (audit) โมเดลที่ทำงานแบบปิด (opaque) เพียงตัวเดียวได้ และคุณไม่สามารถสั่งหยุดหรือส่งต่องานบางส่วนของมันให้มนุษย์ทำต่อได้

ระบบ Multi-agent จะแบ่งวงจรชีวิตของอุบัติการณ์ (incident lifecycle) ออกเป็นผู้เชี่ยวชาญเฉพาะด้าน

• Detection agent. คอยเฝ้าดูสัญญาณและระบุอุบัติการณ์ • Correlation agent. จัดกลุ่มการแจ้งเตือนที่เกี่ยวข้องกันและกำจัดสัญญาณรบกวน (noise) • Investigation agent. ตรวจสอบ logs และ traces เพื่อหาสาเหตุที่แท้จริง (root causes) • Remediation agent. เสนอแนวทางการแก้ไขที่สามารถย้อนกลับได้ (reversible actions) และรอการอนุมัติจากคุณ • Post-mortem agent. ร่างลำดับเหตุการณ์ (timelines) และรายการสิ่งที่ต้องทำ (action items) เพื่อให้คุณนำไปแก้ไขต่อ

เอเจนต์แต่ละตัวจะรับผิดชอบงานเฉพาะทางเพียงอย่างเดียว และส่งต่อข้อมูลที่มีโครงสร้าง (structured data) ให้แก่กัน ซึ่งโครงสร้างนี้ให้ประโยชน์ 3 ประการ

บริบทที่จำกัด (Bounded context): เอเจนต์จะเห็นเฉพาะข้อมูลที่จำเป็นเท่านั้น ซึ่งช่วยรักษาคุณภาพของงานให้สูงอยู่เสมอ
จุดเชื่อมต่อที่ตรวจสอบได้ (Inspectable seams): คุณสามารถเห็นได้อย่างชัดเจนว่าเอเจนต์แต่ละตัวตัดสินใจอย่างไร
การเข้าควบคุมโดยมนุษย์ (Human takeover): คุณสามารถเข้ามาแทรกแซง ณ จุดใดก็ได้เพื่อทำงานต่อ

ระวังข้อผิดพลาดทั่วไป 2 ประการ

ประการแรก หลีกเลี่ยงเอเจนต์ที่พูดมาก (chatty agents) อย่าปล่อยให้เอเจนต์สื่อสารกันผ่านประวัติการแชท (chat history) ร่วมกัน แต่ควรใช้ typed artifacts เพื่อป้องกันการเกิดลูป (loops) และข้อมูลที่ล้าสมัย

ประการที่สอง จำกัดสิทธิ์การเข้าถึง (permissions) อย่าให้สิทธิ์การเข้าถึง (credentials) แบบเดียวกันกับเอเจนต์ทุกตัว ควรจำกัดขอบเขตสิ่งที่เอเจนต์แต่ละตัวทำได้เพื่อป้องกันข้อผิดพลาด

หากคุณต้องการเริ่มต้น ให้เริ่มจาก correlation agent เนื่องจากเป็นแบบอ่านอย่างเดียว (read-only) และมีความเสี่ยงต่ำ เมื่อส่วนนั้นใช้งานได้แล้ว จึงค่อยเพิ่ม investigation ตามด้วย detection และสุดท้ายคือ remediation

ค่อยๆ สร้างไปอย่างช้าๆ เพราะคุณต้องการระบบที่คุณสามารถไว้วางใจได้แม้ในเวลาตี 3

เขียนโดย Dr. Samson Tanimawo

แหล่งที่มา: https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj

ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi

𝗪𝗵𝗮𝘁 𝗜𝘀 𝗠𝘂𝗹𝘁𝗶 𝗔𝗴𝗲𝗻𝘁 𝗦𝗥𝗘?

Continue reading

ทำความเข้าใจเอเจนต์ AI ที่มีความยืดหยุ่น

7 ข้อผิดพลาดที่ทำให้ AI Agent พัง

ทำไม AI Agent ถึงล้มเหลวเมื่อนำไปใช้งานจริง

เอไอเอเจนต์มีปัญหาเรื่องความน่าเชื่อถือ

𝗔𝗜 𝗠𝘂𝗹𝘁𝗶 𝗔𝗴𝗲𝗻𝘁 𝗦𝘆𝘀𝘁𝗲𝗺𝘀 𝗡𝗲𝗲𝗱 𝗗𝗲𝘃𝗢𝗽𝘀 𝗥𝗶𝗴𝗼𝗿