ما هو الـ Multi-Agent SRE؟

تسعى فرق الـ SRE إلى استخدام الذكاء الاصطناعي. تفشل معظم الفرق لأنها تتعامل مع الذكاء الاصطناعي كأداة واحدة. بدلاً من ذلك، يجب عليك التعامل مع الذكاء الاصطناعي كفريق من الوكلاء (agents).

إن الاعتماد على نموذج واحد ضخم للتعامل مع حادثة ما يفشل في بيئة الإنتاج. ويفشل ذلك لثلاثة أسباب:

يقوم النظام متعدد الوكلاء بتقسيم دورة حياة الحادثة إلى متخصصين.

• وكيل الكشف (Detection agent). يراقب الإشارات ويحدد الحوادث. • وكيل الربط (Correlation agent). يجمع التنبيهات ذات الصلة ويزيل الضجيج. • وكيل التحقيق (Investigation agent). يفحص السجلات (logs) والتتبعات (traces) للعثور على الأسباب الجذرية. • وكيل المعالجة (Remediation agent). يقترح إجراءات قابلة للتراجع وينتظر موافقتك. • وكيل تحليل ما بعد الحادثة (Post-mortem agent). يصيغ الجداول الزمنية وبنود العمل لتتمكن من مراجعتها وتعديلها.

يتولى كل وكيل مهمة واحدة محددة. يتبادلون البيانات المهيكلة فيما بينهم، ويوفر هذا الهيكل ثلاث فوائد:

احذر من خطأين شائعين.

أولاً، تجنب الوكلاء "كثيري الكلام" (chatty agents). لا تسمح للوكلاء بالتواصل عبر سجل دردشة مشترك. استخدم مخرجات محددة النوع (typed artifacts) لمنع حدوث حلقات مفرغة أو معلومات قديمة.

ثانياً، حدد الصلاحيات. لا تمنح كل وكيل نفس بيانات الاعتماد. قم بتقييد ما يمكن لكل وكيل القيام به لمنع حدوث الأخطاء.

إذا كنت ترغب في البدء، فابدأ بوكيل الربط (correlation agent). فهو للقراءة فقط ومخاطره منخفضة. وبمجرد نجاح ذلك، أضف وكيل التحقيق. ثم أضف وكيل الكشف. وأخيراً أضف وكيل المعالجة.

ابنِ النظام ببطء. فأنت تريد نظاماً يمكنك الوثوق به في الساعة الثالثة فجراً.

بقلم Dr. Samson Tanimawo

المصدر: https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi