Apa Itu Multi-Agent SRE?

Tim SRE ingin menggunakan AI. Sebagian besar tim gagal karena mereka memperlakukan AI sebagai satu alat tunggal. Seharusnya, Anda memperlakukan AI sebagai sebuah tim agen.

Mengandalkan satu model besar untuk menangani insiden akan gagal di lingkungan produksi. Hal ini gagal karena tiga alasan.

Sistem multi-agen membagi siklus hidup insiden menjadi beberapa spesialis.

• Agen deteksi. Memantau sinyal dan mengidentifikasi insiden. • Agen korelasi. Mengelompokkan peringatan terkait dan menghilangkan noise. • Agen investigasi. Memeriksa log dan trace untuk menemukan akar masalah. • Agen remediasi. Mengusulkan tindakan yang dapat dibatalkan (reversible) dan menunggu persetujuan Anda. • Agen post-mortem. Menyusun draf lini masa dan butir tindakan untuk Anda edit.

Setiap agen memiliki satu tugas khusus yang sempit. Mereka saling mengirimkan data terstruktur. Struktur ini memberikan tiga manfaat.

Waspadai dua kesalahan umum.

Pertama, hindari agen yang terlalu banyak bicara (chatty agents). Jangan biarkan agen berkomunikasi melalui riwayat obrolan bersama. Gunakan artefak bertipe (typed artifacts) untuk mencegah loop dan informasi yang usang.

Kedua, batasi izin. Jangan berikan kredensial yang sama kepada setiap agen. Batasi apa yang dapat dilakukan setiap agen untuk mencegah kesalahan.

Jika Anda ingin memulai, mulailah dengan agen korelasi. Agen ini bersifat read-only dan memiliki risiko rendah. Setelah itu berhasil, tambahkan investigasi. Selanjutnya tambahkan deteksi. Terakhir, tambahkan remediasi.

Bangunlah secara perlahan. Anda menginginkan sistem yang dapat Anda percayai pada jam 3 pagi.

Ditulis oleh Dr. Samson Tanimawo

Sumber: https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj

Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi