Apa Itu Multi-Agent SRE?
Tim SRE ingin menggunakan AI. Sebagian besar tim gagal karena mereka memperlakukan AI sebagai satu alat tunggal. Seharusnya, Anda memperlakukan AI sebagai sebuah tim agen.
Mengandalkan satu model besar untuk menangani insiden akan gagal di lingkungan produksi. Hal ini gagal karena tiga alasan.
- Batasan konteks. Insiden nyata memiliki terlalu banyak data untuk satu prompt.
- Kurangnya spesialisasi. Deteksi, triase, dan remediasi adalah pekerjaan yang berbeda. Satu prompt tidak dapat melakukan ketiganya dengan baik.
- Masalah kepercayaan. Anda tidak dapat mengaudit satu model yang tidak transparan (opaque). Anda tidak dapat menjeda atau menyerahkan sebagian pekerjaannya kepada manusia.
Sistem multi-agen membagi siklus hidup insiden menjadi beberapa spesialis.
• Agen deteksi. Memantau sinyal dan mengidentifikasi insiden. • Agen korelasi. Mengelompokkan peringatan terkait dan menghilangkan noise. • Agen investigasi. Memeriksa log dan trace untuk menemukan akar masalah. • Agen remediasi. Mengusulkan tindakan yang dapat dibatalkan (reversible) dan menunggu persetujuan Anda. • Agen post-mortem. Menyusun draf lini masa dan butir tindakan untuk Anda edit.
Setiap agen memiliki satu tugas khusus yang sempit. Mereka saling mengirimkan data terstruktur. Struktur ini memberikan tiga manfaat.
- Konteks terbatas (Bounded context). Agen hanya melihat data yang mereka butuhkan. Hal ini menjaga kualitas tetap tinggi.
- Titik temu yang dapat diperiksa (Inspectable seams). Anda dapat melihat dengan tepat apa yang diputuskan oleh agen mana pun.
- Pengambilalihan oleh manusia (Human takeover). Anda dapat turun tangan kapan saja dan melanjutkan pekerjaan tersebut.
Waspadai dua kesalahan umum.
Pertama, hindari agen yang terlalu banyak bicara (chatty agents). Jangan biarkan agen berkomunikasi melalui riwayat obrolan bersama. Gunakan artefak bertipe (typed artifacts) untuk mencegah loop dan informasi yang usang.
Kedua, batasi izin. Jangan berikan kredensial yang sama kepada setiap agen. Batasi apa yang dapat dilakukan setiap agen untuk mencegah kesalahan.
Jika Anda ingin memulai, mulailah dengan agen korelasi. Agen ini bersifat read-only dan memiliki risiko rendah. Setelah itu berhasil, tambahkan investigasi. Selanjutnya tambahkan deteksi. Terakhir, tambahkan remediasi.
Bangunlah secara perlahan. Anda menginginkan sistem yang dapat Anda percayai pada jam 3 pagi.
Ditulis oleh Dr. Samson Tanimawo
Sumber: https://dev.to/samson_tanimawo/what-is-multi-agent-sre-a-practical-introduction-5ccj
Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi