Pengurusan Insiden AI Gagal Tanpa Rekod Kongsi
Ejen AI sedang memasuki ruang tindak balas insiden.
Syarikat seperti LangChain, PagerDuty, dan New Relic sedang membina ejen SRE. Alatan ini boleh membaca jejak (traces), menarik log, dan merangka kemas kini. Ia berfungsi dengan pantas. Ia menawarkan konteks yang hebat.
Namun, terdapat satu perangkap.
Banyak pasukan menganggap konteks AI sebagai nota peribadi (scratchpad). Mereka menggunakan AI untuk kerja mitigasi, seperti mencari punca utama (root cause). Mereka melupakan kerja penyelarasan.
Pengurusan insiden bukan sekadar mencari punca. Ia adalah tentang penyelarasan. Ia adalah tentang memastikan orang ramai bersetuju tentang:
- Apa yang telah berlaku.
- Apa yang telah berubah.
- Apa yang telah anda ketepikan.
- Siapa yang bertanggungjawab untuk langkah seterusnya.
- Apa yang perlu didengar oleh perniagaan.
Jika maklumat ini kekal dalam sembang peribadi atau nota ejen, proses tersebut akan gagal.
Rekod insiden AI yang berguna bukanlah log sembang. Ia adalah objek operasi yang berstruktur. Ia mesti merangkumi:
- Pencetus (amaran, perkhidmatan, tahap keterukan).
- Bukti (jejak, log, metrik, deployment terkini).
- Hipotesis (apa yang anda fikir sedang berlaku dan mengapa).
- Teori yang ditolak (apa yang telah anda buktikan bukan puncanya).
- Keputusan dan kelulusan (mengapa anda memilih untuk melakukan rollback atau menunggu).
Struktur ini menghalang kegagalan AI yang biasa berlaku. Ejen boleh menjadi seperti "gravity well" (pusat tarikan yang kuat). Ia menemui punca yang munasabah dan terus terpaku padanya. Ia kemudian mentafsir semua data baharu untuk menyokong satu teori tersebut sahaja.
Rekod kongsi yang berstruktur memaksa pasukan untuk melihat bukti yang menyangkal teori tersebut. Ia mengawal bias ejen tersebut.
Responden tidak memerlukan lebih banyak gangguan (noise). Mereka memerlukan keadaan yang dikongsi (shared state). Apabila orang baharu menyertai sesuatu insiden, mereka tidak sepatutnya menghabiskan masa lima minit mencari maklumat di Slack. Mereka sepatutnya dapat melihat hipotesis semasa, bukti, dan tindakan yang tertangguh dengan serta-merta.
Matlamatnya bukanlah responden autonomi dengan demo yang gah. Matlamatnya adalah alatan yang meninggalkan pengetahuan institusi.
Berhenti mencari model yang paling bijak. Mula membina rekod yang berstruktur.
- Takrifkan medan yang jelas untuk insiden.
- Benarkan ejen membaca dan menulis ke dalam rekod ini dengan selamat.
- Pastikan rekod merakam keputusan, bukan sekadar data.
- Gunakan rekod tersebut untuk menukar kekacauan insiden kepada pengetahuan yang boleh digunakan semula.
Alatan AI yang terbaik adalah alatan yang membuatkan pasukan manusia bergerak sebagai satu unit.
Optional learning community: https://t.me/GyaanSetuAi
