Kostum Kuorum: Mengapa Verifikasi Agen Membutuhkan Fault Injection
Agen AI Anda mungkin sedang berbohong kepada Anda mengenai akurasinya sendiri.
Baru-baru ini saya menyaksikan mitra AI gagal tiga kali berturut-turut. Ia melewatkan masalah kebenaran yang sama di berbagai permukaan. Ia menulis dengan gaya bahasa yang salah. Sebuah model peninjau (reviewer model) memberikan peringkat yang lebih tinggi setiap kali ia membaca kesalahan yang sama. Ia bahkan salah menghitung fakta tentang fact drift.
Saya hanya berhasil menangkap kesalahan-kesalahan ini karena saya berada di luar sistem (outside the loop).
Ini mengungkap masalah besar dalam agent stack. Sebagian besar sistem verifikasi mengasumsikan adanya independensi. Mereka menggunakan pemungutan suara multi-agen, pola maker/checker, atau ensemble prompts. Mereka berasumsi bahwa jalur yang berbeda akan melihat hal yang berbeda.
Namun sering kali, jalur-jalur ini berbagi sumber yang sama.
Ketika seorang peninjau membaca dari sumber yang sama dengan penulis, Anda tidak memiliki dua sudut pandang. Anda hanya memiliki satu sudut pandang yang mengenakan dua topi berbeda. Ini adalah titik kegagalan tunggal (single point of failure) yang mengenakan kostum kuorum.
Jika jalur-jalur tersebut berbagi upstream, mereka akan menyetujui fakta salah yang sama atau halusinasi yang sama. Sistem terlihat sehat karena outputnya tampak bervariasi, tetapi sistem tersebut gagal setiap kali sumbernya berbohong.
Untuk memperbaikinya, Anda harus menggunakan fault injection.
Jangan hanya mengukur apakah agen-agen tidak setuju. Ukurlah apakah Anda dapat memaksa mereka untuk tidak setuju dengan merusak bagian dari sistem tersebut.
Berikut cara menguji stack Anda:
- Suntikkan memori yang buruk: Tanamkan fakta palsu dalam satu jalur pengambilan (retrieval path). Jika kedua jalur mengembalikan fakta palsu tersebut, jalur Anda saling terikat (coupled).
- Mutasi sebuah aturan: Ubah sebuah aturan secara luring (offline). Jika maker dan checker sama-sama mengikuti aturan baru tersebut tanpa menandai adanya ketidakcocokan, berarti mereka berbagi cache.
- Tanamkan telemetri yang salah: Catat ID model palsu. Jika pemeriksaan lolos, verifikator membaca catatan yang sama dengan penulis.
Sistem terdistribusi telah memecahkan masalah ini bertahun-tahun yang lalu. Mereka menggunakan chaos engineering dan uji partisi. Mereka tidak mempercayai sistem dengan hanya melihatnya berjalan dengan baik. Mereka mempercayainya dengan memicu kegagalan.
Arsitektur agen harus mengadopsi disiplin ini.
Independensi bukanlah properti yang Anda tetapkan sekali saja. Itu adalah properti yang harus Anda verifikasi ulang secara terus-menerus. Cache bersama atau pembaruan model dapat meruntuhkan independensi Anda dalam semalam.
Berhentilah mempercayai suara bulat. Mulailah melakukan injeksi kesalahan (injecting faults).
Source: https://dev.to/jugeni/a-quorum-costume-why-agent-verification-needs-fault-injection-kbh
Optional learning community: https://t.me/GyaanSetuAi
