Kostum Kuorum: Mengapa Pengesahan Ejen Memerlukan Suntikan Ralat

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 minggu lalu2min read

Kostum Kuorum: Mengapa Pengesahan Ejen Memerlukan Suntikan Ralat

Ejen AI anda mungkin sedang menipu anda tentang ketepatannya sendiri.

Saya baru-baru ini menyaksikan rakan AI gagal tiga kali berturut-turut. Ia terlepas masalah kebenaran yang sama merentasi pelbagai permukaan. Ia menulis dalam nada yang salah. Model penyemak memberikannya penilaian yang lebih tinggi setiap kali ia membaca ralat yang sama. Ia juga tersalah mengira fakta tentang anjakan fakta (fact drift).

Saya hanya dapat mengesan ralat ini kerana saya berada di luar kitaran tersebut.

Ini mendedahkan masalah besar dalam stack ejen. Kebanyakan sistem pengesahan mengandaikan keberasingan. Mereka menggunakan pengundian pelbagai ejen, corak pembuat/penyemak, atau prompt ensemble. Mereka mengandaikan laluan yang berbeza akan melihat perkara yang berbeza.

Tetapi sering kali, laluan-laluan ini berkongsi sumber yang sama.

Apabila penyemak membaca daripada sumber yang sama dengan penulis, anda tidak mempunyai dua pandangan. Anda mempunyai satu pandangan dalam dua peranan berbeza. Ini adalah satu titik kegagalan tunggal yang memakai kostum kuorum.

Jika laluan-laluan tersebut berkongsi hulu (upstream) yang sama, mereka akan bersetuju dengan fakta salah yang sama atau halusinasi yang sama. Sistem kelihatan sihat kerana outputnya kelihatan pelbagai, tetapi ia gagal setiap kali sumber tersebut menipu.

Untuk membetulkan perkara ini, anda mesti menggunakan suntikan ralat (fault injection).

Jangan sekadar mengukur sama ada ejen-ejen tidak bersetuju. Ukur sama ada anda boleh memaksa mereka untuk tidak bersetuju dengan merosakkan sebahagian daripada sistem.

Berikut adalah cara anda menguji stack anda:

Suntik memori yang buruk: Tanam fakta palsu dalam satu laluan capaian. Jika kedua-dua laluan mengembalikan fakta palsu tersebut, laluan anda adalah berkait (coupled).
Mutasikan peraturan: Ubah peraturan secara luar talian. Jika pembuat dan penyemak kedua-duanya mengikut peraturan baharu tanpa menandakan ketidakpadanan, mereka berkongsi cache.
Tanam telemetri yang salah: Log ID model palsu. Jika semakan lulus, pengesah sedang membaca rekod yang sama dengan penulis.

Sistem teragih telah menyelesaikan masalah ini bertahun-tahun yang lalu. Mereka menggunakan kejuruteraan huru-hara (chaos engineering) dan ujian pembahagian (partition tests). Mereka tidak mempercayai sistem dengan hanya memerhatikannya berjalan lancar. Mereka mempercayainya dengan mencetuskan kegagalan.

Seni bina ejen mesti mengguna pakai disiplin ini.

Keberasingan bukanlah sifat yang anda tetapkan sekali sahaja. Ia adalah sifat yang mesti anda sahkan semula secara berterusan. Cache yang dikongsi atau kemas kini model boleh meruntuhkan keberasingan anda dalam sekelip mata.

Berhenti mempercayai undian sebulat suara. Mula menyuntik ralat.

Source: https://dev.to/jugeni/a-quorum-costume-why-agent-verification-needs-fault-injection-kbh

Optional learning community: https://t.me/GyaanSetuAi

Kostum Kuorum: Mengapa Pengesahan Ejen Memerlukan Suntikan Ralat

Continue reading

Ejen AI Mempunyai Masalah Kebolehpercayaan

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗗𝗼𝗻’𝘁 𝗝𝘂𝘀𝘁 𝗛𝗮𝗰𝗸. 𝗧𝗵𝗲𝘆 𝗖𝗵𝗲𝗮𝘁 𝗧𝗵𝗲𝗺𝘀𝗲𝗹𝘃𝗲𝘀

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗜𝘀𝗻'𝘁 𝗕𝗿𝗼𝗸𝗲𝗻. 𝗬𝗼𝘂𝗿 𝗖𝗼𝗺𝗽𝗮𝗻𝘆'𝘀 𝗧𝗿𝘂𝘁𝗵 𝗜𝘀.

𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁 𝗖𝗵𝗲𝗰𝗸𝗲𝗱 𝗘𝘃𝗲𝗿𝘆𝘁𝗵𝗶𝗻𝗴. 𝗜𝘁 𝗪𝗮𝘀 𝗦𝘁𝗶𝗹𝗹 𝗪𝗿𝗼𝗻𝗴.

Membina Persekitaran Ujian Ejen AI Sebelum Produksi