Jangan Gunakan LLM untuk Menentukan Tindakan Ejen AI

Berhenti menggunakan LLM untuk menentukan apa yang dibenarkan untuk dilakukan oleh ejen AI anda.

Saya merupakan sebahagian daripada kumpulan yang dipanggil AARM. Kami mengkaji cara untuk mengamankan ejen AI. Kami bersetuju tentang satu perkara: kawalan mesti berada pada titik tindakan. Anda menyemak panggilan alatan (tool call) sebelum ia dijalankan. Ejen tersebut tidak boleh memintas semakan ini. Memberitahu ejen "tolong jangan lakukan ini" bukanlah satu model keselamatan.

Ramai orang menggunakan LLM kedua sebagai hakim. Ejen ingin bertindak. Anda menghantar tindakan tersebut kepada model kedua. Anda bertanya kepadanya sama ada tindakan itu selamat. Model tersebut menjawab ya atau tidak. Ini adalah satu model yang memerhati model yang lain. Pendekatan ini mempunyai dua kelemahan utama.

Pertama, hakim mempunyai kelemahan yang sama dengan ejen. Ejen boleh diperdaya melalui suntikan arahan (prompt injection) atau permintaan pengguna yang licik. Jika anda boleh memperdaya ejen, anda berkemungkinan besar boleh memperdaya hakim tersebut. Anda meletakkan sistem kedua yang bertindak balas terhadap tekanan di hadapan sistem yang pertama.

Kedua, LLM tidak bersifat deterministik. Anda boleh bertanya soalan yang sama kepada model sebanyak dua kali dan mendapat jawapan yang berbeza. Ini berlaku disebabkan oleh pensampelan (sampling). Bagi kebanyakan tugasan, ini tidak menjadi masalah. Namun bagi keselamatan, ia adalah satu liabiliti.

Seorang ejen mungkin dibenarkan untuk memadam pangkalan data pada hari Selasa tetapi disekat pada hari Rabu. Tiada logik untuk menjelaskan mengapa. Ia hanyalah seperti balingan dadu yang berbeza. Anda tidak boleh menjelaskan perkara ini kepada juruaudit. Anda tidak boleh bergantung kepadanya pada pukul dua pagi apabila keadaan menjadi kacau-bilau.

Peraturan adalah berbeza. Peraturan menyatakan "tolak pemadaman pada produksi." Ini berfungsi setiap masa. Anda boleh mengujinya. Anda boleh mengaudit log. Anda boleh mempertahankan keputusan tersebut.

Model adalah berguna untuk keselamatan, tetapi bukan sebagai pintu gerbang terakhir. Gunakan model untuk kerja-kerja ringan:

  • Mengesan corak yang pelik.
  • Menandakan teks sensitif.
  • Memberi skor tahap risiko.
  • Mengenal pasti anomali.

Biarkan model menandakan isu tersebut, tetapi jangan biarkan ia membuka pintu gerbang. Keputusan muktamad mesti terletak pada sistem yang memberikan jawapan yang sama setiap masa.

Semakin hampir ejen anda dengan wang, data produksi, atau maklumat pelanggan, semakin penting perkara ini. Jika ejen menulis perenggan yang buruk, ia bukan satu krisis. Jika ejen memadamkan pangkalan data, ia adalah satu bencana.

Keputusan muktamad sepatutnya membosankan. Ia sepatutnya menjadi garis tegas yang tidak boleh dipintas oleh ejen melalui perbualan.

Source: https://dev.to/brianrhall/dont-use-an-llm-to-decide-what-your-ai-agent-is-allowed-to-do-1dkn

Optional learning community: https://t.me/GyaanSetuAi