𝗟𝗟𝗠 𝗞𝗲𝗿𝗲𝗻𝘁𝗮𝗻𝗮𝗻 𝟭𝟬𝟭
Kebanyakan kelemahan keselamatan LLM bukanlah sesuatu yang bijak. Ia berpunca daripada dua fakta membosankan tentang cara model berfungsi. Sebaik sahaja anda memahaminya, senarai serangan yang menakutkan akan menjadi jelas.
Fakta 1: Model tidak melihat perbezaan antara arahan anda dan teks pengguna. Ia melihat satu aliran data. Ia tidak dapat membezakan bahagian mana yang boleh dipercayai dengan yakin.
Fakta 2: Alatan mengubah segalanya. Apabila anda memberi model akses kepada e-mel, carian, atau pangkalan data, anda menambah tempat baharu untuk teks yang tidak dipercayai masuk. Anda juga mengubah model yang hanya boleh bercakap menjadi model yang boleh bertindak.
Berhenti cuba memenangi hujah dengan model tersebut. Mula ubah apa yang dibenarkan untuk dilakukan oleh model itu.
Kerentanan Utama:
- Suntikan Langsung (Direct Injection): Pengguna menaip "abaikan arahan sebelumnya" untuk mengatasi peraturan anda. Prompt sistem anda bukanlah sempadan keselamatan.
- Jailbreak: Ini menyasarkan latihan keselamatan dan bukannya aplikasi anda. Penyerang menggunakan lakon peranan atau fiksyen untuk memintas penapis.
- Kebocoran Prompt Sistem (System Prompt Leakage): Penyerang memperdaya model untuk mencetak arahannya sendiri. Jangan sekali-kali meletakkan kunci API atau rahsia dalam prompt.
- Suntikan Tidak Langsung (Indirect Injection): Bahaya yang sebenar. Arahan berniat jahat tersembunyi dalam e-mel, PDF, atau halaman web. Model membacanya sebagai arahan.
- Pencemaran RAG (RAG Poisoning): Penyerang menambah data buruk ke dalam pangkalan pengetahuan anda. Model akan mengambil kandungan ini dan mengikut arahan tersembunyi tersebut.
- Serangan Multimodal: Arahan tersembunyi di dalam imej atau fail audio. Penapis teks tidak dapat melihatnya.
- Penyalahgunaan Alatan (Tool Abuse): Suntikan yang berjaya membawa kepada tindakan sebenar seperti menghantar e-mel atau menjalankan kod. Ini adalah masalah "confused deputy".
- Trifecta Maut: Keadaan yang paling berbahaya. Seorang ejen mempunyai akses kepada data peribadi, melihat kandungan yang tidak dipercayai, dan mempunyai cara untuk berkomunikasi dengan dunia luar.
- Pencemaran Memori (Memory Poisoning): Penyerang menulis arahan buruk ke dalam memori jangka panjang model untuk mencetuskan serangan dalam sesi masa hadapan.
- Penyebaran Multi-Ejen: Output satu ejen adalah arahan bagi ejen yang lain. Serangan boleh melompat melalui keseluruhan sistem anda.
- Pencemaran MCP (MCP Poisoning): Deskripsi alatan yang berniat jahat boleh memperdaya model untuk menyerahkan kredensial.
Penyelesaiannya bukanlah model yang lebih baik. Ia adalah seni bina yang lebih baik.
- Gunakan prinsip keistimewaan minimum (least privilege).
- Letakkan manusia dalam proses (human in the loop) untuk tindakan kritikal.
- Jangan sesekali membiarkan satu laluan memegang data peribadi, input yang tidak dipercayai, dan laluan keluar pada masa yang sama.
Bina ejen anda seolah-olah mereka sudah pun diceroboh. Hadkan apa yang mereka boleh lakukan, bukan sekadar apa yang mereka boleh katakan.
Sumber: https://dev.to/weboko/llm-vulnerabilities-101-3pcj
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi