𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

Translated for your language. Read the original.

AI-assisted draft.

kelmarin2min read

𝗟𝗟𝗠 𝗞𝗲𝗿𝗲𝗻𝘁𝗮𝗻𝗮𝗻 𝟭𝟬𝟭

Kebanyakan kelemahan keselamatan LLM bukanlah sesuatu yang bijak. Ia berpunca daripada dua fakta membosankan tentang cara model berfungsi. Sebaik sahaja anda memahaminya, senarai serangan yang menakutkan akan menjadi jelas.

Fakta 1: Model tidak melihat perbezaan antara arahan anda dan teks pengguna. Ia melihat satu aliran data. Ia tidak dapat membezakan bahagian mana yang boleh dipercayai dengan yakin.

Fakta 2: Alatan mengubah segalanya. Apabila anda memberi model akses kepada e-mel, carian, atau pangkalan data, anda menambah tempat baharu untuk teks yang tidak dipercayai masuk. Anda juga mengubah model yang hanya boleh bercakap menjadi model yang boleh bertindak.

Berhenti cuba memenangi hujah dengan model tersebut. Mula ubah apa yang dibenarkan untuk dilakukan oleh model itu.

Kerentanan Utama:

Suntikan Langsung (Direct Injection): Pengguna menaip "abaikan arahan sebelumnya" untuk mengatasi peraturan anda. Prompt sistem anda bukanlah sempadan keselamatan.
Jailbreak: Ini menyasarkan latihan keselamatan dan bukannya aplikasi anda. Penyerang menggunakan lakon peranan atau fiksyen untuk memintas penapis.
Kebocoran Prompt Sistem (System Prompt Leakage): Penyerang memperdaya model untuk mencetak arahannya sendiri. Jangan sekali-kali meletakkan kunci API atau rahsia dalam prompt.
Suntikan Tidak Langsung (Indirect Injection): Bahaya yang sebenar. Arahan berniat jahat tersembunyi dalam e-mel, PDF, atau halaman web. Model membacanya sebagai arahan.
Pencemaran RAG (RAG Poisoning): Penyerang menambah data buruk ke dalam pangkalan pengetahuan anda. Model akan mengambil kandungan ini dan mengikut arahan tersembunyi tersebut.
Serangan Multimodal: Arahan tersembunyi di dalam imej atau fail audio. Penapis teks tidak dapat melihatnya.
Penyalahgunaan Alatan (Tool Abuse): Suntikan yang berjaya membawa kepada tindakan sebenar seperti menghantar e-mel atau menjalankan kod. Ini adalah masalah "confused deputy".
Trifecta Maut: Keadaan yang paling berbahaya. Seorang ejen mempunyai akses kepada data peribadi, melihat kandungan yang tidak dipercayai, dan mempunyai cara untuk berkomunikasi dengan dunia luar.
Pencemaran Memori (Memory Poisoning): Penyerang menulis arahan buruk ke dalam memori jangka panjang model untuk mencetuskan serangan dalam sesi masa hadapan.
Penyebaran Multi-Ejen: Output satu ejen adalah arahan bagi ejen yang lain. Serangan boleh melompat melalui keseluruhan sistem anda.
Pencemaran MCP (MCP Poisoning): Deskripsi alatan yang berniat jahat boleh memperdaya model untuk menyerahkan kredensial.

Penyelesaiannya bukanlah model yang lebih baik. Ia adalah seni bina yang lebih baik.

Gunakan prinsip keistimewaan minimum (least privilege).
Letakkan manusia dalam proses (human in the loop) untuk tindakan kritikal.
Jangan sesekali membiarkan satu laluan memegang data peribadi, input yang tidak dipercayai, dan laluan keluar pada masa yang sama.

Bina ejen anda seolah-olah mereka sudah pun diceroboh. Hadkan apa yang mereka boleh lakukan, bukan sekadar apa yang mereka boleh katakan.

Sumber: https://dev.to/weboko/llm-vulnerabilities-101-3pcj

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

Continue reading

𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻 𝗮𝗻𝗱 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝗦𝗲𝗰𝘂𝗿𝗶𝘁𝘆

𝗟𝗟𝗠 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗲: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀

Pertahanan Suntikan Prompt: Buku Panduan Guardrails Produksi

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗦𝗰𝗿𝗮𝗽𝗲𝗱 𝗮 𝗣𝗮𝗴𝗲. 𝗧𝗵𝗲 𝗣𝗮𝗴𝗲 𝗧𝗼𝗹𝗱 𝗜𝘁 𝗪𝗵𝗮𝘁 𝘁𝗼 𝗗𝗼.

Memperkukuh Ejen AI Terhadap Suntikan Prompt