𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗴𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝘀𝗽𝗲𝗮𝗸𝘀 𝗘𝗻𝗴𝗹𝗶𝘀𝗵. 𝗬𝗼𝘂𝗿 𝗮𝘁𝘁𝗮𝗰𝗸𝗲𝗿 𝗱𝗼𝗲𝘀𝗻'𝘁.

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 hari yang lalu2min read

Saya mempelajari hal ini dengan cara yang sulit dengan menyerang sistem saya sendiri.

Saya mengelola FIE, sebuah mesin open-source yang menyaring prompt sebelum mencapai LLM. Sistem saya memblokir "Ignore all previous instructions" dalam bahasa Inggris dengan tingkat kepercayaan 82%.

Kemudian saya mencoba kalimat yang sama dalam bahasa Hindi. Kalimat tersebut berhasil menembus keamanan saya dengan mudah.

Pelatihan keamanan terlalu bergantung pada data bahasa Inggris. Bahasa dengan sumber daya rendah (low-resource languages) menjadi cara yang tidak disengaja untuk melewati keamanan. Niat jahat yang sama yang gagal dalam bahasa Inggris dapat berhasil dalam bahasa Bengali, Swahili, atau Jawa.

Saya menghabiskan tiga minggu untuk memperbaiki hal ini. Berikut adalah cara saya membangun pertahanan tiga lapis:

Tier 1: Penilaian anomali skrip. Saya menilai Unicode dari prompt tersebut. Perubahan mendadak ke skrip Devanagari atau Arab dalam aplikasi bahasa Inggris adalah sebuah sinyal. Metode ini cepat dan murah.

Tier 2: Pencocokan frasa statis. Saya menambahkan 14 bahasa ke dalam daftar saya. Saya mengurasi sendiri frasa injeksi dalam bahasa Hindi, Jepang, Korea, Turki, Belanda, dan Polandia. Ini menangkap serangan umum tanpa biaya tambahan.

Tier 3: Terjemahkan-lalu-deteksi. Ini adalah bagian terpenting. Jika sebuah prompt lolos dari dua tier pertama, saya mendeteksi bahasanya dan menerjemahkannya ke bahasa Inggris. Saya kemudian menjalankan classifier yang sudah ada pada terjemahan tersebut. Penyerang dapat mengubah bahasa, tetapi mereka tidak dapat menyembunyikan niatnya.

Untuk melatih ini, saya menggunakan model NLLB-200 milik Meta. Saya menerjemahkan 1.352 prompt serangan ke dalam 10 bahasa. Ini menghasilkan 13.528 contoh pelatihan baru. Saya menjalankan seluruh proses ini secara lokal pada GPU seharga $300.

Hasil pada JailbreakBench: • Total recall 93,6%. • 100% pada JailbreakChat. • 90% pada suffix GCG. • 90,2% pada PAIR.

Saya juga melacak false positive. Saya lebih memilih melaporkan tingkat false positive yang sebenarnya sebesar 27% daripada menunjukkan angka sempurna yang palsu. Membangun keamanan membutuhkan kejujuran.

Sumber: Deng et al. (2023). Multilingual Jailbreak Challenges in LLMs. arXiv:2310.06474 NLLB Team (2022). No Language Left Behind. arXiv:2207.04672 Röttger et al. (2023). XSTest. arXiv:2308.01263 Mazeika et al. (2024). HarmBench. arXiv:2402.04249 Chao et al. (2024). JailbreakBench. arXiv:2404.01318

Postingan lengkap: https://dev.to/ayush_singh_9b0d83152be5b/your-llm-guardrail-speaks-english-your-attacker-doesnt-4bf2

Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi

𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗴𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝘀𝗽𝗲𝗮𝗸𝘀 𝗘𝗻𝗴𝗹𝗶𝘀𝗵. 𝗬𝗼𝘂𝗿 𝗮𝘁𝘁𝗮𝗰𝗸𝗲𝗿 𝗱𝗼𝗲𝘀𝗻'𝘁.

Continue reading

Guardrails untuk Agen AI Perusahaan

𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻 𝗮𝗻𝗱 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝗦𝗲𝗰𝘂𝗿𝗶𝘁𝘆

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗟𝗟𝗠 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗲: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀

𝟳 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗧𝗵𝗮𝘁 𝗦𝘁𝗼𝗽 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗙𝗿𝗼𝗺 𝗚𝗼𝗶𝗻𝗴 𝗥𝗼𝗴𝘂𝗲