𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗴𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝘀𝗽𝗲𝗮𝗸𝘀 𝗘𝗻𝗴𝗹𝗶𝘀𝗵. 𝗬𝗼𝘂𝗿 𝗮𝘁𝘁𝗮𝗰𝗸𝗲𝗿 𝗱𝗼𝗲𝘀𝗻'𝘁.
Saya mempelajari hal ini dengan cara yang sulit dengan menyerang sistem saya sendiri.
Saya mengelola FIE, sebuah mesin open-source yang menyaring prompt sebelum mencapai LLM. Sistem saya memblokir "Ignore all previous instructions" dalam bahasa Inggris dengan tingkat kepercayaan 82%.
Kemudian saya mencoba kalimat yang sama dalam bahasa Hindi. Kalimat tersebut berhasil menembus keamanan saya dengan mudah.
Pelatihan keamanan terlalu bergantung pada data bahasa Inggris. Bahasa dengan sumber daya rendah (low-resource languages) menjadi cara yang tidak disengaja untuk melewati keamanan. Niat jahat yang sama yang gagal dalam bahasa Inggris dapat berhasil dalam bahasa Bengali, Swahili, atau Jawa.
Saya menghabiskan tiga minggu untuk memperbaiki hal ini. Berikut adalah cara saya membangun pertahanan tiga lapis:
Tier 1: Penilaian anomali skrip. Saya menilai Unicode dari prompt tersebut. Perubahan mendadak ke skrip Devanagari atau Arab dalam aplikasi bahasa Inggris adalah sebuah sinyal. Metode ini cepat dan murah.
Tier 2: Pencocokan frasa statis. Saya menambahkan 14 bahasa ke dalam daftar saya. Saya mengurasi sendiri frasa injeksi dalam bahasa Hindi, Jepang, Korea, Turki, Belanda, dan Polandia. Ini menangkap serangan umum tanpa biaya tambahan.
Tier 3: Terjemahkan-lalu-deteksi. Ini adalah bagian terpenting. Jika sebuah prompt lolos dari dua tier pertama, saya mendeteksi bahasanya dan menerjemahkannya ke bahasa Inggris. Saya kemudian menjalankan classifier yang sudah ada pada terjemahan tersebut. Penyerang dapat mengubah bahasa, tetapi mereka tidak dapat menyembunyikan niatnya.
Untuk melatih ini, saya menggunakan model NLLB-200 milik Meta. Saya menerjemahkan 1.352 prompt serangan ke dalam 10 bahasa. Ini menghasilkan 13.528 contoh pelatihan baru. Saya menjalankan seluruh proses ini secara lokal pada GPU seharga $300.
Hasil pada JailbreakBench: • Total recall 93,6%. • 100% pada JailbreakChat. • 90% pada suffix GCG. • 90,2% pada PAIR.
Saya juga melacak false positive. Saya lebih memilih melaporkan tingkat false positive yang sebenarnya sebesar 27% daripada menunjukkan angka sempurna yang palsu. Membangun keamanan membutuhkan kejujuran.
Sumber: Deng et al. (2023). Multilingual Jailbreak Challenges in LLMs. arXiv:2310.06474 NLLB Team (2022). No Language Left Behind. arXiv:2207.04672 Röttger et al. (2023). XSTest. arXiv:2308.01263 Mazeika et al. (2024). HarmBench. arXiv:2402.04249 Chao et al. (2024). JailbreakBench. arXiv:2404.01318
Postingan lengkap: https://dev.to/ayush_singh_9b0d83152be5b/your-llm-guardrail-speaks-english-your-attacker-doesnt-4bf2
Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi