Ваш LLM-guardrail розмовляє англійською. Ваш зловмисник — ні.

Я вивчив це на власному гіркому досвіді, атакувавши власну систему.

Я підтримую FIE — двигун з відкритим вихідним кодом, який перевіряє промпти перед тим, як вони потраплять до LLM. Моя система блокує фразу «Ignore all previous instructions» англійською з імовірністю 82%.

Потім я спробував ту саму фразу хінді. Вона легко пройшла крізь мій захист.

Навчання безпеці занадто сильно покладається на англомовні дані. Мови з низьким рівнем ресурсів стають випадковим способом обходу захисту. Той самий зловмисний намір, який не спрацьовує англійською, працює бенгальською, суахілі або яванською.

Я витратив три тижні на виправлення цієї проблеми. Ось як я побудував трирівневий захист:

Рівень 1: Оцінка аномалій скрипту. Я оцінюю Unicode промпту. Раптова зміна на деванагарі або арабський скрипт в англомовному додатку є сигналом. Цей метод швидкий і дешевий.

Рівень 2: Статичне зіставлення фраз. Я додав 14 мов до свого списку. Я вручну підібрав фрази ін'єкцій хінді, японською, корейською, турецькою, нідерландською та польською. Це дозволяє виявляти поширені атаки без жодних додаткових витрат.

Рівень 3: Переклад, а потім виявлення. Це найважливіша частина. Якщо промпт проходить перші два рівні, я визначаю мову та перекладаю її на англійську. Потім я запускаю свій існуючий класифікатор на цьому перекладі. Зловмисник може змінити мову, але він не може приховати намір.

Для навчання я використовував модель NLLB-200 від Meta. Я переклав 1352 атакуючі промпти на 10 мов. Це створило 13 528 нових прикладів для навчання. Я запустив увесь цей процес локально на GPU за 300 доларів.

Результати на JailbreakBench: • 93,6% загальної повноти (recall). • 100% на JailbreakChat. • 90% на суфіксах GCG. • 90,2% на PAIR.

Я також відстежую хибнопозитивні результати. Я краще повідомлю про реальний рівень хибнопозитивних результатів у 27%, ніж покажу фальшивий, ідеальний показник. Побудова безпеки потребує чесності.

Джерела: Deng et al. (2023). Multilingual Jailbreak Challenges in LLMs. arXiv:2310.06474 NLLB Team (2022). No Language Left Behind. arXiv:2207.04672 Röttger et al. (2023). XSTest. arXiv:2308.01263 Mazeika et al. (2024). HarmBench. arXiv:2402.04249 Chao et al. (2024). JailbreakBench. arXiv:2404.01318

Повний пост: https://dev.to/ayush_singh_9b0d83152be5b/your-llm-guardrail-speaks-english-your-attacker-doesnt-4bf2

Опціональна спільнота для навчання: https://t.me/GyaanSetuAi