Hàng rào bảo vệ LLM của bạn nói tiếng Anh. Kẻ tấn công của bạn thì không.

Tôi đã học được bài học xương máu này bằng cách tấn công chính hệ thống của mình.

Tôi duy trì FIE, một công cụ mã nguồn mở giúp sàng lọc các prompt trước khi chúng đến được LLM. Hệ thống của tôi chặn được câu "Ignore all previous instructions" bằng tiếng Anh với độ tin cậy 82%.

Sau đó, tôi thử dùng chính câu đó bằng tiếng Hindi. Nó đã vượt qua hàng rào bảo mật của tôi một cách dễ dàng.

Việc huấn luyện an toàn đang phụ thuộc quá nhiều vào dữ liệu tiếng Anh. Các ngôn ngữ ít tài nguyên (low-resource languages) vô tình trở thành một cách để vượt qua bảo mật. Cùng một ý đồ độc hại nếu thất bại bằng tiếng Anh thì vẫn có thể thành công bằng tiếng Bengali, Swahili hoặc tiếng Javanese.

Tôi đã dành ba tuần để khắc phục vấn đề này. Đây là cách tôi xây dựng hệ thống phòng thủ ba lớp:

Lớp 1: Chấm điểm bất thường về hệ chữ viết (Script anomaly scoring). Tôi chấm điểm Unicode của prompt. Việc chuyển đổi đột ngột sang chữ Devanagari hoặc chữ Ả Rập trong một ứng dụng tiếng Anh là một tín hiệu cảnh báo. Phương pháp này nhanh và ít tốn kém.

Lớp 2: Khớp cụm từ tĩnh (Static phrase matching). Tôi đã thêm 14 ngôn ngữ vào danh sách của mình. Tôi đã tự tay biên soạn các cụm từ chèn lệnh (injection phrases) bằng tiếng Hindi, tiếng Nhật, tiếng Hàn, tiếng Thổ Nhĩ Kỳ, tiếng Hà Lan và tiếng Ba Lan. Cách này giúp bắt được các cuộc tấn công phổ biến mà không tốn thêm chi phí.

Lớp 3: Dịch rồi mới phát hiện (Translate-then-detect). Đây là phần quan trọng nhất. Nếu một prompt vượt qua hai lớp đầu tiên, tôi sẽ nhận diện ngôn ngữ và dịch nó sang tiếng Anh. Sau đó, tôi chạy bộ phân loại (classifier) hiện có của mình trên bản dịch đó. Kẻ tấn công có thể thay đổi ngôn ngữ, nhưng chúng không thể che giấu được ý đồ.

Để huấn luyện hệ thống này, tôi đã sử dụng mô hình NLLB-200 của Meta. Tôi đã dịch 1.352 prompt tấn công sang 10 ngôn ngữ khác nhau. Việc này tạo ra 13.528 ví dụ huấn luyện mới. Tôi đã chạy toàn bộ quy trình này cục bộ trên một GPU trị giá 300 USD.

Kết quả trên JailbreakBench: • Tổng recall đạt 93,6%. • 100% trên JailbreakChat. • 90% trên các hậu tố GCG. • 90,2% trên PAIR.

Tôi cũng theo dõi tỷ lệ dương tính giả (false positives). Tôi thà báo cáo tỷ lệ dương tính giả thực tế là 27% còn hơn là đưa ra một con số hoàn hảo giả tạo. Xây dựng bảo mật đòi hỏi sự trung thực.

Nguồn: Deng et al. (2023). Multilingual Jailbreak Challenges in LLMs. arXiv:2310.06474 NLLB Team (2022). No Language Left Behind. arXiv:2207.04672 Röttger et al. (2023). XSTest. arXiv:2308.01263 Mazeika et al. (2024). HarmBench. arXiv:2402.04249 Chao et al. (2024). JailbreakBench. arXiv:2404.01318

Bài viết đầy đủ: https://dev.to/ayush_singh_9b0d83152be5b/your-llm-guardrail-speaks-english-your-attacker-doesnt-4bf2

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi