Votre garde-fou LLM parle anglais. Votre attaquant ne le parle pas.

Translated for your language. Lire l'original.

AI-assisted draft.

GyaanSetu Editorialil y a 3 jours2min de lecture

Votre garde-fou LLM parle anglais. Votre attaquant, non.

Je l'ai appris à mes dépens en attaquant mon propre système.

Je maintiens FIE, un moteur open-source qui filtre les prompts avant qu'ils n'atteignent un LLM. Mon système bloque « Ignore all previous instructions » en anglais avec un indice de confiance de 82 %.

Ensuite, j'ai essayé la même phrase en hindi. Elle a contourné ma sécurité sans difficulté.

L'entraînement à la sécurité repose trop sur des données en anglais. Les langues à faibles ressources deviennent un moyen accidentel de contourner la sécurité. L'intention malveillante qui échoue en anglais fonctionne en bengali, en swahili ou en javanais.

J'ai passé trois semaines à corriger cela. Voici comment j'ai construit une défense à trois niveaux :

Niveau 1 : Score d'anomalie de script. Je calcule un score basé sur l'Unicode du prompt. Un passage soudain à l'écriture devanagari ou arabe dans une application anglaise est un signal. Cette méthode est rapide et peu coûteuse.

Niveau 2 : Correspondance de phrases statiques. J'ai ajouté 14 langues à ma liste. J'ai sélectionné manuellement des phrases d'injection en hindi, japonais, coréen, turc, néerlandais et polonais. Cela permet de détecter les attaques courantes sans coût supplémentaire.

Niveau 3 : Traduction puis détection. C'est la partie la plus importante. Si un prompt passe les deux premiers niveaux, je détecte la langue et la traduis en anglais. J'exécute ensuite mon classificateur existant sur cette traduction. Un attaquant peut changer de langue, mais il ne peut pas masquer son intention.

Pour l'entraînement, j'ai utilisé le modèle NLLB-200 de Meta. J'ai traduit 1 352 prompts d'attaque en 10 langues. Cela a généré 13 528 nouveaux exemples d'entraînement. J'ai exécuté l'ensemble de ce processus localement sur un GPU à 300 $.

Les résultats sur JailbreakBench : • Rappel total de 93,6 %. • 100 % sur JailbreakChat. • 90 % sur les suffixes GCG. • 90,2 % sur PAIR.

Je suis également les faux positifs. Je préfère rapporter un taux de faux positifs réel de 27 % plutôt que d'afficher un chiffre parfait mais mensonger. Construire de la sécurité exige de l'honnêteté.

Sources : Deng et al. (2023). Multilingual Jailbreak Challenges in LLMs. arXiv:2310.06474 NLLB Team (2022). No Language Left Behind. arXiv:2207.04672 Röttger et al. (2023). XSTest. arXiv:2308.01263 Mazeika et al. (2024). HarmBench. arXiv:2402.04249 Chao et al. (2024). JailbreakBench. arXiv:2404.01318

Article complet :

Votre garde-fou LLM parle anglais. Votre attaquant ne le parle pas.

Continuer la lecture

𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻 𝗮𝗻𝗱 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝗦𝗲𝗰𝘂𝗿𝗶𝘁𝘆

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗟𝗟𝗠 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗲: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀

𝟳 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗧𝗵𝗮𝘁 𝗦𝘁𝗼𝗽 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗙𝗿𝗼𝗺 𝗚𝗼𝗶𝗻𝗴 𝗥𝗼𝗴𝘂𝗲