Votre garde-fou LLM parle anglais. Votre attaquant, non.

Je l'ai appris à mes dépens en attaquant mon propre système.

Je maintiens FIE, un moteur open-source qui filtre les prompts avant qu'ils n'atteignent un LLM. Mon système bloque « Ignore all previous instructions » en anglais avec un indice de confiance de 82 %.

Ensuite, j'ai essayé la même phrase en hindi. Elle a contourné ma sécurité sans difficulté.

L'entraînement à la sécurité repose trop sur des données en anglais. Les langues à faibles ressources deviennent un moyen accidentel de contourner la sécurité. L'intention malveillante qui échoue en anglais fonctionne en bengali, en swahili ou en javanais.

J'ai passé trois semaines à corriger cela. Voici comment j'ai construit une défense à trois niveaux :

Niveau 1 : Score d'anomalie de script. Je calcule un score basé sur l'Unicode du prompt. Un passage soudain à l'écriture devanagari ou arabe dans une application anglaise est un signal. Cette méthode est rapide et peu coûteuse.

Niveau 2 : Correspondance de phrases statiques. J'ai ajouté 14 langues à ma liste. J'ai sélectionné manuellement des phrases d'injection en hindi, japonais, coréen, turc, néerlandais et polonais. Cela permet de détecter les attaques courantes sans coût supplémentaire.

Niveau 3 : Traduction puis détection. C'est la partie la plus importante. Si un prompt passe les deux premiers niveaux, je détecte la langue et la traduis en anglais. J'exécute ensuite mon classificateur existant sur cette traduction. Un attaquant peut changer de langue, mais il ne peut pas masquer son intention.

Pour l'entraînement, j'ai utilisé le modèle NLLB-200 de Meta. J'ai traduit 1 352 prompts d'attaque en 10 langues. Cela a généré 13 528 nouveaux exemples d'entraînement. J'ai exécuté l'ensemble de ce processus localement sur un GPU à 300 $.

Les résultats sur JailbreakBench : • Rappel total de 93,6 %. • 100 % sur JailbreakChat. • 90 % sur les suffixes GCG. • 90,2 % sur PAIR.

Je suis également les faux positifs. Je préfère rapporter un taux de faux positifs réel de 27 % plutôt que d'afficher un chiffre parfait mais mensonger. Construire de la sécurité exige de l'honnêteté.

Sources : Deng et al. (2023). Multilingual Jailbreak Challenges in LLMs. arXiv:2310.06474 NLLB Team (2022). No Language Left Behind. arXiv:2207.04672 Röttger et al. (2023). XSTest. arXiv:2308.01263 Mazeika et al. (2024). HarmBench. arXiv:2402.04249 Chao et al. (2024). JailbreakBench. arXiv:2404.01318

Article complet :