ನಿಮ್ಮ LLM ಗಾರ್ಡ್ರೈಲ್ ಇಂಗ್ಲಿಷ್ ಮಾತನಾಡುತ್ತದೆ. ನಿಮ್ಮ ದಾಳಿಕಾರ ಮಾತನಾಡಲಾರ.
ನನ್ನ ಸ್ವಂತ ವ್ಯವಸ್ಥೆಯನ್ನೇ ದಾಳಿ ಮಾಡುವ ಮೂಲಕ ನಾನು ಇದನ್ನು ಕಷ್ಟಪಟ್ಟು ಕಲಿತೆ.
ನಾನು FIE ಅನ್ನು ನಿರ್ವಹಿಸುತ್ತಿದ್ದೇನೆ, ಇದು LLM ಗೆ ತಲುಪುವ ಮೊದಲು ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಪರಿಶೀಲಿಸುವ ಒಂದು ಓಪನ್-ಸೋರ್ಸ್ ಇಂಜಿನ್ ಆಗಿದೆ. ನನ್ನ ವ್ಯವಸ್ಥೆಯು ಇಂಗ್ಲಿಷ್ನಲ್ಲಿರುವ "Ignore all previous instructions" ಎಂಬ ವಾಕ್ಯವನ್ನು 82% ವಿಶ್ವಾಸದೊಂದಿಗೆ ತಡೆಯುತ್ತದೆ.
ನಂತರ ನಾನು ಅದೇ ವಾಕ್ಯವನ್ನು ಹಿಂದಿಯಲ್ಲಿ ಪ್ರಯತ್ನಿಸಿದೆ. ಅದು ನನ್ನ ಭದ್ರತೆಯನ್ನು ಸುಲಭವಾಗಿ ದಾಟಿತು.
ಸುರಕ್ಷತಾ ತರಬೇತಿಯು ಇಂಗ್ಲಿಷ್ ಡೇಟಾದ ಮೇಲೆ ಅತಿಯಾಗಿ ಅವಲಂಬಿತವಾಗಿದೆ. ಕಡಿಮೆ ಸಂಪನ್ಮೂಲವಿರುವ ಭಾಷೆಗಳು ಭದ್ರತೆಯನ್ನು ಬೈಪಾಸ್ ಮಾಡಲು ಅಕಸ್ಮಾತ್ ದಾರಿಯಾಗುತ್ತಿವೆ. ಇಂಗ್ಲಿಷ್ನಲ್ಲಿ ವಿಫಲವಾಗುವ ಅದೇ ದುರುದ್ದೇಶವು ಬಂಗಾಳಿ, ಸ್ವಾಹಿಲಿ ಅಥವಾ ಜಾವಾನೀಸ್ ಭಾಷೆಗಳಲ್ಲಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ.
ಇದನ್ನು ಸರಿಪಡಿಸಲು ನಾನು ಮೂರು ವಾರಗಳನ್ನು ಕಳೆದೆ. ನಾನು ಮೂರು ಹಂತದ ರಕ್ಷಣಾ ವ್ಯವಸ್ಥೆಯನ್ನು ಹೇಗೆ ನಿರ್ಮಿಸಿದೆ ಎಂಬುದು ಇಲ್ಲಿದೆ:
ಹಂತ 1: ಸ್ಕ್ರಿಪ್ಟ್ ಅನಾಮಲಿ ಸ್ಕೋರಿಂಗ್ (Script anomaly scoring). ನಾನು ಪ್ರಾಂಪ್ಟ್ನ ಯುನಿಕೋಡ್ ಅನ್ನು ಸ್ಕೋರಿಂಗ್ ಮಾಡುತ್ತೇನೆ. ಇಂಗ್ಲಿಷ್ ಅಪ್ಲಿಕೇಶನ್ನಲ್ಲಿ ಇದ್ದಕ್ಕಿದ್ದಂತೆ ದೇವನಾಗರಿ ಅಥವಾ ಅರೇಬಿಕ್ ಲಿಪಿಗೆ ಬದಲಾಗುವುದು ಒಂದು ಸಂಕೇತವಾಗಿದೆ. ಈ ವಿಧಾನವು ವೇಗವಾಗಿದೆ ಮತ್ತು ಅಗ್ಗವಾಗಿದೆ.
ಹಂತ 2: ಸ್ಟ್ಯಾಟಿಕ್ ಫ್ರೇಸ್ ಮ್ಯಾಚಿಂಗ್ (Static phrase matching). ನಾನು ನನ್ನ ಪಟ್ಟಿಗೆ 14 ಭಾಷೆಗಳನ್ನು ಸೇರಿಸಿದೆ. ಹಿಂದಿ, ಜಪಾನೀಸ್, ಕೊರಿಯನ್, ಟರ್ಕಿಶ್, ಡಚ್ ಮತ್ತು ಪೋಲಿಷ್ ಭಾಷೆಗಳಲ್ಲಿನ ಇಂಜೆಕ್ಷನ್ ಫ್ರೇಸ್ಗಳನ್ನು ನಾನು ಸ್ವತಃ ಸಂಗ್ರಹಿಸಿದ್ದೇನೆ. ಇದು ಯಾವುದೇ ಹೆಚ್ಚುವರಿ ವೆಚ್ಚವಿಲ್ಲದೆ ಸಾಮಾನ್ಯ ದಾಳಿಗಳನ್ನು ಪತ್ತೆಹಚ್ಚುತ್ತದೆ.
ಹಂತ 3: ಟ್ರಾನ್ಸ್ಲೇಟ್-ದೆನ್-ಡಿಟೆಕ್ಟ್ (Translate-then-detect). ಇದು ಅತ್ಯಂತ ಪ್ರಮುಖವಾದ ಭಾಗವಾಗಿದೆ. ಒಂದು ಪ್ರಾಂಪ್ಟ್ ಮೊದಲ ಎರಡು ಹಂತಗಳನ್ನು ದಾಟಿದರೆ, ನಾನು ಭಾಷೆಯನ್ನು ಪತ್ತೆಹಚ್ಚಿ ಅದನ್ನು ಇಂಗ್ಲಿಷ್ಗೆ ಅನುವಾದಿಸುತ್ತೇನೆ. ನಂತರ ಆ ಅನುವಾದದ ಮೇಲೆ ನನ್ನ ಈಗಿರುವ ಕ್ಲಾಸಿಫೈಯರ್ ಅನ್ನು ರನ್ ಮಾಡುತ್ತೇನೆ. ದಾಳಿಕಾರ ಭಾಷೆಯನ್ನು ಬದಲಾಯಿಸಬಹುದು, ಆದರೆ ಅವರ ಉದ್ದೇಶವನ್ನು ಮರೆಮಾಚಲು ಸಾಧ್ಯವಿಲ್ಲ.
ಇದನ್ನು ತರಬೇತಿಗೊಳಿಸಲು, ನಾನು Meta ನ NLLB-200 ಮಾಡೆಲ್ ಅನ್ನು ಬಳಸಿದೆ. ನಾನು 1,352 ದಾಳಿ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು 10 ಭಾಷೆಗಳಿಗೆ ಅನುವಾದಿಸಿದೆ. ಇದು 13,528 ಹೊಸ ತರಬೇತಿ ಉದಾಹರಣೆಗಳನ್ನು ಸೃಷ್ಟಿಸಿತು. ನಾನು ಈ ಸಂಪೂರ್ಣ ಪ್ರಕ್ರಿಯೆಯನ್ನು $300 GPU ಮೇಲೆ ಸ್ಥಳೀಯವಾಗಿ (locally) ನಡೆಸಿದೆ.
JailbreakBench ಮೇಲಿನ ಫಲಿತಾಂಶಗಳು: • ಒಟ್ಟು 93.6% ರಿಕಾಲ್ (recall). • JailbreakChat ನಲ್ಲಿ 100%. • GCG ಸಫಿಕ್ಸ್ (suffixes) ನಲ್ಲಿ 90%. • PAIR ನಲ್ಲಿ 90.2%.
ನಾನು ಫಾಲ್ಸ್ ಪಾಸಿಟಿವ್ಗಳನ್ನು (false positives) ಸಹ ಟ್ರ್ಯಾಕ್ ಮಾಡುತ್ತೇನೆ. ಸುಳ್ಳು, ಪರಿಪೂರ್ಣ ಸಂಖ್ಯೆಯನ್ನು ತೋರಿಸುವ ಬದಲು ನಾನು ನಿಜವಾದ 27% ಫಾಲ್ಸ್ ಪಾಸಿಟಿವ್ ದರವನ್ನು ವರದಿ ಮಾಡಲು ಬಯಸುತ್ತೇನೆ. ಭದ್ರತೆಯನ್ನು ನಿರ್ಮಿಸಲು ಪ್ರಾಮಾಣಿಕತೆ ಅಗತ್ಯ.
ಮೂಲಗಳು: Deng et al. (2023). Multilingual Jailbreak Challenges in LLMs. arXiv:2310.06474 NLLB Team (2022). No Language Left Behind. arXiv:2207.04672 Röttger et al. (2023). XSTest. arXiv:2308.01263 Mazeika et al. (2024). HarmBench. arXiv:2402.04249 Chao et al. (2024). JailbreakBench. arXiv:2404.01318
Full post: https://dev.to/ayush_singh_9b0d83152be5b/your-llm-guardrail-speaks-english-your-attacker-doesnt-4bf2
Optional learning community: https://t.me/GyaanSetuAi