𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗴𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝘀𝗽𝗲𝗮𝗸𝘀 𝗘𝗻𝗴𝗹𝗶𝘀𝗵. 𝗬𝗼𝘂𝗿 𝗮𝘁𝘁𝗮𝗰𝗸𝗲𝗿 𝗱𝗼𝗲𝘀𝗻'𝘁.

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 ದಿನಗಳ ಹಿಂದೆ2min read

ನಿಮ್ಮ LLM ಗಾರ್ಡ್‌ರೈಲ್ ಇಂಗ್ಲಿಷ್ ಮಾತನಾಡುತ್ತದೆ. ನಿಮ್ಮ ದಾಳಿಕಾರ ಮಾತನಾಡಲಾರ.

ನನ್ನ ಸ್ವಂತ ವ್ಯವಸ್ಥೆಯನ್ನೇ ದಾಳಿ ಮಾಡುವ ಮೂಲಕ ನಾನು ಇದನ್ನು ಕಷ್ಟಪಟ್ಟು ಕಲಿತೆ.

ನಾನು FIE ಅನ್ನು ನಿರ್ವಹಿಸುತ್ತಿದ್ದೇನೆ, ಇದು LLM ಗೆ ತಲುಪುವ ಮೊದಲು ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಪರಿಶೀಲಿಸುವ ಒಂದು ಓಪನ್-ಸೋರ್ಸ್ ಇಂಜಿನ್ ಆಗಿದೆ. ನನ್ನ ವ್ಯವಸ್ಥೆಯು ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿರುವ "Ignore all previous instructions" ಎಂಬ ವಾಕ್ಯವನ್ನು 82% ವಿಶ್ವಾಸದೊಂದಿಗೆ ತಡೆಯುತ್ತದೆ.

ನಂತರ ನಾನು ಅದೇ ವಾಕ್ಯವನ್ನು ಹಿಂದಿಯಲ್ಲಿ ಪ್ರಯತ್ನಿಸಿದೆ. ಅದು ನನ್ನ ಭದ್ರತೆಯನ್ನು ಸುಲಭವಾಗಿ ದಾಟಿತು.

ಸುರಕ್ಷತಾ ತರಬೇತಿಯು ಇಂಗ್ಲಿಷ್ ಡೇಟಾದ ಮೇಲೆ ಅತಿಯಾಗಿ ಅವಲಂಬಿತವಾಗಿದೆ. ಕಡಿಮೆ ಸಂಪನ್ಮೂಲವಿರುವ ಭಾಷೆಗಳು ಭದ್ರತೆಯನ್ನು ಬೈಪಾಸ್ ಮಾಡಲು ಅಕಸ್ಮಾತ್ ದಾರಿಯಾಗುತ್ತಿವೆ. ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ವಿಫಲವಾಗುವ ಅದೇ ದುರುದ್ದೇಶವು ಬಂಗಾಳಿ, ಸ್ವಾಹಿಲಿ ಅಥವಾ ಜಾವಾನೀಸ್ ಭಾಷೆಗಳಲ್ಲಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ.

ಇದನ್ನು ಸರಿಪಡಿಸಲು ನಾನು ಮೂರು ವಾರಗಳನ್ನು ಕಳೆದೆ. ನಾನು ಮೂರು ಹಂತದ ರಕ್ಷಣಾ ವ್ಯವಸ್ಥೆಯನ್ನು ಹೇಗೆ ನಿರ್ಮಿಸಿದೆ ಎಂಬುದು ಇಲ್ಲಿದೆ:

ಹಂತ 1: ಸ್ಕ್ರಿಪ್ಟ್ ಅನಾಮಲಿ ಸ್ಕೋರಿಂಗ್ (Script anomaly scoring). ನಾನು ಪ್ರಾಂಪ್ಟ್‌ನ ಯುನಿಕೋಡ್ ಅನ್ನು ಸ್ಕೋರಿಂಗ್ ಮಾಡುತ್ತೇನೆ. ಇಂಗ್ಲಿಷ್ ಅಪ್ಲಿಕೇಶನ್‌ನಲ್ಲಿ ಇದ್ದಕ್ಕಿದ್ದಂತೆ ದೇವನಾಗರಿ ಅಥವಾ ಅರೇಬಿಕ್ ಲಿಪಿಗೆ ಬದಲಾಗುವುದು ಒಂದು ಸಂಕೇತವಾಗಿದೆ. ಈ ವಿಧಾನವು ವೇಗವಾಗಿದೆ ಮತ್ತು ಅಗ್ಗವಾಗಿದೆ.

ಹಂತ 2: ಸ್ಟ್ಯಾಟಿಕ್ ಫ್ರೇಸ್ ಮ್ಯಾಚಿಂಗ್ (Static phrase matching). ನಾನು ನನ್ನ ಪಟ್ಟಿಗೆ 14 ಭಾಷೆಗಳನ್ನು ಸೇರಿಸಿದೆ. ಹಿಂದಿ, ಜಪಾನೀಸ್, ಕೊರಿಯನ್, ಟರ್ಕಿಶ್, ಡಚ್ ಮತ್ತು ಪೋಲಿಷ್ ಭಾಷೆಗಳಲ್ಲಿನ ಇಂಜೆಕ್ಷನ್ ಫ್ರೇಸ್‌ಗಳನ್ನು ನಾನು ಸ್ವತಃ ಸಂಗ್ರಹಿಸಿದ್ದೇನೆ. ಇದು ಯಾವುದೇ ಹೆಚ್ಚುವರಿ ವೆಚ್ಚವಿಲ್ಲದೆ ಸಾಮಾನ್ಯ ದಾಳಿಗಳನ್ನು ಪತ್ತೆಹಚ್ಚುತ್ತದೆ.

ಹಂತ 3: ಟ್ರಾನ್ಸ್‌ಲೇಟ್-ದೆನ್-ಡಿಟೆಕ್ಟ್ (Translate-then-detect). ಇದು ಅತ್ಯಂತ ಪ್ರಮುಖವಾದ ಭಾಗವಾಗಿದೆ. ಒಂದು ಪ್ರಾಂಪ್ಟ್ ಮೊದಲ ಎರಡು ಹಂತಗಳನ್ನು ದಾಟಿದರೆ, ನಾನು ಭಾಷೆಯನ್ನು ಪತ್ತೆಹಚ್ಚಿ ಅದನ್ನು ಇಂಗ್ಲಿಷ್‌ಗೆ ಅನುವಾದಿಸುತ್ತೇನೆ. ನಂತರ ಆ ಅನುವಾದದ ಮೇಲೆ ನನ್ನ ಈಗಿರುವ ಕ್ಲಾಸಿಫೈಯರ್ ಅನ್ನು ರನ್ ಮಾಡುತ್ತೇನೆ. ದಾಳಿಕಾರ ಭಾಷೆಯನ್ನು ಬದಲಾಯಿಸಬಹುದು, ಆದರೆ ಅವರ ಉದ್ದೇಶವನ್ನು ಮರೆಮಾಚಲು ಸಾಧ್ಯವಿಲ್ಲ.

ಇದನ್ನು ತರಬೇತಿಗೊಳಿಸಲು, ನಾನು Meta ನ NLLB-200 ಮಾಡೆಲ್ ಅನ್ನು ಬಳಸಿದೆ. ನಾನು 1,352 ದಾಳಿ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು 10 ಭಾಷೆಗಳಿಗೆ ಅನುವಾದಿಸಿದೆ. ಇದು 13,528 ಹೊಸ ತರಬೇತಿ ಉದಾಹರಣೆಗಳನ್ನು ಸೃಷ್ಟಿಸಿತು. ನಾನು ಈ ಸಂಪೂರ್ಣ ಪ್ರಕ್ರಿಯೆಯನ್ನು $300 GPU ಮೇಲೆ ಸ್ಥಳೀಯವಾಗಿ (locally) ನಡೆಸಿದೆ.

JailbreakBench ಮೇಲಿನ ಫಲಿತಾಂಶಗಳು: • ಒಟ್ಟು 93.6% ರಿಕಾಲ್ (recall). • JailbreakChat ನಲ್ಲಿ 100%. • GCG ಸಫಿಕ್ಸ್ (suffixes) ನಲ್ಲಿ 90%. • PAIR ನಲ್ಲಿ 90.2%.

ನಾನು ಫಾಲ್ಸ್ ಪಾಸಿಟಿವ್‌ಗಳನ್ನು (false positives) ಸಹ ಟ್ರ್ಯಾಕ್ ಮಾಡುತ್ತೇನೆ. ಸುಳ್ಳು, ಪರಿಪೂರ್ಣ ಸಂಖ್ಯೆಯನ್ನು ತೋರಿಸುವ ಬದಲು ನಾನು ನಿಜವಾದ 27% ಫಾಲ್ಸ್ ಪಾಸಿಟಿವ್ ದರವನ್ನು ವರದಿ ಮಾಡಲು ಬಯಸುತ್ತೇನೆ. ಭದ್ರತೆಯನ್ನು ನಿರ್ಮಿಸಲು ಪ್ರಾಮಾಣಿಕತೆ ಅಗತ್ಯ.

ಮೂಲಗಳು: Deng et al. (2023). Multilingual Jailbreak Challenges in LLMs. arXiv:2310.06474 NLLB Team (2022). No Language Left Behind. arXiv:2207.04672 Röttger et al. (2023). XSTest. arXiv:2308.01263 Mazeika et al. (2024). HarmBench. arXiv:2402.04249 Chao et al. (2024). JailbreakBench. arXiv:2404.01318

Full post: https://dev.to/ayush_singh_9b0d83152be5b/your-llm-guardrail-speaks-english-your-attacker-doesnt-4bf2

Optional learning community: https://t.me/GyaanSetuAi

𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗴𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝘀𝗽𝗲𝗮𝗸𝘀 𝗘𝗻𝗴𝗹𝗶𝘀𝗵. 𝗬𝗼𝘂𝗿 𝗮𝘁𝘁𝗮𝗰𝗸𝗲𝗿 𝗱𝗼𝗲𝘀𝗻'𝘁.

Continue reading

𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

ಎಲ್‌ಎಲ್‌ಎಂ ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ಮತ್ತು ಗಾರ್ಡ್‌ರೈಲ್ ಸುರಕ್ಷತೆ

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗟𝗟𝗠 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗲: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀

𝟳 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗧𝗵𝗮𝘁 𝗦𝘁𝗼𝗽 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗙𝗿𝗼𝗺 𝗚𝗼𝗶𝗻𝗴 𝗥𝗼𝗴𝘂𝗲