ਤੁਹਾਡਾ LLM ਗਾਰਡਰੇਲ ਅੰਗਰੇਜ਼ੀ ਬੋਲਦਾ ਹੈ। ਤੁਹਾਡਾ ਹਮਲਾਵਰ ਨਹੀਂ।
ਮੈਂ ਆਪਣੇ ਹੀ ਸਿਸਟਮ 'ਤੇ ਹਮਲਾ ਕਰਕੇ ਇਹ ਸਖ਼ਤ ਤਰੀਕੇ ਨਾਲ ਸਿੱਖਿਆ।
ਮੈਂ FIE ਨੂੰ ਬਣਾਈ ਰੱਖਦਾ ਹਾਂ, ਜੋ ਕਿ ਇੱਕ ਓਪਨ-ਸੋਰਸ ਇੰਜਣ ਹੈ ਜੋ LLM ਤੱਕ ਪਹੁੰਚਣ ਤੋਂ ਪਹਿਲਾਂ ਪ੍ਰੋਂਪਟਾਂ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ। ਮੇਰਾ ਸਿਸਟਮ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ "Ignore all previous instructions" ਨੂੰ 82% ਭਰੋਸੇ ਨਾਲ ਰੋਕ ਦਿੰਦਾ ਹੈ।
ਫਿਰ ਮੈਂ ਉਹੀ ਵਾਕ ਹਿੰਦੀ ਵਿੱਚ ਅਜ਼ਮਾਇਆ। ਇਹ ਮੇਰੀ ਸੁਰੱਖਿਆ ਨੂੰ ਆਸਾਨੀ ਨਾਲ ਪਾਰ ਕਰ ਗਿਆ।
ਸੁਰੱਖਿਆ ਸਿਖਲਾਈ (Safety training) ਅੰਗਰੇਜ਼ੀ ਡੇਟਾ 'ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। ਘੱਟ-ਸਰੋਤ ਵਾਲੀਆਂ ਭਾਸ਼ਾਵਾਂ ਸੁਰੱਖਿਆ ਨੂੰ ਬਾਈਪਾਸ ਕਰਨ ਦਾ ਇੱਕ ਅਣਜਾਣ ਤਰੀਕਾ ਬਣ ਜਾਂਦੀਆਂ ਹਨ। ਉਹੀ ਮਾੜਾ ਇਰਾਦਾ ਜੋ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਫੇਲ੍ਹ ਹੋ ਜਾਂਦਾ ਹੈ, ਬੰਗਾਲੀ, ਸਵਾਹਿਲੀ ਜਾਂ ਜਾਵਾਨੀਜ਼ ਵਿੱਚ ਕੰਮ ਕਰ ਜਾਂਦਾ ਹੈ।
ਮੈਂ ਇਸ ਨੂੰ ਠੀਕ ਕਰਨ ਲਈ ਤਿੰਨ ਹਫ਼ਤੇ ਲਗਾਏ। ਇੱਥੇ ਦੱਸਿਆ ਗਿਆ ਹੈ ਕਿ ਮੈਂ ਤਿੰਨ-ਪੱਧਰੀ ਰੱਖਿਆ ਕਿਵੇਂ ਬਣਾਈ:
Tier 1: Script anomaly scoring. ਮੈਂ ਪ੍ਰੋਂਪਟ ਦੇ Unicode ਨੂੰ ਸਕੋਰ ਕਰਦਾ ਹਾਂ। ਇੱਕ ਅੰਗਰੇਜ਼ੀ ਐਪ ਵਿੱਚ ਅਚਾਨਕ ਦੇਵਨਾਗਰੀ ਜਾਂ ਅਰਬੀ ਲਿਪੀ ਵਿੱਚ ਬਦਲਾਅ ਇੱਕ ਸੰਕੇਤ ਹੈ। ਇਹ ਵਿਧੀ ਤੇਜ਼ ਅਤੇ ਸਸਤੀ ਹੈ।
Tier 2: Static phrase matching. ਮੈਂ ਆਪਣੀ ਸੂਚੀ ਵਿੱਚ 14 ਭਾਸ਼ਾਵਾਂ ਜੋੜੀਆਂ ਹਨ। ਮੈਂ ਹਿੰਦੀ, ਜਾਪਾਨੀ, ਕੋਰੀਆਈ, ਤੁਰਕੀ, ਡੱਚ ਅਤੇ ਪੋਲਿਸ਼ ਵਿੱਚ ਇੰਜੈਕਸ਼ਨ ਫਰੇਜ਼ (injection phrases) ਨੂੰ ਖੁਦ ਤਿਆਰ ਕੀਤਾ ਹੈ। ਇਹ ਬਿਨਾਂ ਕਿਸੇ ਵਾਧੂ ਲਾਗਤ ਦੇ ਆਮ ਹਮਲਿਆਂ ਨੂੰ ਫੜ ਲੈਂਦਾ ਹੈ।
Tier 3: Translate-then-detect. ਇਹ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਹੈ। ਜੇਕਰ ਕੋਈ ਪ੍ਰੋਂਪਟ ਪਹਿਲੇ ਦੋ ਪੱਧਰਾਂ ਨੂੰ ਪਾਰ ਕਰ ਲੈਂਦਾ ਹੈ, ਤਾਂ ਮੈਂ ਭਾਸ਼ਾ ਦੀ ਪਛਾਣ ਕਰਦਾ ਹਾਂ ਅਤੇ ਇਸਦਾ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਦਾ ਹਾਂ। ਫਿਰ ਮੈਂ ਉਸ ਅਨੁਵਾਦ 'ਤੇ ਆਪਣੇ ਮੌਜੂਦਾ ਕਲਾਸੀਫਾਇਰ (classifier) ਨੂੰ ਚਲਾਉਂਦਾ ਹਾਂ। ਇੱਕ ਹਮਲਾਵਰ ਭਾਸ਼ਾ ਬਦਲ ਸਕਦਾ ਹੈ, ਪਰ ਉਹ ਇਰਾਦੇ ਨੂੰ ਨਹੀਂ ਛੁਪਾ ਸਕਦਾ।
ਇਸ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ, ਮੈਂ Meta ਦੇ NLLB-200 ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਮੈਂ 1,352 ਹਮਲਾਵਰ ਪ੍ਰੋਂਪਟਾਂ ਦਾ 10 ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਅਨੁਵਾਦ ਕੀਤਾ। ਇਸ ਨਾਲ 13,528 ਨਵੇਂ ਟ੍ਰੇਨਿੰਗ ਉਦਾਹਰਣਾਂ ਬਣੀਆਂ। ਮੈਂ ਇਹ ਸਾਰੀ ਪ੍ਰਕਿਰਿਆ $300 ਦੇ GPU 'ਤੇ ਸਥਾਨਕ (locally) ਤੌਰ 'ਤੇ ਚਲਾਈ।
JailbreakBench 'ਤੇ ਨਤੀਜੇ: • ਕੁੱਲ 93.6% ਰੀਕਾਲ (recall)। • JailbreakChat 'ਤੇ 100%। • GCG suffixes 'ਤੇ 90%। • PAIR 'ਤੇ 90.2%।
ਮੈਂ ਫਾਲਸ ਪੋਜ਼ੀਟਿਵ (false positives) ਨੂੰ ਵੀ ਟ੍ਰੈਕ ਕਰਦਾ ਹਾਂ। ਮੈਂ ਇੱਕ ਫ਼ਰਜ਼ੀ, ਸੰਪੂਰਨ ਅੰਕ ਦਿਖਾਉਣ ਦੀ ਬਜਾਏ 27% ਅਸਲ ਫਾਲਸ ਪੋਜ਼ੀਟਿਵ ਦਰ ਦੀ ਰਿਪੋਰਟ ਕਰਨਾ ਪਸੰਦ ਕਰਾਂਗਾ। ਸੁਰੱਖਿਆ ਬਣਾਉਣ ਲਈ ਇਮਾਨਦਾਰੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
ਸਰੋਤ: Deng et al. (2023). Multilingual Jailbreak Challenges in LLMs. arXiv:2310.06474 NLLB Team (2022). No Language Left Behind. arXiv:2207.04672 Röttger et al. (2023). XSTest. arXiv:2308.01263 Mazeika et al. (2024). HarmBench. arXiv:2402.04249 Chao et al. (2024). JailbreakBench. arXiv:2404.01318
Full post: https://dev.to/ayush_singh_9b0d83152be5b/your-llm-guardrail-speaks-english-your-attacker-doesnt-4bf2
Optional learning community: https://t.me/GyaanSetuAi