તમારું LLM guardrail અંગ્રેજી બોલે છે. તમારો હુમલાખોર નથી બોલતો.

મેં મારા પોતાના સિસ્ટમ પર હુમલો કરીને આ વાત કઠિન રીતે શીખી છે.

હું FIE જાળવી રાખું છું, જે એક open-source engine છે જે prompts ને LLM સુધી પહોંચતા પહેલા સ્ક્રીન કરે છે. મારી સિસ્ટમ અંગ્રેજીમાં "Ignore all previous instructions" ને 82% વિશ્વાસ સાથે બ્લોક કરે છે.

પછી મેં હિન્દીમાં એ જ વાક્ય અજમાવ્યું. તે મારી સુરક્ષાને સીધું પાર કરી ગયું.

સેફ્ટી ટ્રેનિંગ અંગ્રેજી ડેટા પર ખૂબ નિર્ભર છે. ઓછી સંસાધનો ધરાવતી ભાષાઓ સુરક્ષાને બાયપાસ કરવાનો અકસ્માતિક માર્ગ બની જાય છે. અંગ્રેજીમાં જે ખરાબ ઈરાદો નિષ્ફળ જાય છે, તે જ બંગાળી, સ્વાહિલી અથવા જાવાનેઝમાં કામ કરી જાય છે.

મેં આને સુધારવામાં ત્રણ અઠવાડિયા વિતાવ્યા. મેં ત્રણ-સ્તરીય સંરક્ષણ કેવી રીતે બનાવ્યું તે અહીં છે:

Tier 1: Script anomaly scoring. હું prompt ના Unicode ને સ્કોર કરું છું. અંગ્રેજી એપમાં અચાનક દેવનાગરી અથવા અરબી લિપિમાં ફેરફાર એ એક સંકેત છે. આ પદ્ધતિ ઝડપી અને સસ્તી છે.

Tier 2: Static phrase matching. મેં મારી યાદીમાં 14 ભાષાઓ ઉમેરી છે. મેં હિન્દી, જાપાનીઝ, કોરિયન, ટર્કિશ, ડચ અને પોલિશમાં injection phrases ને જાતે પસંદ કર્યા છે. આ વધારાના ખર્ચ વગર સામાન્ય હુમલાઓને પકડી લે છે.

Tier 3: Translate-then-detect. આ સૌથી મહત્વનો ભાગ છે. જો કોઈ prompt પ્રથમ બે સ્તરો પાર કરી જાય, તો હું ભાષા શોધી કાઢું છું અને તેનું અંગ્રેજીમાં ભાષાંતર કરું છું. ત્યારબાદ હું તે ભાષાંતર પર મારા હાલના classifier ને ચલાવું છું. હુમલાખોર ભાષા બદલી શકે છે, પરંતુ તેઓ ઈરાદાને છુપાવી શકતા નથી.

આને ટ્રેન કરવા માટે, મેં Meta ના NLLB-200 મોડેલનો ઉપયોગ કર્યો. મેં 1,352 attack prompts નું 10 ભાષાઓમાં ભાષાંતર કર્યું. આનાથી 13,528 નવા training examples બન્યા. મેં આ સમગ્ર પ્રક્રિયા $300 ના GPU પર સ્થાનિક રીતે (locally) ચલાવી હતી.

JailbreakBench પરના પરિણામો: • કુલ 93.6% recall. • JailbreakChat પર 100%. • GCG suffixes પર 90%. • PAIR પર 90.2%.

હું false positives ને પણ ટ્રેક કરું છું. ખોટો, સંપૂર્ણ આંકડો બતાવવા કરતા હું સાચો 27% false positive રેટ રિપોર્ટ કરવાનું પસંદ કરીશ. સુરક્ષા બનાવવામાં પ્રામાણિકતા જરૂરી છે.

સ્ત્રોત: Deng et al. (2023). Multilingual Jailbreak Challenges in LLMs. arXiv:2310.06474 NLLB Team (2022). No Language Left Behind. arXiv:2207.04672 Röttger et al. (2023). XSTest. arXiv:2308.01263 Mazeika et al. (2024). HarmBench. arXiv:2402.04249 Chao et al. (2024). JailbreakBench. arXiv:2404.01318

સંપૂર્ણ પોસ્ટ: https://dev.to/ayush_singh_9b0d83152be5b/your-llm-guardrail-speaks-english-your-attacker-doesnt-4bf2

વૈકલ્પિક લર્નિંગ કમ્યુનિટી: https://t.me/GyaanSetuAi