మీ LLM గార్డ్‌రైల్ ఇంగ్లీష్ మాట్లాడుతుంది. మీ అటాకర్ అలా కాదు.

నా స్వంత సిస్టమ్‌పైనే దాడి చేయడం ద్వారా నేను దీనిని కష్టపడి నేర్చుకున్నాను.

నేను FIEని నిర్వహిస్తున్నాను, ఇది LLMకి చేరుకోకముందే ప్రాంప్ట్‌లను స్క్రీనింగ్ చేసే ఒక ఓపెన్-సోర్స్ ఇంజిన్. నా సిస్టమ్ ఇంగ్లీష్‌లో "Ignore all previous instructions" అనే ప్రాంప్ట్‌ను 82% నమ్మకంతో బ్లాక్ చేస్తుంది.

ఆ తర్వాత నేను అదే వాక్యాన్ని హిందీలో ప్రయత్నించాను. అది నా సెక్యూరిటీని సులభంగా దాటవేసింది.

సేఫ్టీ ట్రైనింగ్ ఇంగ్లీష్ డేటాపైనే ఎక్కువగా ఆధారపడుతోంది. తక్కువ వనరులు ఉన్న భాషలు (Low-resource languages) సెక్యూరిటీని బైపాస్ చేయడానికి అనుకోకుండా ఒక మార్గంగా మారుతున్నాయి. ఇంగ్లీష్‌లో విఫలమయ్యే అదే దురుద్దేశం బెంగాలీ, స్వాహిలి లేదా జావానీస్‌లో పనిచేస్తుంది.

దీనిని సరిదిద్దడానికి నేను మూడు వారాలు గడిపాను. నేను మూడు-స్థాయిల (three-tier) రక్షణను ఎలా నిర్మించానో ఇక్కడ ఉంది:

Tier 1: స్క్రిప్ట్ అనోమలీ స్కోరింగ్ (Script anomaly scoring). నేను ప్రాంప్ట్ యొక్క Unicodeని స్కోర్ చేస్తాను. ఇంగ్లీష్ యాప్‌లో అకస్మాత్తుగా దేవనాగరి లేదా అరబిక్ స్క్రిప్ట్‌లోకి మారడం అనేది ఒక సంకేతం. ఈ పద్ధతి వేగవంతమైనది మరియు తక్కువ ఖర్చుతో కూడుకున్నది.

Tier 2: స్టాటిక్ ఫ్రేజ్ మ్యాచింగ్ (Static phrase matching). నేను నా జాబితాకు 14 భాషలను జోడించాను. హిందీ, జపనీస్, కొరియన్, టర్కిష్, డచ్ మరియు పోలిష్ భాషలలో ఇంజెక్షన్ ఫ్రేజ్‌లను (injection phrases) నేను స్వయంగా ఎంపిక చేసుకున్నాను. ఇది ఎటువంటి అదనపు ఖర్చు లేకుండా సాధారణ దాడులను గుర్తిస్తుంది.

Tier 3: ట్రాన్స్‌లేట్-దెన్-డిటెక్ట్ (Translate-then-detect). ఇది అత్యంత ముఖ్యమైన భాగం. ఒక ప్రాంప్ట్ మొదటి రెండు స్థాయిలను దాటితే, నేను ఆ భాషను గుర్తించి దానిని ఇంగ్లీష్‌లోకి అనువదిస్తాను. ఆ తర్వాత ఆ అనువాదంపై నా ప్రస్తుత క్లాసిఫైయర్‌ను (classifier) రన్ చేస్తాను. అటాకర్ భాషను మార్చగలరు, కానీ వారి దురుద్దేశాన్ని దాచలేరు.

దీనిని ట్రైన్ చేయడానికి, నేను Meta యొక్క NLLB-200 మోడల్‌ను ఉపయోగించాను. నేను 1,352 అటాక్ ప్రాంప్ట్‌లను 10 భాషల్లోకి అనువదించాను. దీనివల్ల 13,528 కొత్త ట్రైనింగ్ ఉదాహరణలు సృష్టించబడ్డాయి. నేను ఈ మొత్తం ప్రక్రియను $300 GPUపై లోకల్‌గా రన్ చేశాను.

JailbreakBench ఫలితాలు: • మొత్తం 93.6% రీకాల్ (recall). • JailbreakChatలో 100%. • GCG సఫిక్స్‌లలో (suffixes) 90%. • PAIRలో 90.2%.

నేను ఫాల్స్ పాజిటివ్స్ (false positives) కూడా ట్రాక్ చేస్తాను. నకిలీ, పరిపూర్ణమైన సంఖ్యను చూపడం కంటే, నిజమైన 27% ఫాల్స్ పాజిటివ్ రేటును నివేదించడానికే నేను మొగ్గు చూపుతాను. సెక్యూరిటీని నిర్మించడంలో నిజాయితీ అవసరం.

మూలాలు: Deng et al. (2023). Multilingual Jailbreak Challenges in LLMs. arXiv:2310.06474 NLLB Team (2022). No Language Left Behind. arXiv:2207.04672 Röttger et al. (2023). XSTest. arXiv:2308.01263 Mazeika et al. (2024). HarmBench. arXiv:2402.04249 Chao et al. (2024). JailbreakBench. arXiv:2404.01318

Full post: https://dev.to/ayush_singh_9b0d83152be5b/your-llm-guardrail-speaks-english-your-attacker-doesnt-4bf2

Optional learning community: https://t.me/GyaanSetuAi