𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗴𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝘀𝗽𝗲𝗮𝗸𝘀 𝗘𝗻𝗴𝗹𝗶𝘀𝗵. 𝗬𝗼𝘂𝗿 𝗮𝘁𝘁𝗮𝗰𝗸𝗲𝗿 𝗱𝗼𝗲𝘀𝗻'𝘁. உங்கள் LLM பாதுகாப்பு அரண் ஆங்கிலம் பேசுகிறது. உங்கள் தாக்குபவர் பேசுவதில்லை.

எனது சொந்த அமைப்பையே தாக்கிப் பார்த்ததன் மூலம் இதை நான் கடினமான முறையில் கற்றுக்கொண்டேன்.

நான் FIE என்ற திறந்த மூல (open-source) இயந்திரத்தைப் பராமரிக்கிறேன், இது LLM-ஐ சென்றடைவதற்கு முன்பே ப்ராம்ப்ட்களை (prompts) ஆய்வு செய்கிறது. எனது அமைப்பு ஆங்கிலத்தில் உள்ள "Ignore all previous instructions" என்ற வாக்கியத்தை 82% நம்பிக்கையுடன் தடுக்கிறது.

பிறகு அதே வாக்கியத்தை இந்தி மொழியில் முயற்சி செய்தேன். அது எனது பாதுகாப்பைத் தாண்டி எளிதாகச் சென்றுவிட்டது.

பாதுகாப்புப் பயிற்சி ஆங்கிலத் தரவுகளை மட்டுமே அதிகம் நம்பியிருக்கிறது. குறைந்த வளங்களைக் கொண்ட மொழிகள் (Low-resource languages), பாதுகாப்பைத் தவிர்க்கும் தற்செயலான வழியாக மாறிவிடுகின்றன. ஆங்கிலத்தில் தோல்வியடையும் அதே தீய நோக்கம், பெங்காலி, சுவாஹிலி அல்லது ஜாவனீஸ் மொழிகளில் செயல்படுகிறது.

இதைச் சரிசெய்ய நான் மூன்று வாரங்கள் செலவிட்டேன். மூன்று அடுக்குத் தற்காப்பு முறையை நான் எவ்வாறு உருவாக்கினேன் என்பது இதோ:

அடுக்கு 1: ஸ்கிரிப்ட் முரண்பாட்டு மதிப்பெண் (Script anomaly scoring). ப்ராம்ப்ட்டின் யுனிகோடை (Unicode) நான் மதிப்பிடுகிறேன். ஒரு ஆங்கிலப் பயன்பாட்டில் திடீரென தேவநாகரி அல்லது அரபு எழுத்து முறைக்கு மாறுவது ஒரு எச்சரிக்கை அறிகுறியாகும். இந்த முறை வேகமானது மற்றும் செலவு குறைவானது.

அடுக்கு 2: நிலையான சொற்றொடர் பொருத்தம் (Static phrase matching). எனது பட்டியலில் 14 மொழிகளைச் சேர்த்தேன். இந்தி, ஜப்பானிய, கொரிய, துருக்கிய, டச்சு மற்றும் போலந்து ஆகிய மொழிகளில் உள்ள ஊடுருவல் சொற்றொடர்களை (injection phrases) நான் நேரடியாகத் தேர்ந்தெடுத்துத் தயாரித்தேன். இது கூடுதல் செலவின்றிப் பொதுவான தாக்குதல்களைக் கண்டறிய உதவுகிறது.

அடுக்கு 3: மொழிபெயர்த்துப் பிறகு கண்டறிதல் (Translate-then-detect). இதுவே மிக முக்கியமான பகுதி. ஒரு ப்ராம்ப்ட் முதல் இரண்டு அடுக்குகளையும் கடந்துவிட்டால், நான் அதன் மொழியைக் கண்டறிந்து அதை ஆங்கிலத்திற்கு மொழிபெயர்க்கிறேன். பின்னர் அந்த மொழிபெயர்ப்பில் எனது தற்போதைய வகைப்படுத்தியை (classifier) இயக்குகிறேன். ஒரு தாக்குபவரால் மொழியை மாற்ற முடியும், ஆனால் அவர்களின் நோக்கத்தை மறைக்க முடியாது.

இதை பயிற்றுவிக்க, நான் Meta-வின் NLLB-200 மாதிரியைப் பயன்படுத்தினேன். நான் 1,352 தாக்குதல் ப்ராம்ப்ட்களை 10 மொழிகளில் மொழிபெயர்த்தேன். இது 13,528 புதிய பயிற்சி உதாரணங்களை உருவாக்கியது. இந்த முழுச் செயல்பாட்டையும் நான் $300 மதிப்பிலான GPU-வில் உள்ளூர் ரீதியாக (locally) இயக்கினேன்.

JailbreakBench-ல் கிடைத்த முடிவுகள்: • மொத்தம் 93.6% recall. • JailbreakChat-ல் 100%. • GCG suffixes-ல் 90%. • PAIR-ல் 90.2%.

நான் தவறான நேர்மறைகளையும் (false positives) கண்காணிக்கிறேன். ஒரு போலி, சரியான எண்ணைக் காட்டுவதை விட, உண்மையான 27% தவறான நேர்மறை விகிதத்தைப் புகாரளிப்பதே சிறந்தது என்று நான் கருதுகிறேன். பாதுகாப்பை உருவாக்குவதற்கு நேர்மை அவசியம்.

ஆதாரங்கள்: Deng et al. (2023). Multilingual Jailbreak Challenges in LLMs. arXiv:2310.06474 NLLB Team (2022). No Language Left Behind. arXiv:2207.04672 Röttger et al. (2023). XSTest. arXiv:2308.01263 Mazeika et al. (2024). HarmBench. arXiv:2402.04249 Chao et al. (2024). JailbreakBench. arXiv:2404.01318

முழு பதிவு: https://dev.to/ayush_singh_9b0d83152be5b/your-llm-guardrail-speaks-english-your-attacker-doesnt-4bf2

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi