𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗴𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝘀𝗽𝗲𝗮𝗸𝘀 𝗘𝗻𝗴𝗹𝗶𝘀𝗵. 𝗬𝗼𝘂𝗿 𝗮𝘁𝘁𝗮𝗰𝗸𝗲𝗿 𝗱𝗼𝗲𝘀𝗻'𝘁.

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 நாட்களுக்கு முன்2min read

𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗴𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝘀𝗽𝗲𝗮𝗸𝘀 𝗘𝗻𝗴𝗹𝗶𝘀𝗵. 𝗬𝗼𝘂𝗿 𝗮𝘁𝘁𝗮𝗰𝗸𝗲𝗿 𝗱𝗼𝗲𝘀𝗻'𝘁. உங்கள் LLM பாதுகாப்பு அரண் ஆங்கிலம் பேசுகிறது. உங்கள் தாக்குபவர் பேசுவதில்லை.

எனது சொந்த அமைப்பையே தாக்கிப் பார்த்ததன் மூலம் இதை நான் கடினமான முறையில் கற்றுக்கொண்டேன்.

நான் FIE என்ற திறந்த மூல (open-source) இயந்திரத்தைப் பராமரிக்கிறேன், இது LLM-ஐ சென்றடைவதற்கு முன்பே ப்ராம்ப்ட்களை (prompts) ஆய்வு செய்கிறது. எனது அமைப்பு ஆங்கிலத்தில் உள்ள "Ignore all previous instructions" என்ற வாக்கியத்தை 82% நம்பிக்கையுடன் தடுக்கிறது.

பிறகு அதே வாக்கியத்தை இந்தி மொழியில் முயற்சி செய்தேன். அது எனது பாதுகாப்பைத் தாண்டி எளிதாகச் சென்றுவிட்டது.

பாதுகாப்புப் பயிற்சி ஆங்கிலத் தரவுகளை மட்டுமே அதிகம் நம்பியிருக்கிறது. குறைந்த வளங்களைக் கொண்ட மொழிகள் (Low-resource languages), பாதுகாப்பைத் தவிர்க்கும் தற்செயலான வழியாக மாறிவிடுகின்றன. ஆங்கிலத்தில் தோல்வியடையும் அதே தீய நோக்கம், பெங்காலி, சுவாஹிலி அல்லது ஜாவனீஸ் மொழிகளில் செயல்படுகிறது.

இதைச் சரிசெய்ய நான் மூன்று வாரங்கள் செலவிட்டேன். மூன்று அடுக்குத் தற்காப்பு முறையை நான் எவ்வாறு உருவாக்கினேன் என்பது இதோ:

அடுக்கு 1: ஸ்கிரிப்ட் முரண்பாட்டு மதிப்பெண் (Script anomaly scoring). ப்ராம்ப்ட்டின் யுனிகோடை (Unicode) நான் மதிப்பிடுகிறேன். ஒரு ஆங்கிலப் பயன்பாட்டில் திடீரென தேவநாகரி அல்லது அரபு எழுத்து முறைக்கு மாறுவது ஒரு எச்சரிக்கை அறிகுறியாகும். இந்த முறை வேகமானது மற்றும் செலவு குறைவானது.

அடுக்கு 2: நிலையான சொற்றொடர் பொருத்தம் (Static phrase matching). எனது பட்டியலில் 14 மொழிகளைச் சேர்த்தேன். இந்தி, ஜப்பானிய, கொரிய, துருக்கிய, டச்சு மற்றும் போலந்து ஆகிய மொழிகளில் உள்ள ஊடுருவல் சொற்றொடர்களை (injection phrases) நான் நேரடியாகத் தேர்ந்தெடுத்துத் தயாரித்தேன். இது கூடுதல் செலவின்றிப் பொதுவான தாக்குதல்களைக் கண்டறிய உதவுகிறது.

அடுக்கு 3: மொழிபெயர்த்துப் பிறகு கண்டறிதல் (Translate-then-detect). இதுவே மிக முக்கியமான பகுதி. ஒரு ப்ராம்ப்ட் முதல் இரண்டு அடுக்குகளையும் கடந்துவிட்டால், நான் அதன் மொழியைக் கண்டறிந்து அதை ஆங்கிலத்திற்கு மொழிபெயர்க்கிறேன். பின்னர் அந்த மொழிபெயர்ப்பில் எனது தற்போதைய வகைப்படுத்தியை (classifier) இயக்குகிறேன். ஒரு தாக்குபவரால் மொழியை மாற்ற முடியும், ஆனால் அவர்களின் நோக்கத்தை மறைக்க முடியாது.

இதை பயிற்றுவிக்க, நான் Meta-வின் NLLB-200 மாதிரியைப் பயன்படுத்தினேன். நான் 1,352 தாக்குதல் ப்ராம்ப்ட்களை 10 மொழிகளில் மொழிபெயர்த்தேன். இது 13,528 புதிய பயிற்சி உதாரணங்களை உருவாக்கியது. இந்த முழுச் செயல்பாட்டையும் நான் $300 மதிப்பிலான GPU-வில் உள்ளூர் ரீதியாக (locally) இயக்கினேன்.

JailbreakBench-ல் கிடைத்த முடிவுகள்: • மொத்தம் 93.6% recall. • JailbreakChat-ல் 100%. • GCG suffixes-ல் 90%. • PAIR-ல் 90.2%.

நான் தவறான நேர்மறைகளையும் (false positives) கண்காணிக்கிறேன். ஒரு போலி, சரியான எண்ணைக் காட்டுவதை விட, உண்மையான 27% தவறான நேர்மறை விகிதத்தைப் புகாரளிப்பதே சிறந்தது என்று நான் கருதுகிறேன். பாதுகாப்பை உருவாக்குவதற்கு நேர்மை அவசியம்.

ஆதாரங்கள்: Deng et al. (2023). Multilingual Jailbreak Challenges in LLMs. arXiv:2310.06474 NLLB Team (2022). No Language Left Behind. arXiv:2207.04672 Röttger et al. (2023). XSTest. arXiv:2308.01263 Mazeika et al. (2024). HarmBench. arXiv:2402.04249 Chao et al. (2024). JailbreakBench. arXiv:2404.01318

முழு பதிவு: https://dev.to/ayush_singh_9b0d83152be5b/your-llm-guardrail-speaks-english-your-attacker-doesnt-4bf2

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi

𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗴𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹 𝘀𝗽𝗲𝗮𝗸𝘀 𝗘𝗻𝗴𝗹𝗶𝘀𝗵. 𝗬𝗼𝘂𝗿 𝗮𝘁𝘁𝗮𝗰𝗸𝗲𝗿 𝗱𝗼𝗲𝘀𝗻'𝘁.

Continue reading

பெருநிறுவன AI முகவர்களுக்கான பாதுகாப்பு நெறிமுறைகள்

LLM ப்ராம்ப்ட் இன்ஜெக்ஷன் மற்றும் கார்டுரெயில் பாதுகாப்பு

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗟𝗟𝗠 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗲: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀

உங்கள் LLM கட்டுப்பாட்டை மீறிச் செல்வதைத் தடுக்கும் 7 பாதுகாப்பு வழிமுறைகள்