𝟳 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗧𝗵𝗮𝘁 𝗦𝘁𝗼𝗽 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗙𝗿𝗼𝗺 𝗚𝗼𝗶𝗻𝗴 𝗥𝗼𝗴𝘂𝗲
முக்கியமான உள்கட்டமைப்புகளுக்கான AI இடர் மேலாண்மை குறித்த புதிய குறிப்பை NIST வெளியிட்டுள்ளது.
AI அமைப்புகள் சோதிக்கப்பட்ட மற்றும் சரிபார்க்கப்பட்ட பாதுகாப்பைக் கொண்டிருக்க வேண்டும் என்று அவர்கள் விரும்புகிறார்கள். Prompt injection போன்ற தாக்குதல்களைத் தடுக்க டெவலப்பர்கள் இத்தகைய பாதுகாப்புகளை உருவாக்க வேண்டும்.
பாதுகாப்பு என்பது வெறும் நல்ல எண்ணங்களை மட்டும் கொண்டிருப்பதல்ல. அதற்கு நிரலாக்க அடிப்படையிலான பாதுகாப்பு வழிமுறைகள் (programmatic guardrails) தேவை.
உங்கள் AI-ஐப் பாதுகாப்பதற்கான 7 உத்திகள் இதோ:
உள்ளீடு சரிபார்ப்பு (Input validation) பயனர் உரை மாடலைச் சென்றடைவதற்கு முன் அதைச் சரிபார்க்கவும். தீங்கிழைக்கும் குறியீடுகள் (malicious code) அல்லது எதிர்பாராத HTML டேக்குகளை நீக்கவும். தாக்குதல் நடத்துபவர்களை விட ஒரு படி முன்னால் இருக்க இந்த விதிகளை அடிக்கடி புதுப்பிக்கவும்.
வெளியீடு வடிகட்டுதல் (Output filtering) பயனர்கள் பார்ப்பதற்கு முன் AI பதில்களை ஆய்வு செய்யவும். தீங்கு விளைவிக்கும் உள்ளடக்கத்தைத் தடுக்க முக்கியச் சொற்களின் பட்டியல்கள் (keyword lists) அல்லது பேட்டர்ன் மேட்சிங் (pattern matching) முறைகளைப் பயன்படுத்தவும். Pydantic போன்ற கருவிகள் வெளியீடு ஒரு குறிப்பிட்ட கட்டமைப்பைப் பின்பற்றுவதை உறுதி செய்ய உதவுகின்றன.
கட்டமைக்கப்பட்ட ப்ராம்ப்டிங் (Structured prompting) சிஸ்டம் ப்ராம்ப்ட்கள் (system prompts) மற்றும் தெளிவான பிரிப்பான்களைப் (delimiters) பயன்படுத்தவும். பயனர் வினவல்களை ###User Input### போன்ற குறிப்பிட்ட டோக்கன்களுக்குள் வைக்கவும். இது உங்கள் அறிவுறுத்தல்களுக்கும் பயனர் தரவிற்கும் இடையிலான வேறுபாட்டைப் புரிந்துகொள்ள மாடலுக்கு உதவுகிறது.
எதிரித் தாக்குதல் பயிற்சி (Adversarial training) தாக்குதல் உதாரணங்களைப் பயன்படுத்தி உங்கள் மாடலுக்குப் பயிற்சி அளிக்கவும். இது தீங்கு விளைவிக்கும் ப்ராம்ப்ட்களை அடையாளம் கண்டு நிராகரிக்க மாடலுக்குக் கற்றுக்கொடுக்கிறது. பாதுகாப்பை மேம்படுத்த உயர்தரமான, குறிப்பிட்ட தரவுகளைக் கொண்டு மாடல்களை ஃபைன்-டியூன் (fine-tune) செய்யலாம்.
நிகழ்நேரக் கண்காணிப்பு (Real-time monitoring) உங்கள் சிஸ்டம் லாக்ஸ் (system logs) மற்றும் பயன்பாட்டு முறைகளைத் தொடர்ந்து கண்காணிக்கவும். அசாதாரணமான நடத்தைகளைக் கண்டறிய அனோமலி டிடெக்ஷன் (anomaly detection) முறையைப் பயன்படுத்தவும். இது அச்சுறுத்தல்கள் பெரிதாகும் முன்பே அவற்றைத் தடுக்க உதவும்.
ரெட் டீமிங் (Red teaming) நிஜ உலகத் தாக்குதல்களைப் போன்ற சூழலை உருவாக்க குழுக்களை நியமிக்கவும். ஹேக்கர்களை விட முன்பே அவர்கள் குறைபாடுகளையும் prompt injection வழிகளையும் கண்டறிவார்கள். இது சாதாரணச் சோதனைகளைத் தாண்டி, AI சார்ந்த அச்சுறுத்தல்களில் கவனம் செலுத்துகிறது.
மனிதத் தலையீடு (Human-in-the-loop) ஒரு நபர் செயல்களை ஆய்வு செய்ய அல்லது அங்கீகரிக்க வேண்டிய இடங்களை (checkpoints) உருவாக்கவும். இது அதிக முக்கியத்துவம் வாய்ந்த பணிகளுக்கு மிகவும் அவசியம். தவறுகள் அதிக பாதிப்பை ஏற்படுத்தும் போது, இது பொறுப்புக்கூறலை உறுதி செய்கிறது.
பாதுகாப்பு வழிமுறைகள் இனி விருப்பத்தேர்வு அல்ல. அவை ஒரு முக்கியமான பொறியியல் தேவையாகும்.
ஆதாரம்: https://dev.to/autonainews/7-guardrails-that-stop-your-llm-from-going-rogue-3p3p
விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi