அறிமுகத்திற்கு முந்தைய AI உருவகப்படுத்துதல்கள் புதிய பாதுகாப்புச் சரிபார்ப்பாகும்

📅3 hours ago⏱2 min read

In this article

𝗣𝗿𝗲-𝗹𝗮𝘂𝗻𝗰𝗵 𝗔𝗜 𝘀𝗶𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻𝘀 𝗮𝗿𝗲 𝘁𝗵𝗲 𝗻𝗲𝘄 𝘀𝗮𝗳𝗲𝘁𝘆 𝗰𝗵𝗲𝗰𝗸

AI பாதுகாப்பு மாறிவருகிறது. இது எச்சரிக்கை லேபிள்களிலிருந்து (warning labels) ஒத்திகை பார்ப்பது (rehearsals) என்ற நிலைக்கு நகர்கிறது.

OpenAI சமீபத்தில், ஒரு மாடலை வெளியிடுவதற்கு முன்பே அதன் செயல்பாடுகளைக் கணிப்பது குறித்த தனது பணிகளைப் பகிர்ந்து கொண்டது. அவர்கள் deployment simulations முறையைப் பயன்படுத்துகின்றனர். அதாவது, ஒரு மாடல் மில்லியன் கணக்கான பயனர்களைச் சென்றடைவதற்கு முன்பே, மக்கள், குழுக்கள் மற்றும் தாக்குதல் நடத்துபவர்கள் (attackers) அந்த மாடலை எவ்வாறு பயன்படுத்துகிறார்கள் என்பதைச் சோதிப்பதாகும்.

இந்தத் துறை மாறிவருகிறது. ஒரு மாடலை வெளியிட்டு பிழைகளைக் கண்காணிப்பதிலிருந்து, அறிமுகத்திற்கு முன்பே பிழைகளை உருவகப்படுத்துவது (simulating errors) என்ற நிலைக்கு நாம் நகர்கிறோம். இது ஒவ்வொரு தயாரிப்புக் குழுவும் (product team) பின்பற்ற வேண்டிய ஒரு பழக்கமாகும்.

நிலையான benchmarks மற்றும் red-teaming போதுமானவை அல்ல. நிஜமான பணிப்பாய்வுகளில் (workflows) மாடல்கள் வித்தியாசமாகச் செயல்படுகின்றன. சுகாதாரத் துறையில் (healthcare) உள்ள ஒரு chatbot, தரவுத்தள அணுகல் (database access) கொண்ட ஒரு coding agent-ஐ விட வித்தியாசமாக இருக்கும். மாடல் ஒன்றாகவே இருந்தாலும், அபாயங்கள் (risks) மாறுகின்றன.

Deployment simulation முழுச் சூழலையும் சோதிக்கிறது. ஒரு மாடலால் ஒரு prompt-க்கு பதிலளிக்க முடியுமா என்று கேட்பதை நிறுத்திவிட்டு, ஒரு குறிப்பிட்ட பயனர் அழுத்தமான சூழலில் (under pressure) ஒரு குறிப்பிட்ட கருவியைப் பயன்படுத்தும்போது என்ன நடக்கும் என்று கேட்கத் தொடங்குகிறீர்கள்.

இதைச் செய்ய உங்களுக்கு ஒரு பெரிய ஆராய்ச்சி ஆய்வகம் தேவையில்லை. இந்த எளிய படிகளுடன் நீங்கள் தொடங்கலாம்:

வெறும் prompts-களுக்கு மட்டும் சோதனைகளை எழுதாமல், பயனர்களின் நிஜமான பணிகளுக்காக (real user jobs) சோதனைகளை எழுதுங்கள்.
கோப்புகளை எழுதுதல் (file writes), மின்னஞ்சல்கள் அல்லது பணம் செலுத்துதல் போன்ற கருவி அணுகல்களை (tool access) உள்ளடக்குங்கள்.
தவறுகள் அல்லது விடுபட்ட தரவுகளிலிருந்து AI எவ்வாறு மீண்டு வருகிறது என்பதைச் சோதியுங்கள்.
உங்கள் குறிப்பிட்ட தயாரிப்பிற்குப் பொருந்தக்கூடிய adversarial examples-களைப் பயன்படுத்துங்கள்.
விபத்துகளைத் தவிர்க்கும் தருணங்களை (near misses) பதிவு செய்து, அவற்றை புதிய சோதனைகளாக மாற்றவும்.

இது AI agents-களுக்கு மிகவும் முக்கியமானது. ஒரு chatbot தவறான பதிலைக் கொடுக்கலாம். ஆனால் ஒரு agent தவறான செயலைச் செய்யலாம். அது அபாயத்தின் அளவை (risk level) மாற்றுகிறது.

நீங்கள் ஒரு startup அல்லது ஒரு உள் கருவியை (internal tool) உருவாக்குகிறீர்கள் என்றால், இந்த கட்டமைப்பைப் (framework) பயன்படுத்துங்கள்:

ஆபத்தான வினைச்சொற்களைப் பட்டியலிடுங்கள்: delete, send, publish, charge, அல்லது approve.
பாத்திர அடிப்படையிலான சூழல்களை (role-based scenarios) உருவாக்குங்கள்: ஒரு தொடக்கநிலையவர் (beginner), ஒரு அனுபவமிக்க பயனர் (power user) மற்றும் ஒரு தீய நோக்கம் கொண்ட பயனர் (malicious user) ஆகியோரைச் சோதியுங்கள்.
குழப்பமான தரவுகளை உருவகப்படுத்துங்கள் (Simulate messy data): காலாவதியான ஆவணங்கள் (stale docs) மற்றும் முரண்பட்ட அறிவுறுத்தல்களைப் பயன்படுத்துங்கள்.
கடினமானத் தடைகளைச் (hard stops) சேர்க்கவும்: மாற்ற முடியாத செயல்களுக்கு (irreversible actions) மனித ஆய்வை (human review) கட்டாயமாக்குங்கள்.
நம்பகத்தன்மையைக் கண்காணிக்கவும் (Track reliability): மாடல் தனது நிச்சயமற்ற தன்மையை (uncertainty) எவ்வளவு சிறப்பாக ஒப்புக்கொள்கிறது என்பதை அளவிடுங்கள்.

AI-யை அச்சப்படுபவளாக (timid) மாற்றுவது இலக்கல்ல. அதைத் துல்லியமாகக் கணிக்கக்கூடியதாக (predictable) மாற்றுவதே இலக்கு.

எந்த உருவகப்படுத்துதலும் (simulation) முழுமையானது அல்ல. பயனர்கள் எப்போதும் உங்கள் அமைப்பைச் சிதைப்பதற்கான வழிகளைக் கண்டறிவார்கள். ஒரு அடுக்கு அணுகுமுறையைப் (layered approach) பயன்படுத்துங்கள்: அறிமுகத்திற்கு முந்தைய உருவகப்படுத்துதல்கள் (pre-launch simulations), வரையறுக்கப்பட்ட வெளியீடுகள் (limited rollouts), தொடர்ச்சியான கண்காணிப்பு (constant monitoring) மற்றும் விரைவான திரும்பப் பெறும் வழிகள் (fast rollback paths).

மாடல் மதிப்பீடு (Model evaluation) மென்பொருள் பொறியியலைப் (software engineering) போலவே மாறிவருகிறது. இது சூழல் சார்ந்ததாகவும் (scenario-driven) பணிப்பாய்வு விழிப்புணர்வு கொண்டதாகவும் (workflow-aware) உள்ளது. உங்களுக்கு ஒரு ஆய்வகம் தேவையில்லை. உங்களுக்கு நிஜமான பயனர் பணிகளும், AI-யை ஒரு உரை உருவாக்கி (text generator) மட்டுமல்லாமல், ஒரு செய்பவராக (actor) சோதிக்கும் ஒழுக்கமும் தேவை.

வெளியீட்டிற்கு முந்தைய AI உருவகப்படுத்துதல்கள் (Simulations) புதிய மாடல் பாதுகாப்புச் சோதனையாக மாறி வருகின்றன

AI மாடல்கள் எளிய சாட்பாட்களிலிருந்து (chatbots) தன்னாட்சி முகவர்களாக (autonomous agents) பரிணமிக்கும்போது, அவற்றின் பாதுகாப்பை உறுதி செய்யும் முறையும் பரிணமிக்க வேண்டும். பாரம்பரிய பாதுகாப்பு அளவுகோல்கள் (safety benchmarks), பயனுள்ளதாக இருந்தாலும், முகவர் சார்ந்த AI-ன் (agentic AI) சிக்கலான மற்றும் கணிக்க முடியாத நடத்தைகளைச் சோதிப்பதில் பெருகிய முறையில் பின்தங்கியுள்ளன.

நிலையான அளவுகோல்களின் (Static Benchmarks) வரம்புகள்

நிலையான அளவுகோல்கள் என்பவை குறிப்பிட்ட திறன்கள் அல்லது பாதுகாப்புத் தடுப்புகளைச் சோதிக்க வடிவமைக்கப்பட்ட நிலையான தரவுத்தொகுப்புகளைக் (datasets) கொண்டவை. அவை ஒரு அடிப்படைத் தரவை வழங்கினாலும், அவை அடிப்படையில் "மூடிய புத்தகத் தேர்வுகள்" (closed-book exams) போன்றதுதான். நவீன LLM-கள் மேற்கொள்ளும் தொடர்ச்சியான, பல-படிநிலை தர்க்கங்களை (multi-step reasoning) அவை கணக்கில் கொள்வதில்லை.

AI உருவகப்படுத்துதல்களின் (Simulations) வருகை

ஒரு மாடலிடம் கேள்வியைக் கேட்பதற்குப் பதிலாக, ஆராய்ச்சியாளர்கள் இப்போது மாடல்களை உருவகப்படுத்தப்பட்ட சூழல்களில் (simulated environments) வைக்கின்றனர். இந்தச் சூழல்கள் "சாண்ட்பாக்ஸ்கள்" (sandboxes) போலச் செயல்படுகின்றன, அங்கு ஒரு AI முகவர் கருவிகளுடன் (tools) தொடர்பு கொள்ளவும், இணையத்தைப் பயன்படுத்தவும் அல்லது ஒரு உருவகப்படுத்தப்பட்ட கணினி அமைப்பை நிர்வகிக்கவும் முடியும்.

உருவகப்படுத்துதல்கள் ஏன் முக்கியம்?

இயக்கவியல் தொடர்பு (Dynamic Interaction): ஒரு நிலையான தூண்டுதலுக்கு (prompt) பதிலாக, உருவகப்படுத்துதல் பின்னூட்ட சுழற்சிகளை (feedback loops) அனுமதிக்கிறது.
விளிம்பு நிலை நிகழ்வுகளைக் கண்டறிதல் (Edge Case Discovery): ஒரு மனிதப் பரிசோதகர் சிந்திக்காத அரிதான, அதிக ஆபத்துள்ள சூழல்களை உருவகப்படுத்துதல்கள் தூண்டக்கூடும்.
முகவர் சார்ந்த நடத்தை (Agentic Behavior): ஒரு AI நீண்டகால இலக்குகளையும் எதிர்பாராத தடைகளையும் எவ்வாறு கையாள்கிறது என்பதை இது சோதிக்கிறது.

மாடல் பாதுகாப்பின் எதிர்காலம்

உருவகப்படுத்துதல் அடிப்படையிலான சோதனைக்கு மாறுவது என்பது "ஒரு மாடல் என்ன জানে என்பதை மதிப்பீடு செய்வதிலிருந்து" "ஒரு மாடல் எவ்வாறு செயல்படுகிறது என்பதை மதிப்பீடு செய்வது" என்ற மாற்றத்தைக் குறிக்கிறது. தன்னாட்சி AI முகவர்கள் நிறைந்த உலகத்தை நோக்கி நாம் நகரும்போது இது மிகவும் முக்கியமானது.

அறிமுகத்திற்கு முந்தைய AI உருவகப்படுத்துதல்கள் புதிய பாதுகாப்புச் சரிபார்ப்பாகும்

வெளியீட்டிற்கு முந்தைய AI உருவகப்படுத்துதல்கள் (Simulations) புதிய மாடல் பாதுகாப்புச் சோதனையாக மாறி வருகின்றன

நிலையான அளவுகோல்களின் (Static Benchmarks) வரம்புகள்

AI உருவகப்படுத்துதல்களின் (Simulations) வருகை

உருவகப்படுத்துதல்கள் ஏன் முக்கியம்?

மாடல் பாதுகாப்பின் எதிர்காலம்

Continue reading

AI ரெட் டீமிங்: எதிரித்தனமான அபாயங்களிலிருந்து பெரிய மொழி மாதிரிகளைப் பாதுகாத்தல்

AI இடர் மேலாண்மை தவறுகள்

AI இடர் மேலாண்மையைச் செயல்படுத்துவது எப்படி

AI இடர் மேலாண்மை வழிகாட்டி

அறிமுகத்திற்கு முந்தைய AI உருவகப்படுத்துதல்களே புதிய மாடல் பாதுகாப்புச் சரிபார்ப்பு முறை