அறிமுகத்திற்கு முந்தைய AI உருவகப்படுத்துதல்களே புதிய மாடல் பாதுகாப்புச் சரிபார்ப்பு முறை

📅4 hours ago⏱2 min read

முன்-வெளியீட்டு AI உருவகப்படுத்துதல்களே (Simulations) புதிய மாடல் பாதுகாப்புச் சரிபார்ப்பாகும்

AI பாதுகாப்பு மாறிவருகிறது. இது எச்சரிக்கை லேபிள்களிலிருந்து (warning labels) ஒத்திகை (rehearsals) நிலைக்கு நகர்கிறது.

OpenAI சமீபத்தில் மாடல்களை வெளியிடுவதற்கு முன்பே அவற்றின் செயல்பாடுகளைக் கணிப்பது குறித்த ஆய்வைப் பகிர்ந்துள்ளது. மக்கள் மற்றும் தாக்குதல் நடத்துபவர்கள் (attackers) நிஜ வாழ்க்கையில் மாடல்களை எவ்வாறு பயன்படுத்துகிறார்கள் என்பதைப் பிரதிபலிக்க அவர்கள் உருவகப்படுத்துதல்களைப் (simulations) பயன்படுத்துகின்றனர்.

இது அனைத்து உருவாக்குநர்களுக்கும் (builders) ஒரு சமிக்ஞையாகும். மாடல்களை வெளியிட்ட பிறகு ஏற்படும் விளைவுகளைக் கண்காணிப்பதை நிறுத்திவிட்டு, அவற்றை வெளியிடுவதற்கு முன்பே உருவகப்படுத்திப் பார்க்கத் தொடங்க வேண்டும்.

வழக்கமான மதிப்பீடுகள் (Standard evaluations) பெஞ்ச்மார்க் (benchmarks) மற்றும் ரெட்-டீமிங் (red-teaming) ஆகியவற்றில் கவனம் செலுத்துகின்றன. இவை ஒரு முக்கியமான விஷயத்தைத் தவறவிடுகின்றன. நிஜமான பணிப்பாய்வுகளில் (workflows) மாடல்கள் வித்தியாசமாகச் செயல்படுகின்றன.

சுகாதாரத் துறையில் உள்ள ஒரு சாட்பாட் (chatbot), ரெப்போ (repo) அணுகல் கொண்ட ஒரு கோடிங் ஏஜென்ட்டைப் (coding agent) போலச் செயல்படுவதில்லை. மாடல் ஒன்றாகவே இருக்கும், ஆனால் அனுமதிகள் (permissions) மற்றும் பயனர்களின் எதிர்பார்ப்புகள் மாறுகின்றன.

பயன்பாட்டு உருவகப்படுத்துதல் (Deployment simulation) முழுச் சூழலையும் சோதிக்கிறது. நீங்கள் இதைக் கேட்க வேண்டும்: "இந்த பயனர் இந்த அழுத்தமான சூழலில் இந்தத் கருவியைப் பயன்படுத்தும்போது என்ன நடக்கும்?"

இதைச் செய்ய உங்களுக்கு ஒரு பெரிய ஆய்வகம் தேவையில்லை. நீங்கள் சிறிய அளவில் தொடங்கலாம்.

உங்கள் AI தயாரிப்புகளுக்கு இந்த வழிமுறைகளைப் பயன்படுத்தவும்:

வெறும் ஒற்றை ப்ராம்ப்ட்களை (prompts) மட்டும் இல்லாமல், பயனர்களின் உண்மையான பணிகளைச் சுற்றியே சோதனைகளை (tests) எழுதவும்.
கோப்புகளை எழுதுதல் (file writes), மின்னஞ்சல்கள் அல்லது பணம் செலுத்துதல் போன்ற கருவி அணுகல்களை உங்கள் சோதனைகளில் சேர்க்கவும்.
பிழைகளிலிருந்தோ அல்லது விடுபட்ட சூழலிலிருந்தோ (missing context) AI எவ்வாறு மீண்டு வருகிறது என்பதைச் சோதிக்கவும்.
உங்கள் குறிப்பிட்ட தயாரிப்பிற்குப் பொருந்தக்கூடிய எதிரித் தாக்குதல் உதாரணங்களை (adversarial examples) பயன்படுத்தவும்.
தோல்வியைத் தப்பவிட்ட நிகழ்வுகளைப் (near misses) பதிவு செய்து அவற்றை புதிய சோதனைகளாக மாற்றவும்.

இது AI ஏஜென்ட்களுக்கு (agents) மிகவும் முக்கியமானது. ஒரு சாட்பாட் உரையில் தவறுகளைச் செய்கிறது. ஆனால் ஒரு ஏஜென்ட் செயலில் இறங்கும்போது தவறுகளைச் செய்கிறது. இது உங்கள் இடர் அளவை (risk level) மாற்றுகிறது.

ஒரு நம்பகமான அமைப்பை உருவாக்க, இந்த கட்டமைப்பைப் (framework) பின்பற்றவும்:

ஆபத்தான வினைச்சொற்களைப் பட்டியலிடுங்கள்: நீக்குதல் (delete), அனுப்புதல் (send), வெளியிடுதல் (publish), கட்டணம் வசூலித்தல் (charge) அல்லது அங்கீகரித்தல் (approve).
பாத்திர அடிப்படையிலான சூழல்களை (role-based scenarios) உருவாக்குங்கள்: ஒரு தொடக்கநிலையாளர், ஒரு அனுபவம் வாய்ந்த பயனர் (power user) மற்றும் ஒரு தீய நோக்கம் கொண்ட பயனர் (malicious user) ஆகியோரைச் சோதிக்கவும்.
குழப்பமான சூழலைப் பயன்படுத்தவும்: AI-க்கு காலாவதியான தரவு அல்லது முரண்பட்ட அறிவுறுத்தல்களை வழங்கவும்.
கடுமையானத் தடைகளைச் சேர்க்கவும்: மாற்ற முடியாத செயல்களைச் செய்வதற்கு முன் மனிதத் திருத்தத்தைக் (human review) கோரவும்.
சலிப்பூட்டும் நம்பகத்தன்மையைக் கண்காணிக்கவும்: மாடல் நிச்சயமற்ற தன்மையை (uncertainty) எவ்வாறு கையாள்கிறது என்பதை அளவிடவும்.

AI-ஐத் தயக்கமுடன் இருக்கச் செய்வது இலக்கல்ல. அதைத் துல்லியமாகக் கணிக்கக்கூடியதாக (predictable) மாற்றுவதே இலக்கு.

எந்த உருவகப்படுத்துதலும் முழுமையானது அல்ல. நீங்கள் கணிக்காத வழிகளைப் பயனர்கள் எப்போதும் கண்டுபிடிப்பார்கள். உங்களுக்குப் பல அடுக்குகள் தேவை: உருவகப்படுத்துதல்கள் (simulations), வரையறுக்கப்பட்ட வெளியீடுகள் (limited rollouts), கண்காணிப்பு (monitoring) மற்றும் விரைவான திரும்பப் பெறும் வழிகள் (fast rollback paths).

மாடல் மதிப்பீடு மென்பொருள் பொறியியலைப் (software engineering) போலவே மாறிவருகிறது. இது சூழல் சார்ந்ததாகவும் (scenario-driven) பணிப்பாய்வு விழிப்புணர்வு கொண்டதாகவும் (workflow-aware) இருக்க வேண்டும்.

உங்களுக்கு ஒரு ஆராய்ச்சி ஆய்வகம் தேவையில்லை. உங்களுக்குப் பயனர்களின் உண்மையான பணிகள் மற்றும் AI-ஐ

ஆதாரம்: https://dev.to/jenueldev/pre-launch-ai-simulations-are-becoming-the-new-model-safety-check-107e

விருப்பத்தேர்வு கற்றல் சமூகம்: https://t.me/GyaanSetuAi

அறிமுகத்திற்கு முந்தைய AI உருவகப்படுத்துதல்களே புதிய மாடல் பாதுகாப்புச் சரிபார்ப்பு முறை

Continue reading

AI என்பது வெறும் ப்ராம்ப்ட்களைத் தாண்டியது

AI இடர் மேலாண்மை தவறுகள்

AI இடர் மேலாண்மையைச் செயல்படுத்துவது எப்படி

AI இடர் மேலாண்மை வழிகாட்டி

அறிமுகத்திற்கு முந்தைய AI உருவகப்படுத்துதல்கள் புதிய பாதுகாப்புச் சரிபார்ப்பாகும்