𝗣𝗿𝗶𝘃𝗮𝗰𝘆 𝗣𝗿𝗲𝘀𝗲𝗿𝘃𝗶𝗻𝗴 𝗔𝗜 𝗳𝗼𝗿 𝗛𝗲𝗿𝗶𝘁𝗮𝗴𝗲 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 வாரங்களுக்கு முன்2min read

பாரம்பரிய மொழிகளுக்கான தனியுரிமை காக்கும் AI

AI ஆராய்ச்சி பெரும்பாலும் தரவுகளின் மனிதத் தன்மையைக் கவனிக்கத் தவறிவிடுகிறது.

நான் ஒருமுறை வடக்கு நோர்வேயில் உள்ள ஒரு நூலகத்தில் அமர்ந்திருந்தேன். அங்கு கையால் எழுதப்பட்ட சாமி (Sámi) சொற்றொடர்களைப் பார்த்துக் கொண்டிருந்தேன். ஒரு உள்ளூர் பெரியவர், ஆங்கிலத்தில் இணையாத சில சொற்களை எனக்குக் கற்றுக்கொடுத்தார். அந்தச் சொற்கள் பனி, கலைமான்கள் மற்றும் காற்றைப் பற்றி விவரிக்கின்றன.

அந்தப் பெரியவர் என்னிடம் ஒரு கடினமான கேள்வியைக் கேட்டார்: "எங்கள் மொழியை எங்களிடமிருந்து பறிக்காமல், அதை உயிர்ப்புடன் வைத்திருக்க உங்கள் இயந்திரங்களால் உதவ முடியுமா?"

இந்தக் கேள்வி எனது ஆராய்ச்சியை மாற்றியமைத்தது.

பெரும்பாலான AI பயிற்சிகளுக்குப் பெருமளவிலான தரவுகள் தேவைப்படுகின்றன. பெரும்பாலான தரவுகள் மையத் சேவையகங்களுக்கு (central servers) அனுப்பப்படுகின்றன. பழங்குடி சமூகங்களைப் பொறுத்தவரை, மொழியியல் தரவுகள் புனிதமானவை. அவை தனிப்பட்டவை. புனிதமானப் பாடல்கள் அல்லது குடும்பத் தாலாட்டுகளின் மூல ஆடியோவை (raw audio) கிளவுட் சேவையகத்திற்கு அனுப்புவது ஒரு விருப்பத்தேர்வல்ல.

இதைத் தீர்க்க நான் ஒரு புதிய கட்டமைப்பை (framework) உருவாக்கினேன். இது தனியுரிமை காக்கும் ஆக்டிவ் லேர்னிங் (privacy-preserving active learning) மற்றும் இன்வர்ஸ் சிமுலேஷன் வெரிஃபிகேஷன் (inverse simulation verification) ஆகியவற்றை இணைக்கிறது.

இது எவ்வாறு செயல்படுகிறது என்பது இதோ:

உள்ளூர் சாதனங்கள்: சமூகங்கள் தங்களது மூல ஆடியோ மற்றும் உரையைத் தங்களது சொந்தச் சாதனங்களிலேயே வைத்துக்கொள்கின்றன.
தனியுரிமை அடுக்கு: இந்த அமைப்பு தரவுகளில் கணித ரீதியான இரைச்சலை (mathematical noise) சேர்க்கிறது. இது பேசுபவர்களின் அடையாளம் மற்றும் சூழலைப் பாதுகாக்கிறது.
புள்ளிவிவரச் சுருக்கங்கள்: மூல ஆடியோவிற்குப் பதிலாக, ஒலிகள் எவ்வாறு ஒன்றன்பின் ஒன்றாக வருகின்றன போன்ற சுருக்கமான வடிவங்களை (abstract patterns) மட்டுமே இந்த அமைப்பு அனுப்புகிறது.
இன்வர்ஸ் சிமுலேஷன்: ஒரு சேவையகம் இந்த வடிவங்களைப் பயன்படுத்தி ஒரு செயற்கைத் தரவுத்தொகுப்பை (synthetic dataset) உருவாக்குகிறது. இந்தத் தரவுத்தொகுப்பு உண்மையான பதிவுகளைப் பயன்படுத்தாமல், அசல் மொழியின் கட்டமைப்பைப் பிரதிபலிக்கிறது.
ஆக்டிவ் லேர்னிங்: மொழியின் எந்தப் குறிப்பிட்ட பகுதிகளைப் பற்றித் தான் அதிகம் கற்க வேண்டும் என்பதை இந்த மாதிரி (model) கண்டறிகிறது. அந்த குறிப்பிட்டப் பகுதிகளுக்கு மட்டுமே அது சமூகத்திடம் உதவி கேட்கிறது.

நான் இதை ஸ்வீடனில் உள்ள ஒரு சாமி (Sámi) குழுவினருடன் சோதித்தேன். அவர்களிடம் 120 மணிநேர ஆடியோ இருந்தது. அவர்கள் தங்கள் குழந்தைகளுக்குப் பேச்சு-லிருந்து-உரை (speech-to-text) அமைப்பை விரும்பினர்.

நாங்கள் இந்த அமைப்பை ஒரு சாதாரண Raspberry Pi-இல் இயக்கினோம். எந்தவொரு மூல ஆடியோவும் அவர்களின் சமூக மையத்தை விட்டு வெளியேறவில்லை. 10 பயிற்சிச் சுழற்சிகளுக்குப் பிறகு, மாதிரி 78% சொல் பிழை விகிதத்தை (word error rate) எட்டியது. ஒரு சிறிய தரவுத்தொகுப்பிற்கு இது ஒரு மிகப்பெரிய வெற்றி.

இந்த வேலையிலிருந்து கற்றுக்கொண்ட முக்கிய பாடங்கள்:

தனியுரிமையும் பயன்பாடும் ஒன்றையொன்று எதிர்க்க வேண்டிய அவசியமில்லை. இன்வர்ஸ் சிமுலேஷன் இரண்டையும் அனுமதிக்கிறது.
அரிதான மொழிகளுக்கு, பிரம்மாண்டமான மாதிரிகளை விடச் சிறிய, புத்திசாலித்தனமான மாதிரிகளே சிறப்பாகச் செயல்படுகின்றன.
தொழில்நுட்பக் கருவிகள் செயல்பட வேண்டுமானால், அவை கலாச்சார நெறிமுறைகளை மதிக்க வேண்டும்.

AI கலாச்சார இறையாண்மைக்கு (cultural sovereignty) சேவை செய்ய வேண்டும். சமூகங்கள் தங்களது சொந்தத் தரவைக் கட்டுப்படுத்த அனுமதிக்கும் கருவிகளை நாம் உருவாக்க வேண்டும்.

ஆதாரம்: https://dev.to/rikinptl/privacy-preserving-active-learning-for-heritage-language-revitalization-programs-with-inverse-2e29

விருப்பத்தேர்வு கற்றல் சமூகம்: https://t.me/GyaanSetuAi

𝗣𝗿𝗶𝘃𝗮𝗰𝘆 𝗣𝗿𝗲𝘀𝗲𝗿𝘃𝗶𝗻𝗴 𝗔𝗜 𝗳𝗼𝗿 𝗛𝗲𝗿𝗶𝘁𝗮𝗴𝗲 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀

Continue reading

ரகசியங்களை கசியவிடாமல் AI-ஐப் பயன்படுத்துதல்

கோள் புவியியலுக்கான தனியுரிமையைப் பாதுகாக்கும் செயற்கை நுண்ணறிவு