பாரம்பரிய மொழிகளுக்கான தனியுரிமை காக்கும் AI
AI ஆராய்ச்சி பெரும்பாலும் தரவுகளின் மனிதத் தன்மையைக் கவனிக்கத் தவறிவிடுகிறது.
நான் ஒருமுறை வடக்கு நோர்வேயில் உள்ள ஒரு நூலகத்தில் அமர்ந்திருந்தேன். அங்கு கையால் எழுதப்பட்ட சாமி (Sámi) சொற்றொடர்களைப் பார்த்துக் கொண்டிருந்தேன். ஒரு உள்ளூர் பெரியவர், ஆங்கிலத்தில் இணையாத சில சொற்களை எனக்குக் கற்றுக்கொடுத்தார். அந்தச் சொற்கள் பனி, கலைமான்கள் மற்றும் காற்றைப் பற்றி விவரிக்கின்றன.
அந்தப் பெரியவர் என்னிடம் ஒரு கடினமான கேள்வியைக் கேட்டார்: "எங்கள் மொழியை எங்களிடமிருந்து பறிக்காமல், அதை உயிர்ப்புடன் வைத்திருக்க உங்கள் இயந்திரங்களால் உதவ முடியுமா?"
இந்தக் கேள்வி எனது ஆராய்ச்சியை மாற்றியமைத்தது.
பெரும்பாலான AI பயிற்சிகளுக்குப் பெருமளவிலான தரவுகள் தேவைப்படுகின்றன. பெரும்பாலான தரவுகள் மையத் சேவையகங்களுக்கு (central servers) அனுப்பப்படுகின்றன. பழங்குடி சமூகங்களைப் பொறுத்தவரை, மொழியியல் தரவுகள் புனிதமானவை. அவை தனிப்பட்டவை. புனிதமானப் பாடல்கள் அல்லது குடும்பத் தாலாட்டுகளின் மூல ஆடியோவை (raw audio) கிளவுட் சேவையகத்திற்கு அனுப்புவது ஒரு விருப்பத்தேர்வல்ல.
இதைத் தீர்க்க நான் ஒரு புதிய கட்டமைப்பை (framework) உருவாக்கினேன். இது தனியுரிமை காக்கும் ஆக்டிவ் லேர்னிங் (privacy-preserving active learning) மற்றும் இன்வர்ஸ் சிமுலேஷன் வெரிஃபிகேஷன் (inverse simulation verification) ஆகியவற்றை இணைக்கிறது.
இது எவ்வாறு செயல்படுகிறது என்பது இதோ:
- உள்ளூர் சாதனங்கள்: சமூகங்கள் தங்களது மூல ஆடியோ மற்றும் உரையைத் தங்களது சொந்தச் சாதனங்களிலேயே வைத்துக்கொள்கின்றன.
- தனியுரிமை அடுக்கு: இந்த அமைப்பு தரவுகளில் கணித ரீதியான இரைச்சலை (mathematical noise) சேர்க்கிறது. இது பேசுபவர்களின் அடையாளம் மற்றும் சூழலைப் பாதுகாக்கிறது.
- புள்ளிவிவரச் சுருக்கங்கள்: மூல ஆடியோவிற்குப் பதிலாக, ஒலிகள் எவ்வாறு ஒன்றன்பின் ஒன்றாக வருகின்றன போன்ற சுருக்கமான வடிவங்களை (abstract patterns) மட்டுமே இந்த அமைப்பு அனுப்புகிறது.
- இன்வர்ஸ் சிமுலேஷன்: ஒரு சேவையகம் இந்த வடிவங்களைப் பயன்படுத்தி ஒரு செயற்கைத் தரவுத்தொகுப்பை (synthetic dataset) உருவாக்குகிறது. இந்தத் தரவுத்தொகுப்பு உண்மையான பதிவுகளைப் பயன்படுத்தாமல், அசல் மொழியின் கட்டமைப்பைப் பிரதிபலிக்கிறது.
- ஆக்டிவ் லேர்னிங்: மொழியின் எந்தப் குறிப்பிட்ட பகுதிகளைப் பற்றித் தான் அதிகம் கற்க வேண்டும் என்பதை இந்த மாதிரி (model) கண்டறிகிறது. அந்த குறிப்பிட்டப் பகுதிகளுக்கு மட்டுமே அது சமூகத்திடம் உதவி கேட்கிறது.
நான் இதை ஸ்வீடனில் உள்ள ஒரு சாமி (Sámi) குழுவினருடன் சோதித்தேன். அவர்களிடம் 120 மணிநேர ஆடியோ இருந்தது. அவர்கள் தங்கள் குழந்தைகளுக்குப் பேச்சு-லிருந்து-உரை (speech-to-text) அமைப்பை விரும்பினர்.
நாங்கள் இந்த அமைப்பை ஒரு சாதாரண Raspberry Pi-இல் இயக்கினோம். எந்தவொரு மூல ஆடியோவும் அவர்களின் சமூக மையத்தை விட்டு வெளியேறவில்லை. 10 பயிற்சிச் சுழற்சிகளுக்குப் பிறகு, மாதிரி 78% சொல் பிழை விகிதத்தை (word error rate) எட்டியது. ஒரு சிறிய தரவுத்தொகுப்பிற்கு இது ஒரு மிகப்பெரிய வெற்றி.
இந்த வேலையிலிருந்து கற்றுக்கொண்ட முக்கிய பாடங்கள்:
- தனியுரிமையும் பயன்பாடும் ஒன்றையொன்று எதிர்க்க வேண்டிய அவசியமில்லை. இன்வர்ஸ் சிமுலேஷன் இரண்டையும் அனுமதிக்கிறது.
- அரிதான மொழிகளுக்கு, பிரம்மாண்டமான மாதிரிகளை விடச் சிறிய, புத்திசாலித்தனமான மாதிரிகளே சிறப்பாகச் செயல்படுகின்றன.
- தொழில்நுட்பக் கருவிகள் செயல்பட வேண்டுமானால், அவை கலாச்சார நெறிமுறைகளை மதிக்க வேண்டும்.
AI கலாச்சார இறையாண்மைக்கு (cultural sovereignty) சேவை செய்ய வேண்டும். சமூகங்கள் தங்களது சொந்தத் தரவைக் கட்டுப்படுத்த அனுமதிக்கும் கருவிகளை நாம் உருவாக்க வேண்டும்.
விருப்பத்தேர்வு கற்றல் சமூகம்: https://t.me/GyaanSetuAi