𝗣𝗿𝗶𝘃𝗮𝗰𝘆-𝗣𝗿𝗲𝘀𝗲𝗿𝘃𝗶𝗻𝗴 𝗔𝗜 𝗳𝗼𝗿 𝗛𝗲𝗿𝗶𝘁𝗮𝗴𝗲 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀

AI పరిశోధనలు తరచుగా డేటాలోని మానవీయ కోణాన్ని విస్మరిస్తాయి.

నేను ఒకసారి ఉత్తర నార్వేలోని ఒక లైబ్రరీలో కూర్చున్నాను. నేను చేతితో రాసిన సామి (Sámi) పదబంధాలను చూస్తున్నాను. ఒక స్థానిక పెద్దాయన నాకు ఇంగ్లీష్‌లో సమానమైన అర్థం లేని కొన్ని పదాలను నేర్పించారు. ఆ పదాలు మంచు, రెయిన్ డీర్ మరియు గాలిని వివరిస్తాయి.

ఆ పెద్దాయన నన్ను ఒక కఠినమైన ప్రశ్న అడిగారు: "మా భాషను మా నుండి దూరం చేయకుండా, దానిని సజీవంగా ఉంచడంలో మీ యంత్రాలు మాకు సహాయపడగలవా?"

ఈ ప్రశ్న నా పరిశోధనను మార్చివేసింది.

చాలా AI శిక్షణలకు భారీ మొత్తంలో డేటా అవసరం. ఎక్కువ డేటా సెంట్రల్ సర్వర్‌లకు వెళ్తుంది. స్థానిక తెగలకు (indigenous communities), భాషా సంబంధిత డేటా పవిత్రమైనది. అది వ్యక్తిగతమైనది. పవిత్రమైన మంత్రాలు లేదా కుటుంబపు జోలపాటల ముడి ఆడియోను (raw audio) క్లౌడ్ సర్వర్‌కు పంపడం అనేది సాధ్యం కాదు.

దీనిని పరిష్కరించడానికి నేను ఒక కొత్త ఫ్రేమ్‌వర్క్‌ను అభివృద్ధి చేశాను. ఇది privacy-preserving active learningని inverse simulation verificationతో కలుపుతుంది.

ఇది ఎలా పనిచేస్తుందంటే:

  • లోకల్ డివైజ్‌లు: కమ్యూనిటీలు తమ ముడి ఆడియో మరియు వచనాన్ని (text) తమ స్వంత పరికరాల్లోనే ఉంచుకుంటారు.
  • ప్రైవసీ లేయర్: ఈ సిస్టమ్ డేటాకు గణితపరమైన నాయిస్‌ను (mathematical noise) జోడిస్తుంది. ఇది మాట్లాడే వారి గుర్తింపును మరియు సందర్భాన్ని రక్షిస్తుంది.
  • స్టాటిస్టికల్ సమ్మరీస్: ముడి ఆడియోకు బదులుగా, శబ్దాలు ఒకదాని తర్వాత ఒకటి ఎలా వస్తాయి వంటి అబ్‌స్ట్రాక్ట్ ప్యాటర్న్స్‌ను మాత్రమే ఈ సిస్టమ్ పంపుతుంది.
  • ఇన్వర్స్ సిమ్యులేషన్: సర్వర్ ఈ ప్యాటర్న్స్‌ను ఉపయోగించి ఒక సింథటిక్ డేటాసెట్‌ను సృష్టిస్తుంది. ఈ డేటాసెట్ అసలు రికార్డింగ్‌లను ఉపయోగించకుండానే అసలు భాషా నిర్మాణాన్ని ప్రతిబింబిస్తుంది.
  • యాక్టివ్ లెర్నింగ్: భాషలోని ఏ నిర్దిష్ట భాగాల గురించి తాను మరింత నేర్చుకోవాలో మోడల్ గుర్తిస్తుంది. అది కేవలం ఆ నిర్దిష్ట భాగాల కోసం మాత్రమే కమ్యూనిటీ సహాయాన్ని కోరుతుంది.

నేను దీనిని స్వీడన్‌లోని ఒక సామి (Sámi) సమూహంతో పరీక్షించాను. వారి వద్ద 120 గంటల ఆడియో ఉంది. వారు తమ పిల్లల కోసం speech-to-text సిస్టమ్‌ను కోరుకున్నారు.

మేము ఈ సిస్టమ్‌ను ఒక సాధారణ Raspberry Pi పై నడిపాము. ఏ ముడి ఆడియో కూడా వారి కమ్యూనిటీ సెంటర్ నుండి బయటకు వెళ్ళలేదు. 10 రౌండ్ల శిక్షణ తర్వాత, మోడల్ 78% word error rateని చేరుకుంది. అతి తక్కువ డేటాసెట్‌కు ఇది ఒక గొప్ప విజయం.

ఈ పని నుండి నేర్చుకున్న ముఖ్యమైన పాఠాలు:

  • గోప్యత (Privacy) మరియు ఉపయోగితా (Utility) మధ్య పోరాటం ఉండాల్సిన అవసరం లేదు. ఇన్వర్స్ సిమ్యులేషన్ రెండింటినీ అనుమతిస్తుంది.
  • అరుదైన భాషల కోసం భారీ మోడల్స్ కంటే చిన్నవి, తెలివైన మోడల్స్ బాగా పనిచేస్తాయి.
  • సాంకేతిక సాధనాలు పనిచేయాలంటే సాంస్కృతిక నిబంధనలను గౌరవించాలి.

AI సాంస్కృతిక సార్వభౌమాధికారానికి (cultural sovereignty) సేవ చేయాలి. కమ్యూనిటీలు తమ స్వంత డేటాను నియంత్రించుకునేలా మనం సాధనాలను నిర్మించాలి.

Source: https://dev.to/rikinptl/privacy-preserving-active-learning-for-heritage-language-revitalization-programs-with-inverse-2e29

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi