𝗣𝗿𝗶𝘃𝗮𝗰𝘆-𝗣𝗿𝗲𝘀𝗲𝗿𝘃𝗶𝗻𝗴 𝗔𝗜 𝗳𝗼𝗿 𝗛𝗲𝗿𝗶𝘁𝗮𝗴𝗲 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀
AI संशोधन अनेकदा डेटाच्या मानवी पैलूंकडे दुर्लक्ष करते.
मी एकदा उत्तर नॉर्वेमधील एका ग्रंथालयात बसलो होतो. मी हाताने लिहिलेली सामी (Sámi) वाक्ये पाहत होतो. एका स्थानिक ज्येष्ठ व्यक्तीने मला असे शब्द शिकवले ज्यांना इंग्रजीमध्ये समानार्थी शब्द नाहीत. हे शब्द बर्फ, रेनडिअर (reindeer) आणि वारा यांचे वर्णन करतात.
त्या ज्येष्ठ व्यक्तीने मला एक कठीण प्रश्न विचारला: "तुमची यंत्रे आमची भाषा आमच्यापासून हिरावून न घेता, ती जिवंत ठेवण्यास आम्हाला मदत करू शकतात का?"
या प्रश्नाने माझे संशोधन बदलले.
बहुतेक AI प्रशिक्षणासाठी प्रचंड प्रमाणात डेटाची आवश्यकता असते. बहुतेक डेटा मध्यवर्ती सर्व्हरवर जातो. मूळ निवासी समुदायांसाठी, भाषिक डेटा पवित्र असतो. तो खाजगी असतो. पवित्र मंत्र किंवा कौटुंबिक अंगाईगीतांचे मूळ ऑडिओ क्लाउड सर्व्हरवर पाठवणे हा पर्याय असू शकत नाही.
हे सोडवण्यासाठी मी एक नवीन फ्रेमवर्क विकसित केले. हे privacy-preserving active learning ला inverse simulation verification सोबत जोडते.
ते कसे कार्य करते ते येथे दिले आहे:
- स्थानिक उपकरणे (Local devices): समुदाय त्यांचे मूळ ऑडिओ आणि मजकूर स्वतःच्या उपकरणांवर ठेवतात.
- गोपनीयता स्तर (Privacy layer): सिस्टम डेटामध्ये गणितीय गोंधळ (mathematical noise) जोडते. यामुळे वक्त्यांची ओळख आणि संदर्भ सुरक्षित राहतो.
- सांख्यिकीय सारांश (Statistical summaries): मूळ ऑडिओऐवजी, सिस्टम फक्त ध्वनी एकमेकांच्या मागे कसे येतात, यासारखे अमूर्त नमुने (abstract patterns) पाठवते.
- इन्व्हर्स सिम्युलेशन (Inverse simulation): सर्व्हर या नमुन्यांचा वापर करून एक कृत्रिम डेटासेट (synthetic dataset) तयार करतो. हा डेटासेट मूळ रेकॉर्डिंग न वापरता मूळ भाषेच्या रचनेचे प्रतिबिंब दर्शवतो.
- ॲक्टिव्ह लर्निंग (Active learning): मॉडेल भाषेचे कोणते विशिष्ट भाग अधिक शिकण्याची गरज आहे हे ओळखते. ते समुदायाकडे केवळ त्या विशिष्ट भागांसाठी मदत मागते.
मी स्वीडनमधील एका सामी (Sámi) गटासोबत याची चाचणी केली. त्यांच्याकडे १२० तासांचे ऑडिओ होते. त्यांना त्यांच्या मुलांसाठी speech-to-text सिस्टम हवी होती.
आम्ही ही सिस्टम एका साध्या Raspberry Pi वर चालवली. कोणतेही मूळ ऑडिओ त्यांच्या समुदाय केंद्राबाहेर गेले नाहीत. प्रशिक्षणाच्या १० फेऱ्यांनंतर, मॉडेलने ७८% word error rate गाठला. एका लहान डेटासेटसाठी ही एक मोठी उपलब्धी आहे.
या कामातून मिळालेले मुख्य धडे:
- गोपनीयता आणि उपयुक्तता यांच्यात संघर्ष असण्याची गरज नाही. Inverse simulation दोन्ही गोष्टींना शक्य करते.
- दुर्मिळ भाषांसाठी अवाढव्य मॉडेल्सपेक्षा लहान आणि स्मार्ट मॉडेल्स अधिक चांगले काम करतात.
- तांत्रिक साधनांना कार्य करण्यासाठी सांस्कृतिक नियमांचा आदर करणे आवश्यक आहे.
AI ने सांस्कृतिक सार्वभौमत्वाची (cultural sovereignty) सेवा केली पाहिजे. आपण अशी साधने तयार केली पाहिजेत जी समुदायांना त्यांच्या स्वतःच्या डेटावर नियंत्रण ठेवू देतील.
ऐच्छिक शिक्षण समुदाय: https://t.me/GyaanSetuAi