𝗣𝗿𝗶𝘃𝗮𝗰𝘆 𝗣𝗿𝗲𝘀𝗲𝗿𝘃𝗶𝗻𝗴 𝗔𝗜 𝗳𝗼𝗿 𝗛𝗲𝗿𝗶𝘁𝗮𝗴𝗲 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial২ সপ্তাহ আগে2min read

ঐতিহ্যবাহী ভাষার জন্য গোপনীয়তা-রক্ষণশীল AI

AI গবেষণা প্রায়শই ডেটার মানবিক দিকটি উপেক্ষা করে।

আমি একবার উত্তর নরওয়ের একটি লাইব্রেরিতে বসেছিলাম। আমি হাতে লেখা সামি (Sámi) শব্দগুচ্ছ দেখছিলাম। একজন স্থানীয় প্রবীণ ব্যক্তি আমাকে এমন কিছু শব্দ শিখিয়েছিলেন যার ইংরেজিতে কোনো সমতুল্য শব্দ নেই। এই শব্দগুলো বরফ, রেইনডিয়ার এবং বাতাসকে বর্ণনা করে।

সেই প্রবীণ ব্যক্তি আমাকে একটি কঠিন প্রশ্ন করেছিলেন: "আপনারা কি আমাদের ভাষাটি আমাদের কাছ থেকে ছিনিয়ে না নিয়েই তা বাঁচিয়ে রাখতে সাহায্য করতে পারেন?"

এই প্রশ্নটি আমার গবেষণার মোড় ঘুরিয়ে দিয়েছে।

বেশিরভাগ AI প্রশিক্ষণের জন্য বিশাল পরিমাণ ডেটার প্রয়োজন হয়। বেশিরভাগ ডেটা কেন্দ্রীয় সার্ভারে চলে যায়। আদিবাসী সম্প্রদায়গুলোর কাছে ভাষাগত ডেটা অত্যন্ত পবিত্র। এটি ব্যক্তিগত। পবিত্র মন্ত্র বা পারিবারিক ঘুমপাড়ানি গানের অরিজিনাল অডিও ক্লাউড সার্ভারে পাঠানো কোনো বিকল্প হতে পারে না।

আমি এটি সমাধানের জন্য একটি নতুন ফ্রেমওয়ার্ক তৈরি করেছি। এটি privacy-preserving active learning-এর সাথে inverse simulation verification-এর সমন্বয় ঘটায়।

এটি যেভাবে কাজ করে:

লোকাল ডিভাইস: সম্প্রদায়গুলো তাদের অরিজিনাল অডিও এবং টেক্সট তাদের নিজস্ব ডিভাইসেই রাখে।
প্রাইভেসী লেয়ার: সিস্টেমটি ডেটার সাথে গাণিতিক নয়েজ (mathematical noise) যোগ করে। এটি বক্তার পরিচয় এবং প্রেক্ষাপট রক্ষা করে।
স্ট্যাটিস্টিক্যাল সামারি: অরিজিনাল অডিওর পরিবর্তে, সিস্টেমটি শুধুমাত্র বিমূর্ত প্যাটার্ন পাঠায়, যেমন শব্দগুলো একে অপরের পরে কীভাবে আসে।
ইনভার্স সিমুলেশন: একটি সার্ভার এই প্যাটার্নগুলো ব্যবহার করে একটি সিন্থেটিক ডেটাসেট তৈরি করে। এই ডেটাসেটটি আসল রেকর্ডিং ব্যবহার না করেই মূল ভাষার গঠনকে প্রতিফলিত করে।
অ্যাক্টিভ লার্নিং: মডেলটি শনাক্ত করে ভাষার কোন নির্দিষ্ট অংশগুলো সম্পর্কে তার আরও শেখার প্রয়োজন। এটি শুধুমাত্র সেই নির্দিষ্ট অংশগুলোর জন্য সম্প্রদায়ের কাছে সাহায্য চায়।

আমি সুইডেনের একটি সামি (Sámi) গোষ্ঠীর সাথে এটি পরীক্ষা করেছি। তাদের কাছে ১২০ ঘণ্টার অডিও ছিল। তারা তাদের শিশুদের জন্য একটি speech-to-text সিস্টেম চেয়েছিল।

আমরা একটি সাধারণ Raspberry Pi-তে সিস্টেমটি চালিয়েছিলাম। কোনো অরিজিনাল অডিও তাদের কমিউনিটি সেন্টার থেকে বাইরে যায়নি। ১০ রাউন্ড প্রশিক্ষণের পর, মডেলটি ৭৮% word error rate-এ পৌঁছেছে। একটি ক্ষুদ্র ডেটাসেটের জন্য এটি একটি বিশাল সাফল্য।

এই কাজের মূল শিক্ষাগুলো:

প্রাইভেসী এবং উপযোগিতা (utility) একে অপরের বিরুদ্ধে লড়াই করতে হবে না। ইনভার্স সিমুলেশন উভয়কেই সম্ভব করে তোলে।
বিরল ভাষার ক্ষেত্রে বিশাল মডেলের চেয়ে ছোট এবং স্মার্ট মডেলগুলো বেশি কার্যকর।
প্রযুক্তিগত সরঞ্জামগুলোকে কার্যকর হতে হলে সাংস্কৃতিক রীতিনীতিকে অবশ্যই সম্মান করতে হবে।

AI-এর উচিত সাংস্কৃতিক সার্বভৌমত্ব রক্ষা করা। আমাদের এমন সরঞ্জাম তৈরি করতে হবে যা সম্প্রদায়গুলোকে তাদের নিজস্ব ডেটার ওপর নিয়ন্ত্রণ রাখতে সাহায্য করে।

উৎস: https://dev.to/rikinptl/privacy-preserving-active-learning-for-heritage-language-revitalization-programs-with-inverse-2e29

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

𝗣𝗿𝗶𝘃𝗮𝗰𝘆 𝗣𝗿𝗲𝘀𝗲𝗿𝘃𝗶𝗻𝗴 𝗔𝗜 𝗳𝗼𝗿 𝗛𝗲𝗿𝗶𝘁𝗮𝗴𝗲 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀

Continue reading

গোপনীয়তা ফাঁস না করে এআই (AI) ব্যবহার

গ্রহীয় ভূতত্ত্বের জন্য গোপনীয়তা-সুরক্ষিত এআই