هوش مصنوعی با حفظ حریم خصوصی برای زبانهای میراثی
تحقیقات هوش مصنوعی اغلب جنبه انسانی دادهها را نادیده میگیرند.
زمانی در کتابخانهای در شمال نروژ نشسته بودم. داشتم به عبارات دستنویس زبان سامی (Sámi) نگاه میکردم. یکی از بزرگان محلی کلماتی را به من آموخت که معادل انگلیسی ندارند. این کلمات برف، رنه و باد را توصیف میکنند.
آن بزرگتر سوال سختی از من پرسید: «آیا ماشینهای شما میتوانند به ما کمک کنند تا زبانمان را زنده نگه داریم، بدون اینکه آن را از ما بگیرند؟»
این سوال مسیر تحقیقات من را تغییر داد.
بیشتر آموزشهای هوش مصنوعی به مقادیر عظیمی از داده نیاز دارند. بیشتر دادهها به سرورهای مرکزی ارسال میشوند. برای جوامع بومی، دادههای زبانی مقدس هستند. آنها خصوصی هستند. ارسال فایلهای صوتی خام از آوازهای مقدس یا لالاییهای خانوادگی به یک سرور ابری، گزینهای نیست.
من چارچوب جدیدی برای حل این مسئله توسعه دادم. این چارچوب، «یادگیری فعال با حفظ حریم خصوصی» را با «تایید شبیهسازی معکوس» ترکیب میکند.
نحوه عملکرد آن به این صورت است:
- دستگاههای محلی: جوامع، فایلهای صوتی و متنی خام خود را روی دستگاههای خودشان نگه میدارند.
- لایه حریم خصوصی: سیستم به دادهها نویز ریاضی اضافه میکند. این کار از هویت و بافت (context) گویندگان محافظت میکند.
- خلاصههای آماری: سیستم به جای فایل صوتی خام، فقط الگوهای انتزاعی مانند نحوه قرارگیری صداها در کنار یکدیگر را ارسال میکند.
- شبیهسازی معکوس: یک سرور از این الگوها برای ایجاد یک مجموعه داده مصنوعی استفاده میکند. این مجموعه داده بدون استفاده از ضبطهای واقعی، ساختار زبان اصلی را بازسازی میکند.
- یادگیری فعال: مدل شناسایی میکند که به یادگیری بیشتر در مورد کدام بخشهای خاص از زبان نیاز دارد. مدل فقط برای همان بخشهای خاص از جامعه درخواست کمک میکند.
من این روش را با یک گروه سامی در سوئد آزمایش کردم. آنها ۱۲۰ ساعت فایل صوتی داشتند. آنها یک سیستم تبدیل گفتار به متن برای کودکان خود میخواستند.
ما سیستم را روی یک Raspberry Pi ساده اجرا کردیم. هیچ فایل صوتی خامی هرگز از مرکز جامعه آنها خارج نشد. پس از ۱۰ مرحله آموزش، مدل به نرخ خطای کلمه ۷۸٪ رسید. این یک پیروزی بزرگ برای یک مجموعه داده کوچک است.
درسهای کلیدی از این کار:
- حریم خصوصی و کاربرد لزوماً نباید با هم در تضاد باشند. شبیهسازی معکوس هر دو را ممکن میسازد.
- برای زبانهای کمیاب، مدلهای کوچک و هوشمند بهتر از مدلهای غولپیکر عمل میکنند.
- ابزارهای فنی برای کارکرد صحیح، باید به هنجارهای فرهنگی احترام بگذارند.
هوش مصنوعی باید در خدمت حاکمیت فرهنگی باشد. ما باید ابزارهایی بسازیم که به جوامع اجازه دهد دادههای خود را کنترل کنند.
جامعه یادگیری اختیاری: https://t.me/GyaanSetuAi