الذكاء الاصطناعي الحافظ للخصوصية من أجل لغات التراث

غالبًا ما يتجاهل البحث في مجال الذكاء الاصطناعي الجانب الإنساني للبيانات.

جلست ذات مرة في مكتبة في شمال النرويج، حيث كنت أتصفح عبارات مكتوبة بخط اليد بلغة "سامي" (Sámi). علمني أحد كبار السن المحليين كلمات ليس لها معادل في اللغة الإنجليزية؛ كلمات تصف الثلج، ورنة الوعل، والرياح.

طرح عليّ كبير السن سؤالاً صعباً: "هل يمكن لآلاتكم مساعدتنا في الحفاظ على لغتنا حية دون انتزاعها منا؟"

غيّر هذا السؤال مسار أبحاثي.

يتطلب معظم تدريب الذكاء الاصطناعي كميات هائلة من البيانات، وتذهب معظم هذه البيانات إلى خوادم مركزية. بالنسبة للمجتمعات الأصلية، تُعد البيانات اللغوية مقدسة وخاصة. لذا، فإن إرسال تسجيلات صوتية خام لترانيم مقدسة أو تهويدات عائلية إلى خادم سحابي ليس خياراً مطروحاً.

لقد طورت إطار عمل جديداً لحل هذه المشكلة، حيث يجمع بين التعلم النشط الحافظ للخصوصية (privacy-preserving active learning) والتحقق عبر المحاكاة العكسية (inverse simulation verification).

إليك كيفية عمله:

  • الأجهزة المحلية: تحتفظ المجتمعات بتسجيلاتها الصوتية ونصوصها الخام على أجهزتها الخاصة.
  • طبقة الخصوصية: يضيف النظام ضجيجاً رياضياً إلى البيانات، مما يحمي هوية المتحدثين وسياق حديثهم.
  • الملخصات الإحصائية: بدلاً من الصوت الخام، يرسل النظام فقط أنماطاً مجردة، مثل كيفية تتابع الأصوات.
  • المحاكاة العكسية: يستخدم الخادم هذه الأنماط لإنشاء مجموعة بيانات اصطناعية، تحاكي بنية اللغة الأصلية دون استخدام التسجيلات الحقيقية.
  • التعلم النشط: يحدد النموذج الأجزاء المحددة من اللغة التي يحتاج إلى تعلم المزيد عنها، ويطلب المساعدة من المجتمع في تلك الأجزاء فقط.

اختبرت هذا مع مجموعة من شعب "سامي" في السويد، حيث كان لديهم 120 ساعة من التسجيلات الصوتية، وكانوا يرغبون في نظام لتحويل الكلام إلى نص لأطفالهم.

قمنا بتشغيل النظام على جهاز Raspberry Pi بسيط. لم تغادر أي تسجيلات صوتية خام مركزهم المجتمعي أبداً. وبعد 10 جولات من التدريب، وصل النموذج إلى معدل خطأ في الكلمات بنسبة 78%. ويُعد هذا إنجازاً كبيراً لمجموعة بيانات صغيرة جداً.

دروس رئيسية من هذا العمل:

  • لا يجب أن تتعارض الخصوصية والمنفعة؛ فالمحاكاة العكسية تسمح بتحقيق كليهما.
  • النماذج الصغيرة والذكية تعمل بشكل أفضل من النماذج العملاقة بالنسبة للغات النادرة.
  • يجب أن تحترم الأدوات التقنية الأعراف الثقافية لكي تنجح.

يجب أن يخدم الذكاء الاصطناعي السيادة الثقافية. يتعين علينا بناء أدوات تتيح للمجتمعات التحكم في بياناتها الخاصة.

المصدر: https://dev.to/rikinptl/privacy-preserving-active-learning-for-heritage-language-revitalization-programs-with-inverse-2e29

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi