𝗣𝗿𝗶𝘃𝗮𝗰𝘆-𝗣𝗿𝗲𝘀𝗲𝗿𝘃𝗶𝗻𝗴 𝗔𝗜 𝗳𝗼𝗿 𝗛𝗲𝗿𝗶𝘁𝗮𝗴𝗲 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀 AI ที่รักษาความเป็นส่วนตัวเพื่อภาษาที่เป็นมรดกทางวัฒนธรรม

งานวิจัยด้าน AI มักมองข้ามแง่มุมด้านความเป็นมนุษย์ของข้อมูล

ครั้งหนึ่งผมเคยนั่งอยู่ในห้องสมุดทางตอนเหนือของนอร์เวย์ ผมกำลังดูวลีภาษา Sámi ที่เขียนด้วยลายมือ ผู้อาวุโสในท้องถิ่นสอนคำศัพท์ที่ไม่มีคำแปลในภาษาอังกฤษให้ผม คำเหล่านี้ใช้อธิบายหิมะ กวางเรนเดียร์ และสายลม

ผู้อาวุโสถามคำถามที่ยากกับผมว่า "เครื่องจักรของคุณจะช่วยให้เรารักษาภาษาของเราให้คงอยู่ได้ โดยไม่พรากมันไปจากเราได้หรือไม่?"

คำถามนี้เปลี่ยนทิศทางการวิจัยของผม

การฝึกฝน AI ส่วนใหญ่ต้องใช้ข้อมูลจำนวนมหาศาล และข้อมูลส่วนใหญ่จะถูกส่งไปยังเซิร์ฟเวอร์ส่วนกลาง สำหรับชุมชนพื้นเมือง ข้อมูลทางภาษาถือเป็นสิ่งศักดิ์สิทธิ์และเป็นเรื่องส่วนตัว การส่งไฟล์เสียงดิบของบทสวดศักดิ์สิทธิ์หรือเพลงกล่อมเด็กของครอบครัวไปยังเซิร์ฟเวอร์คลาวด์จึงไม่ใช่ทางเลือกที่ทำได้

ผมจึงได้พัฒนาเฟรมเวิร์กใหม่เพื่อแก้ปัญหานี้ โดยการผสมผสานระหว่าง privacy-preserving active learning เข้ากับ inverse simulation verification

นี่คือหลักการทำงาน:

  • Local devices: ชุมชนเก็บไฟล์เสียงและข้อความดิบไว้ในอุปกรณ์ของตนเอง
  • Privacy layer: ระบบจะเพิ่มสัญญาณรบกวนทางคณิตศาสตร์ (mathematical noise) ลงในข้อมูล เพื่อปกป้องตัวตนและบริบทของผู้พูด
  • Statistical summaries: แทนที่จะส่งไฟล์เสียงดิบ ระบบจะส่งเพียงรูปแบบเชิงนามธรรม เช่น ลำดับการเกิดของเสียงต่างๆ เท่านั้น
  • Inverse simulation: เซิร์ฟเวอร์จะใช้รูปแบบเหล่านี้เพื่อสร้างชุดข้อมูลสังเคราะห์ (synthetic dataset) ซึ่งชุดข้อมูลนี้จะสะท้อนโครงสร้างภาษาเดิมโดยไม่ต้องใช้ไฟล์บันทึกเสียงจริง
  • Active learning: โมเดลจะระบุว่าส่วนใดของภาษาที่จำเป็นต้องเรียนรู้เพิ่มเติม และจะขอความช่วยเหลือจากชุมชนเฉพาะในส่วนที่เจาะจงเหล่านั้นเท่านั้น

ผมได้ทดสอบสิ่งนี้กับกลุ่มชาว Sámi ในสวีเดน พวกเขามีไฟล์เสียงจำนวน 120 ชั่วโมง และต้องการระบบ speech-to-text สำหรับเด็กๆ ของพวกเขา

เราใช้ระบบนี้บน Raspberry Pi เครื่องธรรมดา โดยไม่มีไฟล์เสียงดิบใดๆ หลุดออกจากศูนย์ชุมชนเลย หลังจากผ่านการฝึกฝน 10 รอบ โมเดลสามารถทำอัตราความผิดพลาดของคำ (word error rate) ได้ที่ 78% ซึ่งถือเป็นความสำเร็จครั้งใหญ่สำหรับชุดข้อมูลขนาดเล็กเช่นนี้

บทเรียนสำคัญจากงานนี้:

  • ความเป็นส่วนตัวและประโยชน์ใช้สอยไม่จำเป็นต้องขัดแย้งกัน การใช้ inverse simulation ช่วยให้รักษาได้ทั้งสองด้าน
  • โมเดลขนาดเล็กที่ชาญฉลาดทำงานได้ดีกว่าโมเดลขนาดใหญ่สำหรับภาษาที่หายาก
  • เครื่องมือทางเทคนิคต้องเคารพบรรทัดฐานทางวัฒนธรรมจึงจะใช้งานได้จริง

AI ควรรับใช้เอกราชทางวัฒนธรรม เราต้องสร้างเครื่องมือที่ช่วยให้ชุมชนสามารถควบคุมข้อมูลของตนเองได้

Source: https://dev.to/rikinptl/privacy-preserving-active-learning-for-heritage-language-revitalization-programs-with-inverse-2e29

ชุมชนการเรียนรู้ (ไม่บังคับ): https://t.me/GyaanSetuAi