AI chroniące prywatność dla języków dziedzictwa

Badania nad AI często pomijają ludzki aspekt danych.

Kiedyś siedziałem w bibliotece w północnej Norwegii. Przyglądałem się ręcznie pisanym frazom w języku saamskim. Lokalny starszy nauczył mnie słów, które nie mają odpowiedników w języku angielskim. Słowa te opisują śnieg, renifery i wiatr.

Starszy zadał mi trudne pytanie: „Czy wasze maszyny mogą pomóc nam utrzymać nasz język przy życiu, nie odbierając go nam?”

To pytanie zmieniło moje badania.

Większość procesów trenowania AI wymaga ogromnych ilości danych. Większość danych trafia na centralne serwery. Dla społeczności rdzennych dane lingwistyczne są święte. Są prywatne. Przesyłanie surowego dźwięku świętych pieśni czy rodzinnych kołysanek na serwer w chmurze nie wchodzi w grę.

Opracowałem nowy framework, aby rozwiązać ten problem. Łączy on aktywne uczenie chroniące prywatność (privacy-preserving active learning) z weryfikacją poprzez symulację odwrotną (inverse simulation verification).

Oto jak to działa:

  • Urządzenia lokalne: Społeczności przechowują surowy dźwięk i tekst na własnych urządzeniach.
  • Warstwa prywatności: System dodaje do danych szum matematyczny. Chroni to tożsamość i kontekst mówców.
  • Podsumowania statystyczne: Zamiast surowego dźwięku, system przesyła jedynie abstrakcyjne wzorce, takie jak to, jak dźwięki następują po sobie.
  • Symulacja odwrotna: Serwer wykorzystuje te wzorce do stworzenia syntetycznego zbioru danych. Zbiór ten odzwierciedla strukturę oryginalnego języka bez użycia rzeczywistych nagrań.
  • Aktywne uczenie: Model identyfikuje, o których konkretnych częściach języka musi dowiedzieć się więcej. Prosi społeczność o pomoc tylko w tych konkretnych kwestiach.

Przetestowałem to z grupą Saamów w Szwecji. Posiadali 120 godzin nagrań audio. Chcieli systemu zamiany mowy na tekst dla swoich dzieci.

Uruchomiliśmy system na prostym Raspberry Pi. Żaden surowy dźwięk nigdy nie opuścił ich centrum społeczności. Po 10 rundach trenowania model osiągnął 78% współczynnika błędów słownych (word error rate). To ogromny sukces przy tak małym zbiorze danych.

Kluczowe wnioski z tej pracy:

  • Prywatność i użyteczność nie muszą ze sobą walczyć. Symulacja odwrotna pozwala na oba te aspekty.
  • Małe, inteligentne modele działają lepiej niż gigantyczne modele w przypadku rzadkich języków.
  • Narzędzia techniczne muszą szanować normy kulturowe, aby być skuteczne.

AI powinna służyć suwerenności kulturowej. Musimy budować narzędzia, które pozwolą społecznościom kontrolować własne dane.

Źródło: https://dev.to/rikinptl/privacy-preserving-active-learning-for-heritage-language-revitalization-programs-with-inverse-2e

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi