Privacy-bewarende AI voor erfgoedtalen
AI-onderzoek negeert vaak de menselijke kant van data.
Ik zat ooit in een bibliotheek in Noord-Noorwegen. Ik keek naar handgeschreven Sámi-zinnen. Een lokale oudere leerde me woorden die geen Engels equivalent hebben. Deze woorden beschrijven sneeuw, rendieren en wind.
De oudere stelde me een moeilijke vraag: "Kunnen jouw machines ons helpen onze taal levend te houden zonder haar van ons af te pakken?"
Deze vraag veranderde mijn onderzoek.
De meeste AI-training heeft enorme hoeveelheden data nodig. De meeste data gaat naar centrale servers. Voor inheemse gemeenschappen is linguïstische data heilig. Het is privé. Het versturen van ruwe audio van heilige gezangen of slaapliedjes van de familie naar een cloudserver is geen optie.
Ik heb een nieuw framework ontwikkeld om dit op te lossen. Het combineert privacy-bewarende active learning met inverse simulation verification.
Hier is hoe het werkt:
- Lokale apparaten: Gemeenschappen houden hun ruwe audio en tekst op hun eigen apparaten.
- Privacy-laag: Het systeem voegt wiskundige ruis toe aan de data. Dit beschermt de identiteit en de context van de sprekers.
- Statistische samenvattingen: In plaats van ruwe audio stuurt het systeem alleen abstracte patronen, zoals de manier waarop klanken elkaar opvolgen.
- Inverse simulation: Een server gebruikt deze patronen om een synthetische dataset te creëren. Deze dataset weerspiegelt de oorspronkelijke taalstructuur zonder de echte opnames te gebruiken.
- Active learning: Het model identificeert welke specifieke delen van de taal het beter moet leren. Het vraagt de gemeenschap alleen om hulp bij die specifieke onderdelen.
Ik heb dit getest met een Sámi-groep in Zweden. Ze hadden 120 uur aan audio. Ze wilden een spraak-naar-tekst-systeem voor hun kinderen.
We draaiden het systeem op een eenvoudige Raspberry Pi. Er is nooit ruwe audio hun gemeenschapscentrum uit gegaan. Na 10 trainingsrondes bereikte het model een word error rate van 78%. Dit is een enorme overwinning voor een zeer kleine dataset.
Belangrijke lessen uit dit werk:
- Privacy en nut hoeven niet met elkaar te strijden. Inverse simulation maakt beide mogelijk.
- Kleine, slimme modellen werken beter dan gigantische modellen voor zeldzame talen.
- Technische hulpmiddelen moeten culturele normen respecteren om te kunnen werken.
AI zou culturele soevereiniteit moeten dienen. We moeten tools bouwen waarmee gemeenschappen controle houden over hun eigen data.
Optionele leercommunity: https://t.me/GyaanSetuAi