유산 언어를 위한 프라이버시 보호 AI

AI 연구는 종종 데이터의 인간적인 측면을 간과하곤 합니다.

언젠가 노르웨이 북부의 한 도서관에 앉아 있었습니다. 저는 사미어(Sámi)로 쓰인 손글씨 문구들을 살펴보고 있었습니다. 한 지역 어르신께서 영어로는 대응하는 단어가 없는 말들을 가르쳐 주셨습니다. 그 단어들은 눈, 순록, 그리고 바람을 묘사하는 말들이었습니다.

어르신은 제게 어려운 질문을 던지셨습니다. "당신의 기계가 우리에게서 언어를 빼앗지 않으면서도, 우리 언어를 계속 살아있게 도와줄 수 있습니까?"

이 질문은 제 연구의 방향을 바꾸어 놓았습니다.

대부분의 AI 학습에는 방대한 양의 데이터가 필요합니다. 대부분의 데이터는 중앙 서버로 전송됩니다. 하지만 원주민 공동체에게 언어 데이터는 신성한 것입니다. 그것은 사적인 영역입니다. 신성한 찬가나 가족의 자장가 녹음본을 클라우드 서버로 보내는 것은 선택지에 있을 수 없습니다.

저는 이 문제를 해결하기 위해 새로운 프레임워크를 개발했습니다. 이는 프라이버시 보호 능동 학습(privacy-preserving active learning)과 역 시뮬레이션 검증(inverse simulation verification)을 결합한 방식입니다.

작동 방식은 다음과 같습니다:

  • 로컬 장치: 공동체는 원본 오디오와 텍스트를 자체 장치에 보관합니다.
  • 프라이버시 계층: 시스템이 데이터에 수학적 노이즈를 추가합니다. 이를 통해 화자의 신원과 맥락을 보호합니다.
  • 통계적 요약: 원본 오디오 대신, 시스템은 소리가 어떻게 이어지는지와 같은 추상적인 패턴만을 전송합니다.
  • 역 시뮬레이션: 서버는 이러한 패턴을 사용하여 합성 데이터셋을 생성합니다. 이 데이터셋은 실제 녹음본을 사용하지 않고도 원래의 언어 구조를 반영합니다.
  • 능동 학습: 모델은 언어의 어떤 특정 부분을 더 학습해야 하는지 식별합니다. 그리고 오직 그 특정 부분에 대해서만 공동체에 도움을 요청합니다.

저는 스웨덴의 사미족 그룹을 대상으로 이를 테스트했습니다. 그들은 120시간 분량의 오디오를 보유하고 있었습니다. 그들은 아이들을 위한 음성-텍스트 변환(speech-to-text) 시스템을 원했습니다.

저희는 간단한 Raspberry Pi에서 시스템을 실행했습니다. 원본 오디오는 커뮤니티 센터 밖으로 단 한 번도 나가지 않았습니다. 10차례의 학습 과정을 거친 후, 모델은 78%의 단어 오류율(word error rate)에 도달했습니다. 이는 아주 작은 데이터셋으로는 엄청난 성과입니다.

이 연구의 주요 교훈:

  • 프라이버시와 유용성은 대립할 필요가 없습니다. 역 시뮬레이션은 두 가지를 모두 가능하게 합니다.
  • 희귀 언어의 경우, 거대한 모델보다 작고 스마트한 모델이 더 효과적입니다.
  • 기술적 도구가 제대로 작동하려면 문화적 규범을 존중해야 합니다.

AI는 문화적 주권에 봉사해야 합니다. 우리는 공동체가 자신의 데이터를 스스로 통제할 수 있게 하는 도구를 만들어야 합니다.

출처: https://dev.to/rikinptl/privacy-preserving-active-learning-for-heritage-language-revitalization-programs-with-inverse-2e29

선택 사항 학습 커뮤니티: https://t.me/GyaanSetuAi