継承言語のためのプライバシー保護型AI

AI研究は、データの人間的な側面を見落としがちです。

かつて、私はノルウェー北部の図書館に座っていました。そこでは、手書きのサーミ語のフレーズを眺めていました。地元の長老が、英語には対応する言葉がない単語を教えてくれました。それらは雪、トナカイ、そして風を表す言葉でした。

長老は私に難しい問いを投げかけました。「あなたの機械は、私たちの言語を奪うことなく、生き続けさせる手助けをしてくれますか?」

この問いが、私の研究を変えました。

ほとんどのAIトレーニングには膨大なデータが必要です。そして、そのデータの多くは中央サーバーに送られます。しかし、先住民族のコミュニティにとって、言語データは神聖なものです。それはプライベートなものです。神聖な詠唱や家族の子守唄の生の音声をクラウドサーバーに送ることは、選択肢にすら入りません。

私はこれを解決するために、新しいフレームワークを開発しました。これは、プライバシー保護型アクティブラーニング(privacy-preserving active learning)と逆シミュレーション検証(inverse simulation verification)を組み合わせたものです。

その仕組みは以下の通りです:

  • ローカルデバイス:コミュニティは、生の音声やテキストを自分たちのデバイス内に保持します。
  • プライバシー層:システムはデータに数学的なノイズを加えます。これにより、話者の身元や文脈が保護されます。
  • 統計的要約:生の音声の代わりに、音の連続性といった抽象的なパターンのみを送信します。
  • 逆シミュレーション:サーバーはこれらのパターンを使用して、合成データセットを作成します。このデータセットは、実際の録音を使用することなく、元の言語構造を反映しています。
  • アクティブラーニング:モデルは、言語のどの特定の部分についてもっと学習する必要があるかを特定します。そして、その特定の部分についてのみ、コミュニティに協力を求めます。

私はこれをスウェーデンのサーミ人のグループでテストしました。彼らには120時間の音声データがありました。彼らは子供たちのために音声文字変換(speech-to-text)システムを求めていました。

私たちは、シンプルなRaspberry Pi上でシステムを稼働させました。生の音声がコミュニティセンターの外に出ることは一度もありませんでした。10回のトレーニングラウンドを経て、モデルは単語誤り率(word error rate)78%に達しました。これは、極めて小さなデータセットとしては大きな成果です。

この研究から得られた重要な教訓:

  • プライバシーと有用性は、相反するものではありません。逆シミュレーションはその両立を可能にします。
  • 希少言語においては、巨大なモデルよりも、小さくてスマートなモデルの方が効果的です。
  • 技術的なツールが機能するためには、文化的な規範を尊重しなければなりません。

AIは文化的主権に資するものであるべきです。私たちは、コミュニティが自分たちのデータをコントロールできるようなツールを構築しなければなりません。

Source: https://dev.to/rikinptl/privacy-preserving-active-learning-for-heritage-language-revitalization-programs-with-inverse-2e29

任意参加の学習コミュニティ: https://t.me/GyaanSetuAi