The Atlantic、AI学習に使用された音楽の検索可能なデータベースを公開
生成AIの学習における透明性の欠如が、画期的な調査報道によって解消されようとしています。『The Atlantic』は、人工知能モデルに取り込まれている著作権保護された音楽の膨大な規模を明らかにする、公開・検索可能なデータベースを立ち上げました。
膨大なデータセットの解明:数百万曲が明らかに
調査記者のAlex Reisner氏は、現在AIの音楽学習の基盤となっている4つの主要なデータセットを特定しました。これらのリポジトリの規模は驚異的で、2つのデータセットにはそれぞれ1,200万曲と900万曲が含まれており、残りの2つの小規模なセットにもそれぞれ10万曲以上が収められています。
この事実は、AI業界における構造的な問題を浮き彫りにしています。つまり、元のクリエイターからの明示的な許可を得ることなく、膨大な量のメディアが学習セットへと集約されているのです。このデータベースを使用すれば、誰でもこれらのコレクションを検索できます。そこには、Lady Gaga、Bruce Springsteen、Radioheadといったメインストリームのアイコンから、Hainbachのような実験的な作曲家、Aphex Twinのようなエレクトロニック・アーティストに至るまで、幅広い音楽的才能が含まれています。
技術的な抜け穴:プラットフォームの保護を回避
今回の発見により、AI開発者が学習データを取得するために使用している巧妙な技術的回避策が明らかになりました。これらのデータセットのほとんどは、直接的な音声ファイルで構成されているのではなく、YouTubeやSpotifyといったプラットフォームへのリンクのリストとなっています。
これらのリンクを使用可能な学習データに変換するために、開発者は音声を直接ダウンロードするように設計された自動スクレイピングツールを採用しています。これらのツールは、ログインを回避し、広告をスキップし、クリエイターが作品を収益化するための仕組み(サブスクリプションモデルやペイウォールなど)そのものを回避するように特別に設計されています。これらのデータセットはインターネット上で「利用可能」かもしれませんが、その抽出方法は、ホスティングプラットフォームの利用規約に違反することが多く、アーティストを保護するためのデジタル著作権管理(DRM)を損なうものです。
業界への影響とAIウォッチドッグ
このデータ取り込みの影響は理論上の話ではありません。業界の主要プレーヤーは、すでにその使用を認めています。GoogleとStability AIの両社が、公式の研究論文においてこれらのデータセットの活用を認めています。この確認は、マルチモーダルAIの急速な進歩と、知的財産を管理する法的枠組みとの間で高まる緊張を浮き彫りにしています。
The Atlantic誌は、自社の"AI Watchdog"サイトにこの情報を掲載することで、開発者、法律専門家、そしてアーティストが自身の知的財産がどのように利用されているかを追跡するための重要なツールを提供しています。この動きは、議論を憶測から実証的な証拠へと転換させ、機械学習時代におけるフェアユースに関する今後の著作権訴訟や規制論争に必要な土台を築いています。
主なポイント
- 膨大な規模のデータ取り込み: AI学習用データセットには数百万ものトラックが含まれており、その中には1,200万曲と900万曲という2つの巨大なセットが含まれています。
- 規約の回避: 開発者は自動化ツールを使用してYouTubeやSpotifyの保護機能を回避しており、実質的にクリエイターから広告収入やサブスクリプション料金を奪っています。
- 企業の責任: GoogleやStability AIを含む主要なAI企業は、発表した研究においてこれらのデータセットの使用を検証しています。