The Atlantic dévoile une base de données consultable de la musique utilisée pour l'entraînement de l'IA
Le fossé de transparence dans l'entraînement de l'IA générative vient d'être comblé par un effort d'investigation historique. The Atlantic a lancé une base de données publique et consultable qui expose l'ampleur massive de la musique protégée par le droit d'auteur ingérée par les modèles d'intelligence artificielle.
Mise au jour de jeux de données massifs : des millions de titres exposés
Le journaliste d'investigation Alex Reisner a identifié quatre jeux de données principaux qui servent actuellement de colonne vertébrale à l'entraînement musical de l'IA. L'ampleur de ces répertoires est stupéfiante : deux des jeux de données contiennent respectivement 12 millions et 9 millions de titres, tandis que deux ensembles plus restreints détiennent chacun plus de 100 000 chansons.
Cette révélation met en lumière un problème systémique dans l'industrie de l'IA, où des volumes massifs de médias sont agrégés dans des ensembles d'entraînement sans l'autorisation explicite des créateurs originaux. La base de données permet à quiconque de parcourir ces collections, qui incluent un vaste spectre de talents musicaux allant d'icônes grand public comme Lady Gaga, Bruce Springsteen et Radiohead à des compositeurs expérimentaux comme Hainbach et des artistes électroniques comme Aphex Twin.
La faille technique : contourner les protections des plateformes
La découverte révèle un contournement technique sophistiqué utilisé par les développeurs d'IA pour acquérir des données d'entraînement. La plupart de ces jeux de données ne consistent pas en des fichiers audio directs, mais plutôt en des listes de liens vers des plateformes telles que YouTube et Spotify.
Pour convertir ces liens en données d'entraînement exploitables, les développeurs emploient des outils de scraping automatisés conçus pour télécharger l'audio directement. Ces outils sont spécifiquement conçus pour contourner les connexions, ignorer les publicités et déjouer les mécanismes mêmes — tels que les modèles d'abonnement et les paywalls — qui permettent aux créateurs de monétiser leur travail. Bien que ces jeux de données puissent être « disponibles » sur Internet, la méthode d'extraction viole fréquemment les conditions d'utilisation des plateformes d'hébergement et sape la gestion des droits numériques (DRM) destinée à protéger les artistes.
Implications pour l'industrie et surveillance de l'IA
L'impact de cette ingestion de données n'est pas théorique ; les principaux acteurs de l'industrie en ont déjà reconnu l'utilisation. Google et Stability AI ont tous deux confirmé l'utilisation de ces ensembles de données dans leurs articles de recherche officiels. Cette confirmation souligne une tension croissante entre l'avancement rapide de l'IA multimodale et les cadres juridiques régissant la propriété intellectuelle.
En hébergeant ces informations sur le site « AI Watchdog » de The Atlantic, la publication fournit un outil essentiel aux développeurs, aux experts juridiques et aux artistes pour suivre la manière dont leur propriété intellectuelle est utilisée. Cette initiative fait passer le débat de la spéculation à la preuve empirique, jetant ainsi les bases nécessaires aux futurs litiges sur le droit d'auteur et aux débats réglementaires concernant l'usage équitable (fair use) à l'ère de l'apprentissage automatique.
Points clés
- Échelle massive de l'ingestion : Les ensembles de données d'entraînement de l'IA contiennent des millions de pistes, dont deux ensembles massifs de 12 millions et 9 millions de chansons.
- Contournement des conditions : Les développeurs utilisent des outils automatisés pour contourner les protections de YouTube et Spotify, privant ainsi de fait les créateurs de revenus publicitaires et de frais d'abonnement.
- Responsabilité des entreprises : Les principales entités d'IA, dont Google et Stability AI, ont vérifié l'utilisation de ces ensembles de données dans leurs recherches publiées.