The Atlantic Mendedahkan Pangkalan Data yang Boleh Dicari bagi Muzik yang Digunakan untuk Latihan AI
Jurang ketelusan dalam latihan AI generatif baru sahaja dirapatkan melalui satu usaha penyiasatan yang penting. The Atlantic telah melancarkan pangkalan data awam yang boleh dicari, yang mendedahkan skala besar muzik berhak cipta yang diserap oleh model kecerdasan buatan.
Mendedahkan Set Data Besar-Besaran: Jutaan Trek Terdedah
Wartawan penyiasat Alex Reisner telah mengenal pasti empat set data utama yang kini berfungsi sebagai tulang belakang bagi latihan muzik AI. Skala repositori ini sangat mengejutkan: dua daripada set data tersebut masing-masing mengandungi 12 juta dan 9 juta trek, manakala dua set yang lebih kecil memegang lebih daripada 100,000 lagu setiap satu.
Pendedahan ini menonjolkan isu sistemik dalam industri AI di mana jumlah media yang sangat besar dikumpulkan ke dalam set latihan tanpa kebenaran nyata daripada pencipta asal. Pangkalan data ini membolehkan sesiapa sahaja mencari melalui koleksi ini, yang merangkumi spektrum bakat muzik yang luas daripada ikon arus perdana seperti Lady Gaga, Bruce Springsteen, dan Radiohead kepada komposer eksperimental seperti Hainbach dan artis elektronik seperti Aphex Twin.
Kelonggaran Teknikal: Memintas Perlindungan Platform
Penemuan ini mendedahkan jalan pintas teknikal yang canggih digunakan oleh pembangun AI untuk memperoleh data latihan. Kebanyakan set data ini tidak terdiri daripada fail audio secara langsung, sebaliknya merupakan senarai pautan ke platform seperti YouTube dan Spotify.
Untuk menukar pautan ini kepada data latihan yang boleh digunakan, pembangun menggunakan alat pengikis (scraping) automatik yang direka untuk memuat turun audio secara terus. Alat-alat ini direka khas untuk memintas log masuk, melangkau iklan, dan mengelak mekanisme—seperti model langganan dan dinding berbayar (paywalls)—yang membolehkan pencipta menjana pendapatan daripada karya mereka. Walaupun set data ini mungkin "tersedia" di internet, kaedah pengekstrakan tersebut sering melanggar terma perkhidmatan platform hos dan menjejaskan pengurusan hak digital (DRM) yang bertujuan untuk melindungi artis.
Implikasi Industri dan Pemerhati AI
The impact of this data ingestion is not theoretical; major industry players have already acknowledged its use. Both Google and Stability AI have confirmed the utilization of these datasets in their official research papers. This confirmation underscores a growing tension between the rapid advancement of multimodal AI and the legal frameworks governing intellectual property.
By hosting this information on The Atlantic’s "AI Watchdog" site, the publication is providing a critical tool for developers, legal experts, and artists to track how their intellectual property is being utilized. This move shifts the conversation from speculation to empirical evidence, providing the necessary groundwork for upcoming copyright litigation and regulatory debates regarding fair use in the age of machine learning.
Key Takeaways
- Massive Scale of Ingestion: AI training datasets contain millions of tracks, including two massive sets of 12 million and 9 million songs.
- Circumvention of Terms: Developers use automated tools to bypass YouTube and Spotify protections, effectively stripping creators of ad revenue and subscription fees.
- Corporate Accountability: Major AI entities, including Google and Stability AI, have verified the use of these datasets in their published research.