The Atlantic Unveils Searchable Database of Music Used for AI Training

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 minggu lalu2min read

In this article

The Atlantic Mendedahkan Pangkalan Data yang Boleh Dicari bagi Muzik yang Digunakan untuk Latihan AI

Jurang ketelusan dalam latihan AI generatif baru sahaja dirapatkan melalui satu usaha penyiasatan yang penting. The Atlantic telah melancarkan pangkalan data awam yang boleh dicari, yang mendedahkan skala besar muzik berhak cipta yang diserap oleh model kecerdasan buatan.

Mendedahkan Set Data Besar-Besaran: Jutaan Trek Terdedah

Wartawan penyiasat Alex Reisner telah mengenal pasti empat set data utama yang kini berfungsi sebagai tulang belakang bagi latihan muzik AI. Skala repositori ini sangat mengejutkan: dua daripada set data tersebut masing-masing mengandungi 12 juta dan 9 juta trek, manakala dua set yang lebih kecil memegang lebih daripada 100,000 lagu setiap satu.

Pendedahan ini menonjolkan isu sistemik dalam industri AI di mana jumlah media yang sangat besar dikumpulkan ke dalam set latihan tanpa kebenaran nyata daripada pencipta asal. Pangkalan data ini membolehkan sesiapa sahaja mencari melalui koleksi ini, yang merangkumi spektrum bakat muzik yang luas daripada ikon arus perdana seperti Lady Gaga, Bruce Springsteen, dan Radiohead kepada komposer eksperimental seperti Hainbach dan artis elektronik seperti Aphex Twin.

Kelonggaran Teknikal: Memintas Perlindungan Platform

Penemuan ini mendedahkan jalan pintas teknikal yang canggih digunakan oleh pembangun AI untuk memperoleh data latihan. Kebanyakan set data ini tidak terdiri daripada fail audio secara langsung, sebaliknya merupakan senarai pautan ke platform seperti YouTube dan Spotify.

Untuk menukar pautan ini kepada data latihan yang boleh digunakan, pembangun menggunakan alat pengikis (scraping) automatik yang direka untuk memuat turun audio secara terus. Alat-alat ini direka khas untuk memintas log masuk, melangkau iklan, dan mengelak mekanisme—seperti model langganan dan dinding berbayar (paywalls)—yang membolehkan pencipta menjana pendapatan daripada karya mereka. Walaupun set data ini mungkin "tersedia" di internet, kaedah pengekstrakan tersebut sering melanggar terma perkhidmatan platform hos dan menjejaskan pengurusan hak digital (DRM) yang bertujuan untuk melindungi artis.

Implikasi Industri dan Pemerhati AI

The impact of this data ingestion is not theoretical; major industry players have already acknowledged its use. Both Google and Stability AI have confirmed the utilization of these datasets in their official research papers. This confirmation underscores a growing tension between the rapid advancement of multimodal AI and the legal frameworks governing intellectual property.

By hosting this information on The Atlantic’s "AI Watchdog" site, the publication is providing a critical tool for developers, legal experts, and artists to track how their intellectual property is being utilized. This move shifts the conversation from speculation to empirical evidence, providing the necessary groundwork for upcoming copyright litigation and regulatory debates regarding fair use in the age of machine learning.

Key Takeaways

Massive Scale of Ingestion: AI training datasets contain millions of tracks, including two massive sets of 12 million and 9 million songs.
Circumvention of Terms: Developers use automated tools to bypass YouTube and Spotify protections, effectively stripping creators of ad revenue and subscription fees.
Corporate Accountability: Major AI entities, including Google and Stability AI, have verified the use of these datasets in their published research.

The Atlantic Unveils Searchable Database of Music Used for AI Training

The Atlantic Mendedahkan Pangkalan Data yang Boleh Dicari bagi Muzik yang Digunakan untuk Latihan AI

Mendedahkan Set Data Besar-Besaran: Jutaan Trek Terdedah

Kelonggaran Teknikal: Memintas Perlindungan Platform

Implikasi Industri dan Pemerhati AI

Key Takeaways

Continue reading

𝗔𝗜 𝗣𝗼𝘄𝗲𝗿𝗲𝗱 𝗦𝗮𝗺𝗽𝗹𝗲 𝗖𝗹𝗲𝗮𝗿𝗮𝗻𝗰𝗲 𝗳𝗼𝗿 𝗠𝘂𝘀𝗶𝗰 𝗣𝗿𝗼𝗱𝘂𝗰𝗲𝗿𝘀

Kebangkitan Infrastruktur Data Web: Menyelesaikan Kekangan Pengetahuan AI

Apokalips Hak Cipta

Tidal Akan Hentikan Penjanaan Pendapatan Muzik AI Sambil Melaksanakan Peraturan Pelabelan Baharu