The Atlantic Ungkap Database Musik yang Dapat Dicari yang Digunakan untuk Pelatihan AI

Kesenjangan transparansi dalam pelatihan AI generatif baru saja dijembatani oleh upaya investigasi yang monumental. The Atlantic telah meluncurkan database publik yang dapat dicari, yang mengungkap skala masif musik berhak cipta yang diserap oleh model kecerdasan buatan.

Mengungkap Dataset Masif: Jutaan Trek Terungkap

Reporter investigasi Alex Reisner telah mengidentifikasi empat dataset utama yang saat ini berfungsi sebagai tulang punggung pelatihan musik AI. Skala repositori ini sangat mencengangkan: dua dari dataset tersebut masing-masing berisi 12 juta dan 9 juta trek, sementara dua set yang lebih kecil masing-masing berisi lebih dari 100.000 lagu.

Pengungkapan ini menyoroti masalah sistemik dalam industri AI di mana volume media yang masif dikumpulkan ke dalam set pelatihan tanpa izin eksplisit dari pencipta aslinya. Database ini memungkinkan siapa saja untuk mencari melalui koleksi tersebut, yang mencakup spektrum bakat musik yang luas, mulai dari ikon arus utama seperti Lady Gaga, Bruce Springsteen, dan Radiohead, hingga komposer eksperimental seperti Hainbach dan artis elektronik seperti Aphex Twin.

Celah Teknis: Melewati Perlindungan Platform

Penemuan ini mengungkapkan solusi teknis canggih yang digunakan oleh pengembang AI untuk memperoleh data pelatihan. Sebagian besar dataset ini tidak terdiri dari file audio langsung, melainkan daftar tautan ke platform seperti YouTube dan Spotify.

Untuk mengubah tautan ini menjadi data pelatihan yang dapat digunakan, pengembang menggunakan alat scraping otomatis yang dirancang untuk mengunduh audio secara langsung. Alat-alat ini dirancang khusus untuk melewati login, melewati iklan, dan mengakali mekanisme itu sendiri—seperti model langganan dan paywall—yang memungkinkan pencipta untuk memonetisasi karya mereka. Meskipun dataset ini mungkin "tersedia" di internet, metode ekstraksinya sering kali melanggar ketentuan layanan platform hosting dan merusak manajemen hak digital (DRM) yang dimaksudkan untuk melindungi artis.

Implikasi Industri dan Pengawas AI

Dampak dari pengambilan data ini bukanlah hal teoretis; pemain besar di industri telah mengakui penggunaannya. Baik Google maupun Stability AI telah mengonfirmasi pemanfaatan dataset ini dalam makalah penelitian resmi mereka. Konfirmasi ini mempertegas ketegangan yang berkembang antara kemajuan pesat AI multimodal dan kerangka hukum yang mengatur kekayaan intelektual.

Dengan menghosting informasi ini di situs "AI Watchdog" milik The Atlantic, publikasi tersebut menyediakan alat penting bagi para pengembang, pakar hukum, dan seniman untuk melacak bagaimana kekayaan intelektual mereka digunakan. Langkah ini mengalihkan percakapan dari spekulasi ke bukti empiris, memberikan landasan yang diperlukan bagi litigasi hak cipta dan debat regulasi mendatang terkait penggunaan wajar (fair use) di era pembelajaran mesin (machine learning).

Poin-Poin Penting

  • Skala Pengambilan Data yang Masif: Dataset pelatihan AI berisi jutaan trek, termasuk dua set masif yang masing-masing berisi 12 juta dan 9 juta lagu.
  • Penghindaran Ketentuan: Pengembang menggunakan alat otomatis untuk melewati perlindungan YouTube dan Spotify, yang secara efektif merampas pendapatan iklan dan biaya langganan para kreator.
  • Akuntabilitas Korporasi: Entitas AI besar, termasuk Google dan Stability AI, telah memverifikasi penggunaan dataset ini dalam penelitian yang mereka publikasikan.