The Atlantic ujawnia przeszukiwalną bazę danych muzyki wykorzystywanej do trenowania AI
Luka w przejrzystości procesu trenowania generatywnej sztucznej inteligencji została właśnie zasypana dzięki przełomowemu śledztwu. The Atlantic uruchomił publiczną, przeszukiwalną bazę danych, która ujawnia ogromną skalę utworów chronionych prawem autorskim, wykorzystywanych przez modele sztucznej inteligencji.
Ujawnienie ogromnych zbiorów danych: miliony utworów na widoku
Reporter śledczy Alex Reisner zidentyfikował cztery główne zbiory danych, które obecnie stanowią fundament trenowania muzycznej sztucznej inteligencji. Skala tych repozytoriów jest porażająca: dwa ze zbiorów zawierają odpowiednio 12 i 9 milionów utworów, podczas gdy dwa mniejsze zestawy obejmują po ponad 100 000 piosenek.
To odkrycie uwypukla problem systemowy w branży AI, polegający na gromadzeniu ogromnych ilości mediów w zestawach treningowych bez wyraźnej zgody pierwotnych twórców. Baza danych umożliwia każdemu przeszukiwanie tych kolekcji, które obejmują szerokie spektrum talentów muzycznych – od ikon głównego nurtu, takich jak Lady Gaga, Bruce Springsteen i Radiohead, po kompozytorów eksperymentalnych, jak Hainbach, oraz artystów muzyki elektronicznej, takich jak Aphex Twin.
Luka techniczna: omijanie zabezpieczeń platform
Odkrycie ujawnia wyrafinowane obejście techniczne stosowane przez deweloperów AI w celu pozyskiwania danych treningowych. Większość tych zbiorów danych nie składa się z bezpośrednich plików audio, lecz z list linków do platform takich jak YouTube i Spotify.
Aby przekształcić te linki w użyteczne dane treningowe, deweloperzy wykorzystują zautomatyzowane narzędzia do scrapingu, zaprojektowane do bezpośredniego pobierania dźwięku. Narzędzia te są specjalnie skonstruowane tak, aby omijać logowanie, pomijać reklamy i obchodzić mechanizmy – takie jak modele subskrypcyjne i paywalle – które pozwalają twórcom na monetyzację ich pracy. Choć zbiory te mogą być „dostępne” w internecie, metoda ich ekstrakcji często narusza regulaminy platform hostingowych i podważa systemy zarządzania prawami cyfrowymi (DRM), których celem jest ochrona artystów.
Implikacje dla branży i strażnik AI
Wpływ tego procesu pozyskiwania danych nie jest teoretyczny; główni gracze w branży potwierdzili już jego wykorzystanie. Zarówno Google, jak i Stability AI potwierdziły wykorzystanie tych zbiorów danych w swoich oficjalnych pracach badawczych. To potwierdzenie podkreśla rosnące napięcie między szybkim rozwojem multimodalnej sztucznej inteligencji a ramami prawnymi regulującymi własność intelektualną.
Publikując te informacje na stronie „AI Watchdog” magazynu The Atlantic, wydawnictwo dostarcza kluczowego narzędzia programistom, ekspertom prawnym i artystom, aby mogli śledzić, w jaki sposób wykorzystywana jest ich własność intelektualna. Ten krok przenosi dyskusję ze sfery spekulacji na grunt dowodów empirycznych, kładąc niezbędne fundamenty pod nadchodzące procesy o naruszenie praw autorskich oraz debaty regulacyjne dotyczące dozwolonego użytku w erze uczenia maszynowego.
Kluczowe wnioski
- Ogromna skala pozyskiwania danych: Zbiory danych do trenowania AI zawierają miliony utworów, w tym dwa potężne zestawy liczące 12 i 9 milionów piosenek.
- Omijanie warunków użytkowania: Programiści używają zautomatyzowanych narzędzi, aby obejść zabezpieczenia YouTube i Spotify, co w praktyce pozbawia twórców przychodów z reklam i opłat subskrypcyjnych.
- Odpowiedzialność korporacyjna: Główne podmioty z branży AI, w tym Google i Stability AI, potwierdziły wykorzystanie tych zbiorów danych w swoich opublikowanych badaniach.