The Atlantic onthult doorzoekbare database van muziek gebruikt voor AI-training

De transparantiekloof in de training van generatieve AI is zojuist overbrugd door een baanbrekend onderzoeksinitiatief. The Atlantic heeft een publieke, doorzoekbare database gelanceerd die de enorme omvang blootlegt van auteursrechtelijk beschermde muziek die wordt opgenomen door kunstmatige intelligentiemodellen.

Enorme datasets blootgelegd: miljoenen tracks onthuld

Onderzoeksjournalist Alex Reisner heeft vier primaire datasets geïdentificeerd die momenteel dienen als de ruggengraat voor AI-muziektraining. De omvang van deze repositories is verbijsterend: twee van de datasets bevatten respectievelijk 12 miljoen en 9 miljoen tracks, terwijl twee kleinere sets elk meer dan 100.000 nummers bevatten.

Deze onthulling benadrukt een systemisch probleem in de AI-industrie, waarbij enorme hoeveelheden media worden samengevoegd in trainingssets zonder expliciete toestemming van de oorspronkelijke makers. De database stelt iedereen in staat om door deze collecties te zoeken, die een breed spectrum aan muzikaal talent omvatten, variërend van mainstream iconen zoals Lady Gaga, Bruce Springsteen en Radiohead tot experimentele componisten zoals Hainbach en elektronische artiesten zoals Aphex Twin.

De technische mazen in de wet: omzeilen van platformbeveiliging

De ontdekking onthult een geavanceerde technische workaround die door AI-ontwikkelaars wordt gebruikt om trainingsdata te verkrijgen. De meeste van deze datasets bestaan niet uit directe audiobestanden, maar uit lijsten met links naar platforms zoals YouTube en Spotify.

Om deze links om te zetten in bruikbare trainingsdata, maken ontwikkelaars gebruik van geautomatiseerde scraping-tools die ontworpen zijn om audio rechtstreeks te downloaden. Deze tools zijn specifiek ontwikkeld om inlogprocedures te omzeilen, advertenties over te slaan en precies die mechanismen — zoals abonnementsmodellen en paywalls — te omzeilen waarmee makers hun werk kunnen monetariseren. Hoewel deze datasets "beschikbaar" kunnen zijn op het internet, schendt de methode van extractie regelmatig de servicevoorwaarden van de hostende platforms en ondermijnt het de digital rights management (DRM) die bedoeld is om artiesten te beschermen.

Implicaties voor de industrie en de AI-waakhond

De impact van deze data-ingestie is niet theoretisch; grote spelers in de industrie hebben het gebruik ervan al erkend. Zowel Google als Stability AI hebben het gebruik van deze datasets bevestigd in hun officiële onderzoeksrapporten. Deze bevestiging onderstreept de groeiende spanning tussen de snelle vooruitgang van multimodale AI en de juridische kaders die het intellectueel eigendom regelen.

Door deze informatie te hosten op de "AI Watchdog"-site van The Atlantic, biedt de publicatie een cruciaal hulpmiddel voor ontwikkelaars, juridische experts en kunstenaars om bij te houden hoe hun intellectueel eigendom wordt gebruikt. Deze stap verlegt het gesprek van speculatie naar empirisch bewijs, wat de nodige basis legt voor toekomstige auteursrechtelijke rechtszaken en regelgevende debatten over fair use in het tijdperk van machine learning.

Belangrijkste conclusies

  • Massale schaal van ingestie: AI-trainingsdatasets bevatten miljoenen tracks, waaronder twee enorme sets van 12 miljoen en 9 miljoen nummers.
  • Omzeiling van voorwaarden: Ontwikkelaars gebruiken geautomatiseerde tools om de beschermingen van YouTube en Spotify te omzeilen, waardoor makers effectief worden beroofd van advertentie-inkomsten en abonnementsgelden.
  • Bedrijfsverantwoordelijkheid: Grote AI-entiteiten, waaronder Google en Stability AI, hebben het gebruik van deze datasets bevestigd in hun gepubliceerde onderzoek.