The Atlantic представляє базу даних музики, використаної для навчання ШІ, з можливістю пошуку
Прогалина в прозорості навчання генеративного ШІ щойно була подолана завдяки значному розслідувальному зусиллю. Видання The Atlantic запустило публічну базу даних із можливістю пошуку, яка розкриває величезні масштаби використання музики, захищеної авторським правом, моделями штучного інтелекту.
Викриття масивних наборів даних: мільйони треків під прицілом
Журналіст-розслідувач Алекс Рейснер виявив чотири основні набори даних, які наразі слугують основою для навчання ШІ музиці. Масштаби цих репозиторіїв вражають: два набори даних містять 12 мільйонів і 9 мільйонів треків відповідно, тоді як два менші набори містять понад 100 000 пісень кожен.
Це викриття підсвічує системну проблему в індустрії ШІ, коли величезні обсяги медіаконтенту агрегуються в навчальні набори без прямого дозволу від оригінальних авторів. База даних дозволяє будь-кому здійснювати пошук у цих колекціях, які охоплюють широкий спектр музичних талантів: від мейнстримних ікон, таких як Lady Gaga, Bruce Springsteen та Radiohead, до експериментальних композиторів, як-от Hainbach, та електронних виконавців, таких як Aphex Twin.
Технічна лазівка: обхід захисту платформ
Відкриття виявило складний технічний спосіб обходу правил, який використовують розробники ШІ для отримання навчальних даних. Більшість цих наборів даних складаються не з безпосередніх аудіофайлів, а з переліків посилань на такі платформи, як YouTube та Spotify.
Щоб перетворити ці посилання на придатні для використання навчальні дані, розробники застосовують інструменти автоматизованого скрейпінгу, призначені для прямого завантаження аудіо. Ці інструменти спеціально розроблені для обходу авторизації, пропуску реклами та обходу тих самих механізмів — таких як моделі підписки та пейволи — які дозволяють авторам монетизувати свою роботу. Хоча ці набори даних можуть бути «доступними» в інтернеті, метод їх вилучення часто порушує умови надання послуг хостинг-платформ і підриває системи управління цифровими правами (DRM), призначені для захисту артистів.
Наслідки для індустрії та нагляд за ШІ
Вплив цього збору даних не є теоретичним; провідні гравці галузі вже підтвердили його використання. Як Google, так і Stability AI підтвердили використання цих наборів даних у своїх офіційних наукових роботах. Це підтвердження підкреслює зростаючу напруженість між стрімким розвитком мультимодального ШІ та правовими основами, що регулюють інтелектуальну власність.
Розміщуючи цю інформацію на сайті «AI Watchdog» видання The Atlantic, публікація надає критично важливий інструмент розробникам, юристам та художникам для відстеження того, як використовується їхня інтелектуальна власність. Цей крок переводить дискусію з площини припущень у площину емпіричних доказів, створюючи необхідну базу для майбутніх судових позовів щодо авторського права та регуляторних дебатів стосовно добросовісного використання в епоху машинного навчання.
Основні висновки
- Масштабність збору даних: Набори даних для навчання ШІ містять мільйони треків, включаючи два величезні масиви з 12 мільйонів та 9 мільйонів пісень.
- Обхід умов використання: Розробники використовують автоматизовані інструменти для обходу захисту YouTube та Spotify, фактично позбавляючи авторів доходів від реклами та передплат.
- Корпоративна відповідальність: Великі ШІ-структури, зокрема Google та Stability AI, підтвердили використання цих наборів даних у своїх опублікованих дослідженнях.