The Atlantic представляет базу данных музыки, используемой для обучения ИИ, с возможностью поиска
Проблема отсутствия прозрачности в обучении генеративного ИИ была решена благодаря знаковому журналистскому расследованию. Издание The Atlantic запустило публичную базу данных с функцией поиска, которая раскрывает колоссальные масштабы использования защищенной авторским правом музыки моделями искусственного интеллекта.
Раскрытие огромных наборов данных: миллионы треков под угрозой
Журналист-расследователь Алекс Рейснер выявил четыре основных набора данных, которые в настоящее время служат основой для обучения музыкального ИИ. Масштабы этих репозиториев поражают: два набора данных содержат 12 и 9 миллионов треков соответственно, в то время как два набора поменьше включают более 100 000 песен каждый.
Это разоблачение подчеркивает системную проблему в индустрии ИИ, когда огромные объемы медиаконтента агрегируются в обучающие выборки без явного разрешения авторов. База данных позволяет любому пользователю искать по этим коллекциям, которые охватывают широкий спектр музыкальных талантов: от мейнстрим-икон, таких как Lady Gaga, Bruce Springsteen и Radiohead, до экспериментальных композиторов вроде Hainbach и электронных исполнителей вроде Aphex Twin.
Техническая лазейка: обход защиты платформ
Открытие выявило сложный технический обходной путь, используемый разработчиками ИИ для получения обучающих данных. Большинство этих наборов данных состоят не из прямых аудиофайлов, а из списков ссылок на такие платформы, как YouTube и Spotify.
Чтобы преобразовать эти ссылки в пригодные для обучения данные, разработчики используют инструменты автоматического скрейпинга, предназначенные для прямого скачивания аудио. Эти инструменты специально разработаны для обхода авторизации, пропуска рекламы и преодоления тех самых механизмов — таких как модели подписки и пейволлы (paywalls), — которые позволяют авторам монетизировать свое творчество. Хотя эти наборы данных могут быть «доступны» в интернете, метод их извлечения зачастую нарушает условия обслуживания хостинг-платформ и подрывает системы управления цифровыми правами (DRM), предназначенные для защиты артистов.
Последствия для индустрии и надзор за ИИ
Последствия такого сбора данных не являются теоретическими; крупнейшие игроки отрасли уже подтвердили его использование. И Google, и Stability AI подтвердили использование этих наборов данных в своих официальных исследовательских работах. Это подтверждение подчеркивает растущее напряжение между стремительным развитием мультимодального ИИ и правовыми нормами, регулирующими интеллектуальную собственность.
Размещая эту информацию на сайте «AI Watchdog» издания The Atlantic, публикация предоставляет разработчикам, юристам и художникам важнейший инструмент для отслеживания того, как используется их интеллектуальная собственность. Этот шаг переводит дискуссию из плоскости предположений в плоскость эмпирических доказательств, создавая необходимую базу для предстоящих судебных разбирательств по вопросам авторского права и регуляторных дебатов относительно добросовестного использования в эпоху машинного обучения.
Основные выводы
- Масштаб сбора данных: Наборы данных для обучения ИИ содержат миллионы треков, включая два огромных массива по 12 и 9 миллионов песен.
- Обход условий использования: Разработчики используют автоматизированные инструменты для обхода защитных механизмов YouTube и Spotify, фактически лишая авторов доходов от рекламы и абонентской платы.
- Корпоративная ответственность: Крупнейшие ИИ-компании, включая Google и Stability AI, подтвердили использование этих наборов данных в своих опубликованных исследованиях.