The Atlantic представляет базу данных музыки, используемой для обучения ИИ, с возможностью поиска

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorial2 недели назад2мин чтения

В этой статье

The Atlantic представляет базу данных музыки, используемой для обучения ИИ, с возможностью поиска

Проблема отсутствия прозрачности в обучении генеративного ИИ была решена благодаря знаковому журналистскому расследованию. Издание The Atlantic запустило публичную базу данных с функцией поиска, которая раскрывает колоссальные масштабы использования защищенной авторским правом музыки моделями искусственного интеллекта.

Раскрытие огромных наборов данных: миллионы треков под угрозой

Журналист-расследователь Алекс Рейснер выявил четыре основных набора данных, которые в настоящее время служат основой для обучения музыкального ИИ. Масштабы этих репозиториев поражают: два набора данных содержат 12 и 9 миллионов треков соответственно, в то время как два набора поменьше включают более 100 000 песен каждый.

Это разоблачение подчеркивает системную проблему в индустрии ИИ, когда огромные объемы медиаконтента агрегируются в обучающие выборки без явного разрешения авторов. База данных позволяет любому пользователю искать по этим коллекциям, которые охватывают широкий спектр музыкальных талантов: от мейнстрим-икон, таких как Lady Gaga, Bruce Springsteen и Radiohead, до экспериментальных композиторов вроде Hainbach и электронных исполнителей вроде Aphex Twin.

Техническая лазейка: обход защиты платформ

Открытие выявило сложный технический обходной путь, используемый разработчиками ИИ для получения обучающих данных. Большинство этих наборов данных состоят не из прямых аудиофайлов, а из списков ссылок на такие платформы, как YouTube и Spotify.

Чтобы преобразовать эти ссылки в пригодные для обучения данные, разработчики используют инструменты автоматического скрейпинга, предназначенные для прямого скачивания аудио. Эти инструменты специально разработаны для обхода авторизации, пропуска рекламы и преодоления тех самых механизмов — таких как модели подписки и пейволлы (paywalls), — которые позволяют авторам монетизировать свое творчество. Хотя эти наборы данных могут быть «доступны» в интернете, метод их извлечения зачастую нарушает условия обслуживания хостинг-платформ и подрывает системы управления цифровыми правами (DRM), предназначенные для защиты артистов.

Последствия для индустрии и надзор за ИИ

Последствия такого сбора данных не являются теоретическими; крупнейшие игроки отрасли уже подтвердили его использование. И Google, и Stability AI подтвердили использование этих наборов данных в своих официальных исследовательских работах. Это подтверждение подчеркивает растущее напряжение между стремительным развитием мультимодального ИИ и правовыми нормами, регулирующими интеллектуальную собственность.

Размещая эту информацию на сайте «AI Watchdog» издания The Atlantic, публикация предоставляет разработчикам, юристам и художникам важнейший инструмент для отслеживания того, как используется их интеллектуальная собственность. Этот шаг переводит дискуссию из плоскости предположений в плоскость эмпирических доказательств, создавая необходимую базу для предстоящих судебных разбирательств по вопросам авторского права и регуляторных дебатов относительно добросовестного использования в эпоху машинного обучения.

Основные выводы

Масштаб сбора данных: Наборы данных для обучения ИИ содержат миллионы треков, включая два огромных массива по 12 и 9 миллионов песен.
Обход условий использования: Разработчики используют автоматизированные инструменты для обхода защитных механизмов YouTube и Spotify, фактически лишая авторов доходов от рекламы и абонентской платы.
Корпоративная ответственность: Крупнейшие ИИ-компании, включая Google и Stability AI, подтвердили использование этих наборов данных в своих опубликованных исследованиях.

The Atlantic представляет базу данных музыки, используемой для обучения ИИ, с возможностью поиска

The Atlantic представляет базу данных музыки, используемой для обучения ИИ, с возможностью поиска

Раскрытие огромных наборов данных: миллионы треков под угрозой

Техническая лазейка: обход защиты платформ

Последствия для индустрии и надзор за ИИ

Основные выводы

Продолжить чтение

Очистка сэмплов с помощью ИИ для музыкальных продюсеров

Становление инфраструктуры веб-данных: устранение узкого места в знаниях ИИ

Авторский апокалипсис

Tidal лишит монетизации ИИ-музыку и введет новые правила маркировки