《大西洋月刊》公布用于 AI 训练的音乐可搜索数据库
生成式 AI 训练中的透明度差距刚刚通过一项具有里程碑意义的调查工作得以弥合。《大西洋月刊》(The Atlantic)推出了一款公开、可搜索的数据库,揭示了被人工智能模型摄取的版权音乐的庞大规模。
揭露海量数据集:数百万首曲目被曝光
调查记者 Alex Reisner 已经确定了目前作为 AI 音乐训练骨干的四个主要数据集。这些存储库的规模令人震惊:其中两个数据集分别包含 1200 万和 900 万首曲目,而另外两个较小的集合各包含超过 10 万首歌曲。
这一发现凸显了 AI 行业的一个系统性问题,即在未经原作者明确许可的情况下,海量媒体内容被汇集到训练集中。该数据库允许任何人搜索这些集合,其中涵盖了广泛的音乐人才,从 Lady Gaga、Bruce Springsteen 和 Radiohead 等主流偶像,到 Hainbach 等实验作曲家以及 Aphex Twin 等电子艺术家。
技术漏洞:绕过平台保护机制
这一发现揭示了 AI 开发人员用于获取训练数据的一种复杂的工程化规避手段。这些数据集中的大多数并非由直接的音频文件组成,而是指向 YouTube 和 Spotify 等平台的链接列表。
为了将这些链接转换为可用的训练数据,开发人员使用了旨在直接下载音频的自动化抓取工具。这些工具经过专门设计,可以绕过登录、跳过广告,并规避那些允许创作者通过订阅模式和付费墙实现作品变现的机制。虽然这些数据集在互联网上可能是“可见”的,但其提取方式经常违反托管平台的服务条款,并破坏了旨在保护艺术家的数字版权管理 (DRM) 机制。
行业影响与 AI 监督者
这种数据摄取的冲击并非仅停留在理论层面;行业巨头已经承认了其使用情况。Google 和 Stability AI 都在其官方研究论文中确认了这些数据集的使用。这一确认凸显了多模态 AI 的飞速发展与管理知识产权的法律框架之间日益加剧的紧张关系。
通过在 The Atlantic 的 “AI Watchdog” 网站上发布这些信息,该出版物正为开发者、法律专家和艺术家提供一个关键工具,以追踪其知识产权是如何被利用的。此举将讨论从推测转向了实证,为即将到来的版权诉讼以及关于机器学习时代“合理使用”原则的监管辩论奠定了必要基础。
核心要点
- 海量摄取规模: AI 训练数据集包含数百万首曲目,其中包括两组规模巨大的数据集,分别包含 1200 万首和 900 万首歌曲。
- 规避条款: 开发者利用自动化工具绕过 YouTube 和 Spotify 的保护机制,实际上剥夺了创作者的广告收入和订阅费用。
- 企业问责: 包括 Google 和 Stability AI 在内的主要 AI 实体已在其发表的研究中证实了这些数据集的使用。