The Atlantic, AI 학습에 사용된 음악 검색 가능한 데이터베이스 공개
생성형 AI 학습의 투명성 공백이 획기적인 조사 노력을 통해 마침내 메워졌습니다. The Atlantic은 인공지능 모델에 입력되는 저작권 음악의 엄청난 규모를 폭로하는 공개 검색 가능 데이터베이스를 출시했습니다.
방대한 데이터셋의 실체: 수백만 개의 트랙 노출
조사 전문 기자 Alex Reisner는 현재 AI 음악 학습의 중추 역할을 하고 있는 네 가지 주요 데이터셋을 확인했습니다. 이 저장소들의 규모는 경이로운 수준입니다. 두 데이터셋은 각각 1,200만 개와 900만 개의 트랙을 포함하고 있으며, 나머지 두 개의 작은 데이터셋도 각각 10만 곡 이상의 노래를 보유하고 있습니다.
이번 폭로는 원작자의 명시적인 허가 없이 방대한 양의 미디어가 학습 세트로 집계되는 AI 산업의 구조적인 문제를 부각합니다. 이 데이터베이스를 통해 누구나 해당 컬렉션을 검색할 수 있으며, 여기에는 Lady Gaga, Bruce Springsteen, Radiohead와 같은 주류 아이콘부터 Hainbach와 같은 실험적인 작곡가, Aphex Twin과 같은 일렉트로닉 아티스트에 이르기까지 폭넓은 음악적 재능이 포함되어 있습니다.
기술적 허점: 플랫폼 보호 조치 우회
이번 발견은 AI 개발자들이 학습 데이터를 확보하기 위해 사용하는 정교한 기술적 우회 방법을 드러냈습니다. 이러한 데이터셋의 대부분은 직접적인 오디오 파일로 구성된 것이 아니라, YouTube 및 Spotify와 같은 플랫폼으로 연결되는 링크 목록으로 이루어져 있습니다.
이러한 링크를 사용 가능한 학습 데이터로 변환하기 위해, 개발자들은 오디오를 직접 다운로드하도록 설계된 자동 스크래핑 도구를 사용합니다. 이 도구들은 로그인 과정을 우회하고, 광고를 건너뛰며, 창작자가 자신의 저작물로 수익을 창출할 수 있게 해주는 구독 모델이나 페이월(paywall)과 같은 메커니즘을 회피하도록 특수 설계되었습니다. 이러한 데이터셋이 인터넷상에서 "접근 가능"할 수는 있지만, 추출 방식은 호스팅 플랫폼의 서비스 약관을 위반하는 경우가 많으며 아티스트를 보호하기 위한 디지털 저작권 관리(DRM)를 무력화합니다.
업계에 미치는 영향과 AI 감시자
The impact of this data ingestion is not theoretical; major industry players have already acknowledged its use. Both Google and Stability AI have confirmed the utilization of these datasets in their official research papers. This confirmation underscores a growing tension between the rapid advancement of multimodal AI and the legal frameworks governing intellectual property.
By hosting this information on The Atlantic’s "AI Watchdog" site, the publication is providing a critical tool for developers, legal experts, and artists to track how their intellectual property is being utilized. This move shifts the conversation from speculation to empirical evidence, providing the necessary groundwork for upcoming copyright litigation and regulatory debates regarding fair use in the age of machine learning.
Key Takeaways
- Massive Scale of Ingestion: AI training datasets contain millions of tracks, including two massive sets of 12 million and 9 million songs.
- Circumvention of Terms: Developers use automated tools to bypass YouTube and Spotify protections, effectively stripping creators of ad revenue and subscription fees.
- Corporate Accountability: Major AI entities, including Google and Stability AI, have verified the use of these datasets in their published research.