The Atlantic เปิดตัวฐานข้อมูลที่สามารถค้นหาได้ของเพลงที่ใช้ในการฝึกฝน AI
ช่องว่างด้านความโปร่งใสในการฝึกฝน Generative AI เพิ่งได้รับการเติมเต็มด้วยความพยายามในการสืบสวนครั้งสำคัญ The Atlantic ได้เปิดตัวฐานข้อมูลสาธารณะที่สามารถค้นหาได้ ซึ่งเปิดเผยให้เห็นถึงขนาดอันมหาศาลของเพลงที่มีลิขสิทธิ์ซึ่งถูกนำไปใช้ในโมเดลปัญญาประดิษฐ์
เปิดโปงชุดข้อมูลมหาศาล: เผยแพร่เพลงหลายล้านแทร็ก
Alex Reisner นักข่าวสายสืบสวน ได้ระบุชุดข้อมูลหลัก 4 ชุดที่กำลังทำหน้าที่เป็นกระดูกสันหลังสำหรับการฝึกฝนดนตรีด้วย AI ขนาดของคลังข้อมูลเหล่านี้เป็นเรื่องที่น่าตกใจ โดยชุดข้อมูลสองชุดมีเพลงจำนวน 12 ล้านและ 9 ล้านแทร็กตามลำดับ ในขณะที่ชุดข้อมูลขนาดเล็กอีกสองชุดมีเพลงมากกว่า 100,000 เพลงในแต่ละชุด
การเปิดเผยนี้ชี้ให้เห็นถึงปัญหาเชิงระบบในอุตสาหกรรม AI ที่สื่อจำนวนมหาศาลถูกรวบรวมเข้าเป็นชุดข้อมูลฝึกฝนโดยไม่ได้รับอนุญาตอย่างชัดเจนจากผู้สร้างสรรค์ผลงานต้นฉบับ ฐานข้อมูลนี้ช่วยให้ทุกคนสามารถค้นหาผ่านคอลเลกชันเหล่านี้ ซึ่งรวมถึงศิลปินที่มีความสามารถหลากหลาย ตั้งแต่ไอคอนกระแสหลักอย่าง Lady Gaga, Bruce Springsteen และ Radiohead ไปจนถึงนักประพันธ์เพลงแนวทดลองอย่าง Hainbach และศิลปินเพลงอิเล็กทรอนิกส์อย่าง Aphex Twin
ช่องโหว่ทางเทคนิค: การหลบเลี่ยงการป้องกันของแพลตฟอร์ม
การค้นพบนี้เผยให้เห็นถึงวิธีการเลี่ยงทางเทคนิคที่ซับซ้อนซึ่งนักพัฒนา AI ใช้เพื่อจัดหาข้อมูลฝึกฝน ชุดข้อมูลส่วนใหญ่เหล่านี้ไม่ได้ประกอบด้วยไฟล์เสียงโดยตรง แต่เป็นรายการลิงก์ไปยังแพลตฟอร์มต่างๆ เช่น YouTube และ Spotify
เพื่อเปลี่ยนลิงก์เหล่านี้ให้เป็นข้อมูลฝึกฝนที่ใช้งานได้ นักพัฒนาได้ใช้เครื่องมือ scraping อัตโนมัติที่ออกแบบมาเพื่อดาวน์โหลดเสียงโดยตรง เครื่องมือเหล่านี้ถูกสร้างขึ้นมาโดยเฉพาะเพื่อข้ามการเข้าสู่ระบบ ข้ามโฆษณา และหลบเลี่ยงกลไกต่างๆ เช่น โมเดลการสมัครสมาชิกและ paywalls ที่ช่วยให้ผู้สร้างสรรค์สามารถสร้างรายได้จากผลงานของตน แม้ว่าชุดข้อมูลเหล่านี้อาจ "มีอยู่" บนอินเทอร์เน็ต แต่วิธีการดึงข้อมูลมักเป็นการละเมิดข้อกำหนดการให้บริการของแพลตฟอร์มผู้ให้บริการ และทำลายระบบการจัดการสิทธิ์ดิจิทัล (DRM) ที่มีไว้เพื่อปกป้องศิลปิน
ผลกระทบต่ออุตสาหกรรมและการเฝ้าระวัง AI
The impact of this data ingestion is not theoretical; major industry players have already acknowledged its use. Both Google and Stability AI have confirmed the utilization of these datasets in their official research papers. This confirmation underscores a growing tension between the rapid advancement of multimodal AI and the legal frameworks governing intellectual property.
By hosting this information on The Atlantic’s "AI Watchdog" site, the publication is providing a critical tool for developers, legal experts, and artists to track how their intellectual property is being utilized. This move shifts the conversation from speculation to empirical evidence, providing the necessary groundwork for upcoming copyright litigation and regulatory debates regarding fair use in the age of machine learning.
Key Takeaways
- Massive Scale of Ingestion: AI training datasets contain millions of tracks, including two massive sets of 12 million and 9 million songs.
- Circumvention of Terms: Developers use automated tools to bypass YouTube and Spotify protections, effectively stripping creators of ad revenue and subscription fees.
- Corporate Accountability: Major AI entities, including Google and Stability AI, have verified the use of these datasets in their published research.