مجلة The Atlantic تكشف عن قاعدة بيانات قابلة للبحث للموسيقى المستخدمة في تدريب الذكاء الاصطناعي

لقد تم سد فجوة الشفافية في تدريب الذكاء الاصطناعي التوليدي من خلال جهد استقصائي بارز. حيث أطلقت مجلة The Atlantic قاعدة بيانات عامة وقابلة للبحث تكشف عن النطاق الهائل للموسيقى المحمية بحقوق الطبع والنشر التي يتم استيعابها بواسطة نماذج الذكاء الاصطناعي.

الكشف عن مجموعات بيانات ضخمة: الكشف عن ملايين المسارات الموسيقية

حدد المراسل الاستقصائي أليكس ريسنر أربع مجموعات بيانات أساسية تعمل حاليًا كعمود فقري لتدريب الموسيقى بالذكاء الاصطناعي. إن حجم هذه المستودعات مذهل: تحتوي مجموعتان من البيانات على 12 مليون و9 ملايين مسار على التوالي، بينما تضم مجموعتان أصغر أكثر من 100,000 أغنية لكل منهما.

يسلط هذا الكشف الضوء على مشكلة نظامية في صناعة الذكاء الاصطناعي، حيث يتم تجميع كميات هائلة من الوسائط في مجموعات تدريب دون إذن صريح من المبدعين الأصليين. وتسمح قاعدة البيانات لأي شخص بالبحث في هذه المجموعات، التي تضم طيفًا واسعًا من المواهب الموسيقية، بدءًا من أيقونات الموسيقى السائدة مثل Lady Gaga وBruce Springsteen وRadiohead، وصولاً إلى الملحنين التجريبيين مثل Hainbach والفنانين الإلكترونيين مثل Aphex Twin.

الثغرة التقنية: تجاوز حماية المنصات

يكشف هذا الاكتشاف عن حيلة تقنية متطورة يستخدمها مطورو الذكاء الاصطناعي للحصول على بيانات التدريب. فمعظم مجموعات البيانات هذه لا تتكون من ملفات صوتية مباشرة، بل من قوائم روابط لمنصات مثل YouTube وSpotify.

ولتحويل هذه الروابط إلى بيانات تدريب قابلة للاستخدام، يستخدم المطورون أدوات كشط (scraping) مؤتمتة مصممة لتنزيل الصوت مباشرة. وقد تم تصميم هذه الأدوات خصيصًا لتجاوز عمليات تسجيل الدخول، وتخطي الإعلانات، والالتفاف على الآليات ذاتها — مثل نماذج الاشتراك وجدران الدفع — التي تسمح للمبدعين بتحقيق أرباح من أعمالهم. وبينما قد تكون مجموعات البيانات هذه "متاحة" على الإنترنت، فإن طريقة استخراجها غالبًا ما تنتهك شروط خدمة المنصات المستضيفة وتقوض إدارة الحقوق الرقمية (DRM) المخصصة لحماية الفنانين.

تداعيات الصناعة ورقابة الذكاء الاصطناعي

The impact of this data ingestion is not theoretical; major industry players have already acknowledged its use. Both Google and Stability AI have confirmed the utilization of these datasets in their official research papers. This confirmation underscores a growing tension between the rapid advancement of multimodal AI and the legal frameworks governing intellectual property.

By hosting this information on The Atlantic’s "AI Watchdog" site, the publication is providing a critical tool for developers, legal experts, and artists to track how their intellectual property is being utilized. This move shifts the conversation from speculation to empirical evidence, providing the necessary groundwork for upcoming copyright litigation and regulatory debates regarding fair use in the age of machine learning.

Key Takeaways

  • Massive Scale of Ingestion: AI training datasets contain millions of tracks, including two massive sets of 12 million and 9 million songs.
  • Circumvention of Terms: Developers use automated tools to bypass YouTube and Spotify protections, effectively stripping creators of ad revenue and subscription fees.
  • Corporate Accountability: Major AI entities, including Google and Stability AI, have verified the use of these datasets in their published research.