The Atlantic از پایگاه داده قابل جستجوی موسیقی‌های استفاده‌شده برای آموزش هوش مصنوعی رونمایی کرد

شکاف شفافیت در آموزش هوش مصنوعی مولد، با یک تلاش تحقیقاتی برجسته پر شده است. The Atlantic یک پایگاه داده عمومی و قابل جستجو را راه‌اندازی کرده است که مقیاس عظیم موسیقی‌های دارای حق کپی‌رایت را که توسط مدل‌های هوش مصنوعی جذب می‌شوند، فاش می‌کند.

افشای مجموعه‌داده‌های عظیم: میلیون‌ها قطعه موسیقی فاش شدند

الکس رایزنر، خبرنگار تحقیقی، چهار مجموعه‌داده اصلی را شناسایی کرده است که در حال حاضر به عنوان ستون فقرات آموزش موسیقی توسط هوش مصنوعی عمل می‌کنند. مقیاس این مخازن خیره‌کننده است: دو مورد از این مجموعه‌داده‌ها به ترتیب شامل ۱۲ میلیون و ۹ میلیون قطعه هستند، در حالی که دو مجموعه کوچک‌تر هر کدام بیش از ۱۰۰,۰۰۰ آهنگ دارند.

این افشاگری نشان‌دهنده یک مشکل سیستماتیک در صنعت هوش مصنوعی است که در آن حجم عظیمی از رسانه‌ها بدون اجازه صریح خالقان اصلی، در مجموعه‌های آموزشی تجمیع می‌شوند. این پایگاه داده به هر کسی اجازه می‌دهد در میان این مجموعه‌ها جستجو کند؛ مجموعه‌هایی که طیف گسترده‌ای از استعدادهای موسیقی، از اسطوره‌های جریان اصلی مانند Lady Gaga، Bruce Springsteen و Radiohead گرفته تا آهنگسازان تجربی مانند Hainbach و هنرمندان الکترونیک مانند Aphex Twin را شامل می‌شوند.

حفره فنی: دور زدن محافظت‌های پلتفرم

این کشف نشان‌دهنده یک راهکار فنی پیچیده است که توسط توسعه‌دهندگان هوش مصنوعی برای به‌دست آوردن داده‌های آموزشی استفاده می‌شود. بیشتر این مجموعه‌داده‌ها شامل فایل‌های صوتی مستقیم نیستند، بلکه فهرستی از لینک‌ها به پلتفرم‌هایی مانند YouTube و Spotify هستند.

توسعه‌دهندگان برای تبدیل این لینک‌ها به داده‌های آموزشی قابل استفاده، از ابزارهای استخراج خودکار (scraping) استفاده می‌کنند که برای دانلود مستقیم صدا طراحی شده‌اند. این ابزارها به‌طور ویژه برای دور زدن فرآیند ورود به حساب کاربری، نادیده گرفتن تبلیغات و دور زدن همان مکانیسم‌هایی (مانند مدل‌های اشتراکی و دیوارهای پرداخت) مهندسی شده‌اند که به خالقان اجازه می‌دهند از آثار خود درآمد کسب کنند. اگرچه این مجموعه‌داده‌ها ممکن است در اینترنت «در دسترس» باشند، اما روش استخراج آن‌ها مکرراً شرایط خدمات پلتفرم‌های میزبان را نقض کرده و مدیریت حقوق دیجیتال (DRM) را که با هدف محافظت از هنرمندان طراحی شده است، تضعیف می‌کند.

پیامدهای صنعت و ناظر هوش مصنوعی

تأثیر این جذب داده‌ها صرفاً تئوری نیست؛ بازیگران اصلی صنعت پیش از این استفاده از آن را تأیید کرده‌اند. هم Google و هم Stability AI استفاده از این مجموعه‌داده‌ها را در مقالات پژوهشی رسمی خود تأیید کرده‌اند. این تأیید، بر تنش فزاینده میان پیشرفت سریع هوش مصنوعی چندوجهی (multimodal AI) و چارچوب‌های قانونی حاکم بر مالکیت فکری تأکید می‌کند.

این نشریه با میزبانی این اطلاعات در سایت "AI Watchdog" متعلق به The Atlantic، ابزاری حیاتی را در اختیار توسعه‌دهندگان، کارشناسان حقوقی و هنرمندان قرار می‌دهد تا نحوه استفاده از مالکیت فکری خود را ردیابی کنند. این اقدام، بحث را از حد گمانه‌زنی به سمت شواهد تجربی سوق می‌دهد و زیربنای لازم را برای دعاوی حقوقی کپی‌رایت و بحث‌های نظارتی در مورد «استفاده منصفانه» (fair use) در عصر یادگیری ماشین فراهم می‌کند.

نکات کلیدی

  • مقیاس عظیم جذب داده‌ها: مجموعه‌داده‌های آموزشی هوش مصنوعی شامل میلیون‌ها قطعه است، از جمله دو مجموعه عظیم با ۱۲ میلیون و ۹ میلیون آهنگ.
  • دور زدن شرایط استفاده: توسعه‌دهندگان از ابزارهای خودکار برای دور زدن محافظت‌های YouTube و Spotify استفاده می‌کنند و به‌طور مؤثری درآمد حاصل از تبلیغات و حق اشتراک سازندگان را سلب می‌کنند.
  • مسئولیت‌پذیری شرکت‌ها: نهادهای بزرگ هوش مصنوعی، از جمله Google و Stability AI، استفاده از این مجموعه‌داده‌ها را در تحقیقات منتشر شده خود تأیید کرده‌اند.