The Atlantic از پایگاه داده قابل جستجوی موسیقیهای استفادهشده برای آموزش هوش مصنوعی رونمایی کرد
شکاف شفافیت در آموزش هوش مصنوعی مولد، با یک تلاش تحقیقاتی برجسته پر شده است. The Atlantic یک پایگاه داده عمومی و قابل جستجو را راهاندازی کرده است که مقیاس عظیم موسیقیهای دارای حق کپیرایت را که توسط مدلهای هوش مصنوعی جذب میشوند، فاش میکند.
افشای مجموعهدادههای عظیم: میلیونها قطعه موسیقی فاش شدند
الکس رایزنر، خبرنگار تحقیقی، چهار مجموعهداده اصلی را شناسایی کرده است که در حال حاضر به عنوان ستون فقرات آموزش موسیقی توسط هوش مصنوعی عمل میکنند. مقیاس این مخازن خیرهکننده است: دو مورد از این مجموعهدادهها به ترتیب شامل ۱۲ میلیون و ۹ میلیون قطعه هستند، در حالی که دو مجموعه کوچکتر هر کدام بیش از ۱۰۰,۰۰۰ آهنگ دارند.
این افشاگری نشاندهنده یک مشکل سیستماتیک در صنعت هوش مصنوعی است که در آن حجم عظیمی از رسانهها بدون اجازه صریح خالقان اصلی، در مجموعههای آموزشی تجمیع میشوند. این پایگاه داده به هر کسی اجازه میدهد در میان این مجموعهها جستجو کند؛ مجموعههایی که طیف گستردهای از استعدادهای موسیقی، از اسطورههای جریان اصلی مانند Lady Gaga، Bruce Springsteen و Radiohead گرفته تا آهنگسازان تجربی مانند Hainbach و هنرمندان الکترونیک مانند Aphex Twin را شامل میشوند.
حفره فنی: دور زدن محافظتهای پلتفرم
این کشف نشاندهنده یک راهکار فنی پیچیده است که توسط توسعهدهندگان هوش مصنوعی برای بهدست آوردن دادههای آموزشی استفاده میشود. بیشتر این مجموعهدادهها شامل فایلهای صوتی مستقیم نیستند، بلکه فهرستی از لینکها به پلتفرمهایی مانند YouTube و Spotify هستند.
توسعهدهندگان برای تبدیل این لینکها به دادههای آموزشی قابل استفاده، از ابزارهای استخراج خودکار (scraping) استفاده میکنند که برای دانلود مستقیم صدا طراحی شدهاند. این ابزارها بهطور ویژه برای دور زدن فرآیند ورود به حساب کاربری، نادیده گرفتن تبلیغات و دور زدن همان مکانیسمهایی (مانند مدلهای اشتراکی و دیوارهای پرداخت) مهندسی شدهاند که به خالقان اجازه میدهند از آثار خود درآمد کسب کنند. اگرچه این مجموعهدادهها ممکن است در اینترنت «در دسترس» باشند، اما روش استخراج آنها مکرراً شرایط خدمات پلتفرمهای میزبان را نقض کرده و مدیریت حقوق دیجیتال (DRM) را که با هدف محافظت از هنرمندان طراحی شده است، تضعیف میکند.
پیامدهای صنعت و ناظر هوش مصنوعی
تأثیر این جذب دادهها صرفاً تئوری نیست؛ بازیگران اصلی صنعت پیش از این استفاده از آن را تأیید کردهاند. هم Google و هم Stability AI استفاده از این مجموعهدادهها را در مقالات پژوهشی رسمی خود تأیید کردهاند. این تأیید، بر تنش فزاینده میان پیشرفت سریع هوش مصنوعی چندوجهی (multimodal AI) و چارچوبهای قانونی حاکم بر مالکیت فکری تأکید میکند.
این نشریه با میزبانی این اطلاعات در سایت "AI Watchdog" متعلق به The Atlantic، ابزاری حیاتی را در اختیار توسعهدهندگان، کارشناسان حقوقی و هنرمندان قرار میدهد تا نحوه استفاده از مالکیت فکری خود را ردیابی کنند. این اقدام، بحث را از حد گمانهزنی به سمت شواهد تجربی سوق میدهد و زیربنای لازم را برای دعاوی حقوقی کپیرایت و بحثهای نظارتی در مورد «استفاده منصفانه» (fair use) در عصر یادگیری ماشین فراهم میکند.
نکات کلیدی
- مقیاس عظیم جذب دادهها: مجموعهدادههای آموزشی هوش مصنوعی شامل میلیونها قطعه است، از جمله دو مجموعه عظیم با ۱۲ میلیون و ۹ میلیون آهنگ.
- دور زدن شرایط استفاده: توسعهدهندگان از ابزارهای خودکار برای دور زدن محافظتهای YouTube و Spotify استفاده میکنند و بهطور مؤثری درآمد حاصل از تبلیغات و حق اشتراک سازندگان را سلب میکنند.
- مسئولیتپذیری شرکتها: نهادهای بزرگ هوش مصنوعی، از جمله Google و Stability AI، استفاده از این مجموعهدادهها را در تحقیقات منتشر شده خود تأیید کردهاند.