The Atlantic חושפת מאגר נתונים הניתן לחיפוש של מוזיקה המשמשת לאימון בינה מלאכותית
פער השקיפות באימון בינה מלאכותית יוצרת נסגר כעת בזכות מאמץ חקירה פורץ דרך. The Atlantic השיקה מאגר נתונים ציבורי הניתן לחיפוש, החושף את ההיקף העצום של מוזיקה המוגנת בזכויות יוצרים המוקלטת על ידי מודלים של בינה מלאכותית.
חשיפת מאגרי נתונים עצומים: מיליוני רצועות נחשפו
הכתב החוקר אלכס רייסנר (Alex Reisner) זיהה ארבעה מאגרי נתונים עיקריים המשמשים כיום כעמוד השדרה לאימון מוזיקה בבינה מלאכותית. ההיקף של מאגרים אלו הוא מדהים: שניים מהמאגרים מכילים 12 מיליון ו-9 מיליון רצועות, בהתאמה, בעוד ששני מאגרים קטנים יותר מכילים למעלה מ-100,000 שירים כל אחד.
חשיפה זו מדגישה בעיה מערכתית בתעשיית ה-AI, שבה כמויות עצומות של מדיה נאספות למאגרי אימון ללא אישור מפורש מיוצריה המקוריים. המאגר מאפשר לכל אחד לחפש באוספים אלו, הכוללים קשת רחבה של כישרונות מוזיקליים — החל מאייקונים של מוזיקה פופולרית כמו Lady Gaga, Bruce Springsteen ו-Radiohead ועד למלחינים ניסיוניים כמו Hainbach ואמנים אלקטרוניים כמו Aphex Twin.
הפרצה הטכנית: עקיפת ההגנות של הפלטפורמות
התגלית חושפת מעקף טכני מתוחכם המשמש מפתחי AI להשגת נתוני אימון. רוב מאגרי הנתונים הללו אינם מורכבים מקבצי אודיו ישירים, אלא מרשימות של קישורים לפלטפורמות כמו YouTube ו-Spotify.
כדי להפוך את הקישורים הללו לנתוני אימון שניתן להשתמש בהם, מפתחים משתמשים בכלי גירוד נתונים (scraping) אוטומטיים שנועדו להוריד אודיו ישירות. כלים אלו תוכננו במיוחד כדי לעקוף תהליכי התחברות, לדלג על פרסומות ולעקוף את המנגנונים עצמם — כגון מודלים של מנויים וחומות תשלום (paywalls) — המאפשרים ליוצרים להפיק רווח מעבודתם. למרות שמאגרי נתונים אלו עשויים להיות "זמינים" באינטרנט, שיטת ההפקה מפרה לעיתים קרובות את תנאי השימוש של הפלטפורמות המארחות ופוגעת בניהול זכויות דיגיטליות (DRM) שנועד להגן על אמנים.
השלכות על התעשייה וגוף הפיקוח של ה-AI
ההשפעה של איסוף הנתונים הזה אינה תיאורטית; שחקנים מרכזיים בתעשייה כבר הכירו בשימוש בו. הן Google והן Stability AI אישרו את השימוש במאגרי הנתונים הללו במאמרי המחקר הרשמיים שלהם. אישור זה מדגיש את המתח הגובר בין ההתקדמות המהירה של בינה מלאכותית רב-מודאלית (multimodal AI) לבין המסגרות המשפטיות המסדירות קניין רוחני.
על ידי אירוח המידע הזה באתר "AI Watchdog" של The Atlantic, הפרסום מספק כלי קריטי למפתחים, מומחים משפטיים ואמנים כדי לעקוב אחר האופן שבו הקניין הרוחני שלהם מנוצל. מהלך זה מעביר את השיח מהשערות לראיות אמפיריות, ומספק את התשתית הדרושה להתדיינויות משפטיות קרובות בנושא זכויות יוצרים ולדיונים רגולטוריים בנוגע לשימוש הוגן (fair use) בעידן הלמידה הממוחשבת (machine learning).
נקודות מרכזיות
- היקף עצום של איסוף נתונים: מאגרי נתונים לאימון בינה מלאכותית מכילים מיליוני רצועות שמע, כולל שני מאגרים עצומים של 12 מיליון ו-9 מיליון שירים.
- עקיפת תנאי השימוש: מפתחים משתמשים בכלים אוטומטיים כדי לעקוף את ההגנות של YouTube ו-Spotify, ובכך שוללים בפועל מיוצרים את הכנסות הפרסום ודמי המנוי.
- אחריות תאגידית: גופים מרכזיים בתחום ה-AI, כולל Google ו-Stability AI, אישרו את השימוש במאגרי הנתונים הללו במחקרים שפורסמו על ידם.