The Atlantic ने AI ट्रेनिंग के लिए उपयोग किए जाने वाले संगीत का सर्च करने योग्य डेटाबेस पेश किया
जनरेटिव AI ट्रेनिंग में पारदर्शिता की कमी को एक ऐतिहासिक खोजी प्रयास के माध्यम से दूर कर दिया गया है। The Atlantic ने एक सार्वजनिक, सर्च करने योग्य डेटाबेस लॉन्च किया है जो आर्टिफिशियल इंटेलिजेंस मॉडल्स द्वारा उपयोग किए जा रहे कॉपीराइट संगीत के विशाल पैमाने को उजागर करता है।
विशाल डेटासेट का खुलासा: लाखों ट्रैक उजागर
खोजी पत्रकार एलेक्स रीसनर (Alex Reisner) ने चार प्राथमिक डेटासेट की पहचान की है जो वर्तमान में AI संगीत प्रशिक्षण की रीढ़ के रूप में काम कर रहे हैं। इन रिपॉजिटरी का पैमाना चौंकाने वाला है: दो डेटासेट में क्रमशः 12 मिलियन और 9 मिलियन ट्रैक हैं, जबकि दो छोटे सेट में प्रत्येक में 100,000 से अधिक गाने हैं।
यह खुलासा AI उद्योग में एक प्रणालीगत समस्या को उजागर करता है जहाँ मूल रचनाकारों की स्पष्ट अनुमति के बिना मीडिया की भारी मात्रा को ट्रेनिंग सेट में एकत्रित किया जाता है। यह डेटाबेस किसी को भी इन संग्रहों में खोजने की अनुमति देता है, जिनमें लेडी गागा (Lady Gaga), ब्रूस स्प्रिंगस्टीन (Bruce Springsteen) और रेडियोहेड (Radiohead) जैसे मुख्यधारा के दिग्गजों से लेकर हेनबैक (Hainbach) जैसे प्रयोगात्मक संगीतकारों और अपेक्स ट्विन (Aphex Twin) जैसे इलेक्ट्रॉनिक कलाकारों तक, संगीत प्रतिभा का एक विस्तृत स्पेक्ट्रम शामिल है।
तकनीकी खामी: प्लेटफॉर्म सुरक्षा को दरकिनार करना
यह खोज AI डेवलपर्स द्वारा ट्रेनिंग डेटा प्राप्त करने के लिए उपयोग किए जाने वाले एक परिष्कृत तकनीकी वर्कअराउंड का खुलासा करती है। इनमें से अधिकांश डेटासेट सीधे ऑडियो फाइलों के रूप में नहीं हैं, बल्कि YouTube और Spotify जैसे प्लेटफॉर्म के लिंक की सूचियों के रूप में हैं।
इन लिंक्स को उपयोगी ट्रेनिंग डेटा में बदलने के लिए, डेवलपर्स सीधे ऑडियो डाउनलोड करने के लिए डिज़ाइन किए गए ऑटोमेटेड स्क्रैपिंग टूल्स का उपयोग करते हैं। इन टूल्स को विशेष रूप से लॉगिन को बायपास करने, विज्ञापनों को छोड़ने और उन्हीं तंत्रों—जैसे सब्सक्रिप्शन मॉडल और पेवॉल—को दरकिनार करने के लिए बनाया गया है जो रचनाकारों को उनके काम का मुद्रीकरण करने की अनुमति देते हैं। हालाँकि ये डेटासेट इंटरनेट पर "उपलब्ध" हो सकते हैं, लेकिन इन्हें निकालने का तरीका अक्सर होस्टिंग प्लेटफॉर्म की सेवा की शर्तों का उल्लंघन करता है और कलाकारों की सुरक्षा के लिए बनाए गए डिजिटल राइट्स मैनेजमेंट (DRM) को कमजोर करता है।
उद्योग के निहितार्थ और AI वॉचडॉग
इस डेटा इनजेशन का प्रभाव केवल सैद्धांतिक नहीं है; उद्योग के प्रमुख खिलाड़ियों ने पहले ही इसके उपयोग को स्वीकार कर लिया है। Google और Stability AI दोनों ने अपने आधिकारिक शोध पत्रों में इन डेटासेट के उपयोग की पुष्टि की है। यह पुष्टि मल्टीमॉडल AI की तीव्र प्रगति और बौद्धिक संपदा को नियंत्रित करने वाले कानूनी ढांचे के बीच बढ़ते तनाव को रेखांकित करती है।
The Atlantic की "AI Watchdog" साइट पर इस जानकारी को होस्ट करके, यह प्रकाशन डेवलपर्स, कानूनी विशेषज्ञों और कलाकारों को यह ट्रैक करने के लिए एक महत्वपूर्ण उपकरण प्रदान कर रहा है कि उनकी बौद्धिक संपदा का उपयोग कैसे किया जा रहा है। यह कदम बातचीत को अटकलों से हटाकर अनुभवजन्य साक्ष्यों की ओर ले जाता है, जो मशीन लर्निंग के युग में 'फेयर यूज़' के संबंध में आगामी कॉपीराइट मुकदमों और नियामक बहसों के लिए आवश्यक आधार तैयार करता है।
मुख्य निष्कर्ष
- इनजेशन का विशाल पैमाना: AI प्रशिक्षण डेटासेट में लाखों ट्रैक शामिल हैं, जिनमें 12 मिलियन और 9 मिलियन गानों के दो विशाल सेट शामिल हैं।
- नियमों का उल्लंघन: डेवलपर्स YouTube और Spotify की सुरक्षा को दरकिनार करने के लिए स्वचालित उपकरणों का उपयोग करते हैं, जिससे प्रभावी रूप से रचनाकारों को विज्ञापन राजस्व और सदस्यता शुल्क से वंचित कर दिया जाता है।
- कॉर्पोरेट जवाबदेही: Google और Stability AI सहित प्रमुख AI संस्थाओं ने अपने प्रकाशित शोध में इन डेटासेट के उपयोग को सत्यापित किया है।