The Atlantic એ AI તાલીમ માટે વપરાતા સંગીતનો સર્ચેબલ ડેટાબેઝ જાહેર કર્યો

જનરેટિવ AI તાલીમમાં પારદર્શિતાનો અભાવ એક સીમાચિહ્નરૂપ તપાસના પ્રયાસ દ્વારા હવે દૂર કરવામાં આવ્યો છે. The Atlantic એ એક જાહેર, સર્ચેબલ ડેટાબેઝ લોન્ચ કર્યો છે જે આર્ટિફિશિયલ ઇન્ટેલિજન્સ મોડલ્સ દ્વારા ઉપયોગમાં લેવાતા કોપીરાઈટ ધરાવતા સંગીતના વિશાળ સ્કેલને ખુલ્લો પાડે છે.

વિશાળ ડેટાસેટ્સનો ખુલાસો: લાખો ટ્રેક્સ ખુલ્લા પડ્યા

તપાસકર્તા રિપોર્ટર Alex Reisner એ હાલમાં AI મ્યુઝિક ટ્રેનિંગ માટે કરોડરજ્જુ સમાન કામ કરતા ચાર મુખ્ય ડેટાસેટ્સની ઓળખ કરી છે. આ રિપોઝીટરીઝનું પ્રમાણ આશ્ચર્યજનક છે: બે ડેટાસેટ્સમાં અનુક્રમે 12 મિલિયન અને 9 મિલિયન ટ્રેક્સ છે, જ્યારે બે નાના સેટ્સમાં દરેકમાં 100,000 થી વધુ ગીતો છે.

આ ખુલાસો AI ઉદ્યોગમાં એક વ્યવસ્થિત સમસ્યા પર પ્રકાશ પાડે છે જ્યાં મૂળ સર્જકોની સ્પષ્ટ પરવાનગી વિના મીડિયાના વિશાળ જથ્થાને તાલીમ સેટ્સમાં એકત્રિત કરવામાં આવે છે. આ ડેટાબેઝ કોઈપણ વ્યક્તિને આ કલેક્શનમાં સર્ચ કરવાની મંજૂરી આપે છે, જેમાં Lady Gaga, Bruce Springsteen અને Radiohead જેવા મુખ્ય પ્રવાહના આઇકોન્સથી લઈને Hainbach જેવા પ્રાયોગિક કમ્પોઝર્સ અને Aphex Twin જેવા ઇલેક્ટ્રોનિક કલાકારો સુધીની સંગીત પ્રતિભાનો વિશાળ સ્પેક્ટ્રમ સામેલ છે.

ટેકનિકલ લૂપહોલ: પ્લેટફોર્મ સુરક્ષાને બાયપાસ કરવી

આ શોધ AI ડેવલપર્સ દ્વારા તાલીમ ડેટા મેળવવા માટે ઉપયોગમાં લેવાતા એક અત્યાધુનિક ટેકનિકલ વર્કઅરાઉન્ડને પ્રગટ કરે છે. આમાંના મોટાભાગના ડેટાસેટ્સ સીધી ઓડિયો ફાઇલોના બનેલા નથી પરંતુ YouTube અને Spotify જેવા પ્લેટફોર્મ્સના લિંક્સની યાદીઓ છે.

આ લિંક્સને ઉપયોગી તાલીમ ડેટામાં રૂપાંતરિત કરવા માટે, ડેવલપર્સ સીધું ઓડિયો ડાઉનલોડ કરવા માટે ડિઝાઇન કરેલા ઓટોમેટેડ સ્ક્રેપિંગ ટૂલ્સનો ઉપયોગ કરે છે. આ ટૂલ્સ ખાસ કરીને લોગિનને બાયપાસ કરવા, જાહેરાતોને સ્કીપ કરવા અને સબ્સ્ક્રિપ્શન મોડલ્સ અને પેવૉલ્સ જેવા એવા મિકેનિઝમ્સને ટાળવા માટે એન્જિનિયર્ડ કરવામાં આવ્યા છે જે સર્જકોને તેમના કામમાંથી નાણાં કમાવવાની મંજૂરી આપે છે. જોકે આ ડેટાસેટ્સ ઇન્ટરનેટ પર "ઉપલબ્ધ" હોઈ શકે છે, પરંતુ ડેટા કાઢવાની પદ્ધતિ વારંવાર હોસ્ટિંગ પ્લેટફોર્મ્સની સેવાની શરતોનું ઉલ્લંઘન કરે છે અને કલાકારોને સુરક્ષિત કરવા માટેના ડિજિટલ રાઈટ્સ મેનેજમેન્ટ (DRM) ને નબળું પાડે છે.

ઉદ્યોગ પર અસરો અને AI વોચડોગ

આ ડેટા ઇન્જેસ્ટશનની અસર માત્ર સૈદ્ધાંતિક નથી; ઉદ્યોગના મોટા ખેલાડીઓએ પહેલેથી જ તેના ઉપયોગનો સ્વીકાર કર્યો છે. Google અને Stability AI બંનેએ તેમના સત્તાવાર સંશોધન પત્રોમાં આ ડેટાસેટ્સના ઉપયોગની પુષ્ટિ કરી છે. આ પુષ્ટિ મલ્ટિમોડલ AI ની ઝડપી પ્રગતિ અને બૌદ્ધિક સંપત્તિને નિયંત્રિત કરતા કાયદાકીય માળખા વચ્ચે વધતા તણાવ પર ભાર મૂકે છે.

The Atlantic ની "AI Watchdog" સાઇટ પર આ માહિતી હોસ્ટ કરીને, આ પ્રકાશન ડેવલપર્સ, કાયદાકીય નિષ્ણાતો અને કલાકારો માટે તેમની બૌદ્ધિક સંપત્તિનો ઉપયોગ કેવી રીતે થઈ રહ્યો છે તેના પર નજર રાખવા માટે એક મહત્વપૂર્ણ સાધન પૂરું પાડી રહ્યું છે. આ પગલું ચર્ચાને અનુમાનથી બદલીને પ્રાયોગિક પુરાવા તરફ લઈ જાય છે, જે મશીન લર્નિંગના યુગમાં 'fair use' અંગેના આગામી કોપીરાઈટ વિવાદો અને નિયમનકારી ચર્ચાઓ માટે જરૂરી પાયો પૂરો પાડે છે.

મુખ્ય તારણો

  • ઇન્જેસ્ટશનનું વિશાળ પ્રમાણ: AI ટ્રેનિંગ ડેટાસેટ્સમાં લાખો ટ્રેક્સ સામેલ છે, જેમાં 12 મિલિયન અને 9 મિલિયન ગીતોના બે વિશાળ સેટનો સમાવેશ થાય છે.
  • શરતોનું ઉલ્લંઘન: ડેવલપર્સ YouTube અને Spotify ના રક્ષણથી બચવા માટે સ્વચાલિત સાધનોનો ઉપયોગ કરે છે, જે અસરકારક રીતે સર્જકોને જાહેરાત આવક અને સબ્સ્ક્રિપ્શન ફીથી વંચિત રાખે છે.
  • કોર્પોરેટ જવાબદારી: Google અને Stability AI સહિતની મોટી AI સંસ્થાઓએ તેમના પ્રકાશિત સંશોધનમાં આ ડેટાસેટ્સના ઉપયોગની ચકાસણી કરી છે.