AI તાલીમ માટે વપરાતા સંગીતનો સર્ચેબલ ડેટાબેઝ 'ધ એટલાન્ટિક' દ્વારા રજૂ કરવામાં આવ્યો

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 અઠવાડિયા પહેલાં2min read

In this article

The Atlantic એ AI તાલીમ માટે વપરાતા સંગીતનો સર્ચેબલ ડેટાબેઝ જાહેર કર્યો

જનરેટિવ AI તાલીમમાં પારદર્શિતાનો અભાવ એક સીમાચિહ્નરૂપ તપાસના પ્રયાસ દ્વારા હવે દૂર કરવામાં આવ્યો છે. The Atlantic એ એક જાહેર, સર્ચેબલ ડેટાબેઝ લોન્ચ કર્યો છે જે આર્ટિફિશિયલ ઇન્ટેલિજન્સ મોડલ્સ દ્વારા ઉપયોગમાં લેવાતા કોપીરાઈટ ધરાવતા સંગીતના વિશાળ સ્કેલને ખુલ્લો પાડે છે.

વિશાળ ડેટાસેટ્સનો ખુલાસો: લાખો ટ્રેક્સ ખુલ્લા પડ્યા

તપાસકર્તા રિપોર્ટર Alex Reisner એ હાલમાં AI મ્યુઝિક ટ્રેનિંગ માટે કરોડરજ્જુ સમાન કામ કરતા ચાર મુખ્ય ડેટાસેટ્સની ઓળખ કરી છે. આ રિપોઝીટરીઝનું પ્રમાણ આશ્ચર્યજનક છે: બે ડેટાસેટ્સમાં અનુક્રમે 12 મિલિયન અને 9 મિલિયન ટ્રેક્સ છે, જ્યારે બે નાના સેટ્સમાં દરેકમાં 100,000 થી વધુ ગીતો છે.

આ ખુલાસો AI ઉદ્યોગમાં એક વ્યવસ્થિત સમસ્યા પર પ્રકાશ પાડે છે જ્યાં મૂળ સર્જકોની સ્પષ્ટ પરવાનગી વિના મીડિયાના વિશાળ જથ્થાને તાલીમ સેટ્સમાં એકત્રિત કરવામાં આવે છે. આ ડેટાબેઝ કોઈપણ વ્યક્તિને આ કલેક્શનમાં સર્ચ કરવાની મંજૂરી આપે છે, જેમાં Lady Gaga, Bruce Springsteen અને Radiohead જેવા મુખ્ય પ્રવાહના આઇકોન્સથી લઈને Hainbach જેવા પ્રાયોગિક કમ્પોઝર્સ અને Aphex Twin જેવા ઇલેક્ટ્રોનિક કલાકારો સુધીની સંગીત પ્રતિભાનો વિશાળ સ્પેક્ટ્રમ સામેલ છે.

ટેકનિકલ લૂપહોલ: પ્લેટફોર્મ સુરક્ષાને બાયપાસ કરવી

આ શોધ AI ડેવલપર્સ દ્વારા તાલીમ ડેટા મેળવવા માટે ઉપયોગમાં લેવાતા એક અત્યાધુનિક ટેકનિકલ વર્કઅરાઉન્ડને પ્રગટ કરે છે. આમાંના મોટાભાગના ડેટાસેટ્સ સીધી ઓડિયો ફાઇલોના બનેલા નથી પરંતુ YouTube અને Spotify જેવા પ્લેટફોર્મ્સના લિંક્સની યાદીઓ છે.

આ લિંક્સને ઉપયોગી તાલીમ ડેટામાં રૂપાંતરિત કરવા માટે, ડેવલપર્સ સીધું ઓડિયો ડાઉનલોડ કરવા માટે ડિઝાઇન કરેલા ઓટોમેટેડ સ્ક્રેપિંગ ટૂલ્સનો ઉપયોગ કરે છે. આ ટૂલ્સ ખાસ કરીને લોગિનને બાયપાસ કરવા, જાહેરાતોને સ્કીપ કરવા અને સબ્સ્ક્રિપ્શન મોડલ્સ અને પેવૉલ્સ જેવા એવા મિકેનિઝમ્સને ટાળવા માટે એન્જિનિયર્ડ કરવામાં આવ્યા છે જે સર્જકોને તેમના કામમાંથી નાણાં કમાવવાની મંજૂરી આપે છે. જોકે આ ડેટાસેટ્સ ઇન્ટરનેટ પર "ઉપલબ્ધ" હોઈ શકે છે, પરંતુ ડેટા કાઢવાની પદ્ધતિ વારંવાર હોસ્ટિંગ પ્લેટફોર્મ્સની સેવાની શરતોનું ઉલ્લંઘન કરે છે અને કલાકારોને સુરક્ષિત કરવા માટેના ડિજિટલ રાઈટ્સ મેનેજમેન્ટ (DRM) ને નબળું પાડે છે.

ઉદ્યોગ પર અસરો અને AI વોચડોગ

આ ડેટા ઇન્જેસ્ટશનની અસર માત્ર સૈદ્ધાંતિક નથી; ઉદ્યોગના મોટા ખેલાડીઓએ પહેલેથી જ તેના ઉપયોગનો સ્વીકાર કર્યો છે. Google અને Stability AI બંનેએ તેમના સત્તાવાર સંશોધન પત્રોમાં આ ડેટાસેટ્સના ઉપયોગની પુષ્ટિ કરી છે. આ પુષ્ટિ મલ્ટિમોડલ AI ની ઝડપી પ્રગતિ અને બૌદ્ધિક સંપત્તિને નિયંત્રિત કરતા કાયદાકીય માળખા વચ્ચે વધતા તણાવ પર ભાર મૂકે છે.

The Atlantic ની "AI Watchdog" સાઇટ પર આ માહિતી હોસ્ટ કરીને, આ પ્રકાશન ડેવલપર્સ, કાયદાકીય નિષ્ણાતો અને કલાકારો માટે તેમની બૌદ્ધિક સંપત્તિનો ઉપયોગ કેવી રીતે થઈ રહ્યો છે તેના પર નજર રાખવા માટે એક મહત્વપૂર્ણ સાધન પૂરું પાડી રહ્યું છે. આ પગલું ચર્ચાને અનુમાનથી બદલીને પ્રાયોગિક પુરાવા તરફ લઈ જાય છે, જે મશીન લર્નિંગના યુગમાં 'fair use' અંગેના આગામી કોપીરાઈટ વિવાદો અને નિયમનકારી ચર્ચાઓ માટે જરૂરી પાયો પૂરો પાડે છે.

મુખ્ય તારણો

ઇન્જેસ્ટશનનું વિશાળ પ્રમાણ: AI ટ્રેનિંગ ડેટાસેટ્સમાં લાખો ટ્રેક્સ સામેલ છે, જેમાં 12 મિલિયન અને 9 મિલિયન ગીતોના બે વિશાળ સેટનો સમાવેશ થાય છે.
શરતોનું ઉલ્લંઘન: ડેવલપર્સ YouTube અને Spotify ના રક્ષણથી બચવા માટે સ્વચાલિત સાધનોનો ઉપયોગ કરે છે, જે અસરકારક રીતે સર્જકોને જાહેરાત આવક અને સબ્સ્ક્રિપ્શન ફીથી વંચિત રાખે છે.
કોર્પોરેટ જવાબદારી: Google અને Stability AI સહિતની મોટી AI સંસ્થાઓએ તેમના પ્રકાશિત સંશોધનમાં આ ડેટાસેટ્સના ઉપયોગની ચકાસણી કરી છે.

AI તાલીમ માટે વપરાતા સંગીતનો સર્ચેબલ ડેટાબેઝ 'ધ એટલાન્ટિક' દ્વારા રજૂ કરવામાં આવ્યો

The Atlantic એ AI તાલીમ માટે વપરાતા સંગીતનો સર્ચેબલ ડેટાબેઝ જાહેર કર્યો

વિશાળ ડેટાસેટ્સનો ખુલાસો: લાખો ટ્રેક્સ ખુલ્લા પડ્યા

ટેકનિકલ લૂપહોલ: પ્લેટફોર્મ સુરક્ષાને બાયપાસ કરવી

ઉદ્યોગ પર અસરો અને AI વોચડોગ

મુખ્ય તારણો

Continue reading

The AI Trust Gap: Why 60% of U.S. Consumers Reject AI Messaging

વેબ ડેટા ઈન્ફ્રાસ્ટ્રક્ચરનો ઉદય: AI ની જ્ઞાનની અવરોધક સમસ્યાનું નિરાકરણ

Tidal નવા લેબલિંગ નિયમો લાગુ કરવાની સાથે AI સંગીતનું મોનેટાઈઝેશન બંધ કરશે

અંતર ઘટાડવું: પ્રક્રિયા શ્રેષ્ઠતા એ AI ની સફળતાનું રહસ્ય શા માટે છે