The Atlantic Unveils Searchable Database of Music Used for AI Training

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 ആഴ്ച മുമ്പ്2min read

In this article

AI പരിശീലനത്തിനായി ഉപയോഗിക്കുന്ന സംഗീതത്തിന്റെ സെർച്ച് ചെയ്യാവുന്ന ഡാറ്റാബേസ് The Atlantic പുറത്തുവിട്ടു

ജനറേറ്റീവ് AI പരിശീലനത്തിലെ സുതാര്യതയുടെ കുറവ് ഒരു സുപ്രധാന അന്വേഷണത്തിലൂടെ പരിഹരിക്കപ്പെട്ടിരിക്കുന്നു. ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലുകൾ ഉപയോഗിക്കുന്ന പകർപ്പവകാശമുള്ള സംഗീതത്തിന്റെ വൻതോതിലുള്ള ഉപയോഗം വെളിപ്പെടുത്തുന്ന രീതിയിൽ, പൊതുജനങ്ങൾക്ക് സെർച്ച് ചെയ്യാവുന്ന ഒരു ഡാറ്റാബേസ് The Atlantic പുറത്തിറക്കിയിട്ടുണ്ട്.

വൻതോതിലുള്ള ഡാറ്റാസെറ്റുകൾ വെളിപ്പെടുന്നു: ദശലക്ഷക്കണക്കിന് ഗാനങ്ങൾ പുറത്തറിഞ്ഞു

അന്വേഷണ റിപ്പോർട്ടറായ അലക്സ് റൈസ്നർ, നിലവിൽ AI സംഗീത പരിശീലനത്തിന്റെ നട്ടെല്ലായി പ്രവർത്തിക്കുന്ന നാല് പ്രധാന ഡാറ്റാസെറ്റുകൾ തിരിച്ചറിഞ്ഞിട്ടുണ്ട്. ഈ ശേഖരങ്ങളുടെ വ്യാപ്തി അതിശയിപ്പിക്കുന്നതാണ്: രണ്ട് ഡാറ്റാസെറ്റുകളിൽ യഥാക്രമം 12 ദശലക്ഷവും 9 ദശലക്ഷവും ഗാനങ്ങളുണ്ട്, മറ്റ് രണ്ട് ചെറിയ സെറ്റുകളിൽ ഓരോന്നിലും 100,000-ലധികം പാട്ടുകളുണ്ട്.

യഥാർത്ഥ സ്രഷ്ടാക്കളുടെ വ്യക്തമായ അനുമതിയില്ലാതെ വൻതോതിലുള്ള മീഡിയകൾ പരിശീലന സെറ്റുകളിലേക്ക് കൂട്ടിച്ചേർക്കപ്പെടുന്ന AI വ്യവസായത്തിലെ വ്യവസ്ഥാപിത പ്രശ്നത്തെ ഈ വെളിപ്പെടുത്തൽ എടുത്തുകാണിക്കുന്നു. ലേഡി ഗാഗ (Lady Gaga), ബ്രൂസ് സ്പ്രിംഗ്സ്റ്റീൻ (Bruce Springsteen), റേഡിയോഹെഡ് (Radiohead) തുടങ്ങിയ പ്രശസ്തരായ കലാകാരന്മാർ മുതൽ ഹെയ്ൻബാക്ക് (Hainbach) പോലുള്ള പരീക്ഷണാത്മക സംഗീതജ്ഞരും അഫെക്സ് ട്വിൻ (Aphex Twin) പോലുള്ള ഇലക്ട്രോണിക് കലാകാരന്മാരും ഉൾപ്പെടുന്ന വിശാലമായ സംഗീത ശേഖരത്തിലൂടെ ആർക്കും തിരയാൻ ഈ ഡാറ്റാബേസ് അനുവദിക്കുന്നു.

സാങ്കേതികമായ വിടവ്: പ്ലാറ്റ്‌ഫോം സുരക്ഷാ സംവിധാനങ്ങളെ മറികടക്കുന്നു

പരിശീലന ഡാറ്റ ശേഖരിക്കുന്നതിനായി AI ഡെവലപ്പർമാർ ഉപയോഗിക്കുന്ന സങ്കീർണ്ണമായ ഒരു സാങ്കേതിക മാർഗ്ഗം ഈ കണ്ടെത്തൽ വെളിപ്പെടുത്തുന്നു. ഈ ഡാറ്റാസെറ്റുകളിൽ ഭൂരിഭാഗവും നേരിട്ടുള്ള ഓഡിയോ ഫയലുകൾക്ക് പകരം YouTube, Spotify തുടങ്ങിയ പ്ലാറ്റ്‌ഫോമുകളിലേക്കുള്ള ലിങ്കുകളുടെ പട്ടികകളാണ്.

ഈ ലിങ്കുകളെ ഉപയോഗപ്രദമായ പരിശീലന ഡാറ്റയാക്കി മാറ്റുന്നതിന്, ഓഡിയോ നേരിട്ട് ഡൗൺലോഡ് ചെയ്യാൻ രൂപകൽപ്പന ചെയ്ത ഓട്ടോമേറ്റഡ് സ്ക്രാപ്പിംഗ് ടൂളുകൾ ഡെവലപ്പർമാർ ഉപയോഗിക്കുന്നു. ലോഗിൻ നടപടികൾ മറികടക്കാനും, പരസ്യങ്ങൾ ഒഴിവാക്കാനും, സ്രഷ്ടാക്കൾക്ക് അവരുടെ സൃഷ്ടികളിലൂടെ വരുമാനം നേടാൻ സഹായിക്കുന്ന സബ്‌സ്‌ക്രിപ്ഷൻ മോഡലുകൾ, പേവാളുകൾ (paywalls) തുടങ്ങിയ സംവിധാനങ്ങളെ മറികടക്കാനും ഈ ടൂളുകൾ പ്രത്യേകം രൂപകൽപ്പന ചെയ്തിട്ടുള്ളതാണ്. ഈ ഡാറ്റാസെറ്റുകൾ ഇന്റർനെറ്റിൽ "ലഭ്യമായിരിക്കാം", എങ്കിലും അവ ശേഖരിക്കുന്ന രീതി പലപ്പോഴും ഹോസ്റ്റിംഗ് പ്ലാറ്റ്‌ഫോമുകളുടെ സേവന വ്യവസ്ഥകൾ ലംഘിക്കുകയും കലാകാരന്മാരെ സംരക്ഷിക്കാൻ ഉദ്ദേശിച്ചുള്ള ഡിജിറ്റൽ റൈറ്റ്‌സ് മാനേജ്‌മെന്റിനെ (DRM) തകർക്കുകയും ചെയ്യുന്നു.

വ്യവസായത്തിലെ പ്രത്യാഘാതങ്ങളും AI വാച്ച്ഡോഗും

ഈ ഡാറ്റാ ഇൻജഷന്റെ ആഘാതം കേവലം സൈദ്ധാന്തികമല്ല; പ്രമുഖ വ്യവസായ കമ്പനികൾ ഇതിനോടകം തന്നെ ഇതിന്റെ ഉപയോഗം അംഗീകരിച്ചിട്ടുണ്ട്. Google-ഉം Stability AI-യും തങ്ങളുടെ ഔദ്യോഗിക ഗവേഷണ പ്രബന്ധങ്ങളിൽ ഈ ഡാറ്റാസെറ്റുകളുടെ ഉപയോഗം സ്ഥിരീകരിച്ചിട്ടുണ്ട്. മൾട്ടിമോഡൽ AI-യുടെ അതിവേഗത്തിലുള്ള പുരോഗതിയും ബൗദ്ധിക സ്വത്തവകാശം നിയന്ത്രിക്കുന്ന നിയമപരമായ ചട്ടക്കൂടുകളും തമ്മിലുള്ള വർദ്ധിച്ചുവരുന്ന സംഘർഷത്തെ ഈ സ്ഥിരീകരണം അടിവരയിടുന്നു.

The Atlantic-ന്റെ "AI Watchdog" സൈറ്റിൽ ഈ വിവരങ്ങൾ പ്രസിദ്ധീകരിക്കുന്നതിലൂടെ, തങ്ങളുടെ ബൗദ്ധിക സ്വത്തവകാശം എങ്ങനെ ഉപയോഗിക്കപ്പെടുന്നു എന്ന് നിരീക്ഷിക്കാൻ ഡെവലപ്പർമാർക്കും നിയമവിദഗ്ധർക്കും കലാകാരന്മാർക്കും ആവശ്യമായ ഒരു പ്രധാന ഉപകരണം ഈ പ്രസിദ്ധീകരണം നൽകുന്നു. ഈ നീക്കം ചർച്ചകളെ ഊഹാപോഹങ്ങളിൽ നിന്ന് പ്രായോഗിക തെളിവുകളിലേക്ക് മാറ്റുകയും, മെഷീൻ ലേണിംഗ് കാലഘട്ടത്തിലെ 'ഫെയർ യൂസ്' (fair use) സംബന്ധിച്ച വരാനിരിക്കുന്ന പകർപ്പവകാശ തർക്കങ്ങൾക്കും നിയന്ത്രണ ചർച്ചകൾക്കും ആവശ്യമായ അടിത്തറ പാകുകയും ചെയ്യുന്നു.

പ്രധാന കാര്യങ്ങൾ

വിപുലമായ ഡാറ്റാ ഇൻജഷൻ: AI പരിശീലന ഡാറ്റാസെറ്റുകളിൽ ദശലക്ഷക്കണക്കിന് പാട്ടുകൾ അടങ്ങിയിരിക്കുന്നു, ഇതിൽ 12 ദശലക്ഷം, 9 ദശലക്ഷം പാട്ടുകൾ വീതമുള്ള രണ്ട് വലിയ ശേഖരങ്ങളും ഉൾപ്പെടുന്നു.
നിബന്ധനകളെ മറികടക്കൽ: YouTube, Spotify എന്നിവയുടെ സുരക്ഷാ സംവിധാനങ്ങളെ മറികടക്കാൻ ഡെവലപ്പർമാർ ഓട്ടോമേറ്റഡ് ടൂളുകൾ ഉപയോഗിക്കുന്നു, ഇത് യഥാർത്ഥത്തിൽ സ്രഷ്ടാക്കളുടെ പരസ്യ വരുമാനവും സബ്‌സ്‌ക്രിപ്ഷൻ ഫീസും ഇല്ലാതാക്കുന്നു.
കോർപ്പറേറ്റ് ഉത്തരവാദിത്തം: Google, Stability AI എന്നിവയുൾപ്പെടെയുള്ള പ്രമുഖ AI സ്ഥാപനങ്ങൾ തങ്ങളുടെ പ്രസിദ്ധീകരിച്ച ഗവേഷണങ്ങളിൽ ഈ ഡാറ്റാസെറ്റുകളുടെ ഉപയോഗം സാക്ഷ്യപ്പെടുത്തിയിട്ടുണ്ട്.

The Atlantic Unveils Searchable Database of Music Used for AI Training

AI പരിശീലനത്തിനായി ഉപയോഗിക്കുന്ന സംഗീതത്തിന്റെ സെർച്ച് ചെയ്യാവുന്ന ഡാറ്റാബേസ് The Atlantic പുറത്തുവിട്ടു

വൻതോതിലുള്ള ഡാറ്റാസെറ്റുകൾ വെളിപ്പെടുന്നു: ദശലക്ഷക്കണക്കിന് ഗാനങ്ങൾ പുറത്തറിഞ്ഞു

സാങ്കേതികമായ വിടവ്: പ്ലാറ്റ്‌ഫോം സുരക്ഷാ സംവിധാനങ്ങളെ മറികടക്കുന്നു

വ്യവസായത്തിലെ പ്രത്യാഘാതങ്ങളും AI വാച്ച്ഡോഗും

പ്രധാന കാര്യങ്ങൾ

Continue reading

𝗔𝗜 𝗣𝗼𝘄𝗲𝗿𝗲𝗱 𝗦𝗮𝗺𝗽𝗹𝗲 𝗖𝗹𝗲𝗮𝗿𝗮𝗻𝗰𝗲 𝗳𝗼𝗿 𝗠𝘂𝘀𝗶𝗰 𝗣𝗿𝗼𝗱𝘂𝗰𝗲𝗿𝘀

വെബ് ഡാറ്റാ ഇൻഫ്രാസ്ട്രക്ചറിന്റെ ഉദയം: AI-യുടെ അറിവ് ലഭ്യമാക്കുന്നതിലെ തടസ്സങ്ങൾ പരിഹരിക്കുന്നു

പകർപ്പവകാശ മഹാവിപത്ത്

പുതിയ ലേബലിംഗ് നിയമങ്ങൾ നടപ്പിലാക്കുന്നതിനൊപ്പം AI സംഗീതത്തിന്റെ മോണിറ്റൈസേഷൻ നിർത്തലാക്കാൻ Tidal ഒരുങ്ങുന്നു