AI പരിശീലനത്തിനായി ഉപയോഗിക്കുന്ന സംഗീതത്തിന്റെ സെർച്ച് ചെയ്യാവുന്ന ഡാറ്റാബേസ് The Atlantic പുറത്തുവിട്ടു

ജനറേറ്റീവ് AI പരിശീലനത്തിലെ സുതാര്യതയുടെ കുറവ് ഒരു സുപ്രധാന അന്വേഷണത്തിലൂടെ പരിഹരിക്കപ്പെട്ടിരിക്കുന്നു. ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലുകൾ ഉപയോഗിക്കുന്ന പകർപ്പവകാശമുള്ള സംഗീതത്തിന്റെ വൻതോതിലുള്ള ഉപയോഗം വെളിപ്പെടുത്തുന്ന രീതിയിൽ, പൊതുജനങ്ങൾക്ക് സെർച്ച് ചെയ്യാവുന്ന ഒരു ഡാറ്റാബേസ് The Atlantic പുറത്തിറക്കിയിട്ടുണ്ട്.

വൻതോതിലുള്ള ഡാറ്റാസെറ്റുകൾ വെളിപ്പെടുന്നു: ദശലക്ഷക്കണക്കിന് ഗാനങ്ങൾ പുറത്തറിഞ്ഞു

അന്വേഷണ റിപ്പോർട്ടറായ അലക്സ് റൈസ്നർ, നിലവിൽ AI സംഗീത പരിശീലനത്തിന്റെ നട്ടെല്ലായി പ്രവർത്തിക്കുന്ന നാല് പ്രധാന ഡാറ്റാസെറ്റുകൾ തിരിച്ചറിഞ്ഞിട്ടുണ്ട്. ഈ ശേഖരങ്ങളുടെ വ്യാപ്തി അതിശയിപ്പിക്കുന്നതാണ്: രണ്ട് ഡാറ്റാസെറ്റുകളിൽ യഥാക്രമം 12 ദശലക്ഷവും 9 ദശലക്ഷവും ഗാനങ്ങളുണ്ട്, മറ്റ് രണ്ട് ചെറിയ സെറ്റുകളിൽ ഓരോന്നിലും 100,000-ലധികം പാട്ടുകളുണ്ട്.

യഥാർത്ഥ സ്രഷ്ടാക്കളുടെ വ്യക്തമായ അനുമതിയില്ലാതെ വൻതോതിലുള്ള മീഡിയകൾ പരിശീലന സെറ്റുകളിലേക്ക് കൂട്ടിച്ചേർക്കപ്പെടുന്ന AI വ്യവസായത്തിലെ വ്യവസ്ഥാപിത പ്രശ്നത്തെ ഈ വെളിപ്പെടുത്തൽ എടുത്തുകാണിക്കുന്നു. ലേഡി ഗാഗ (Lady Gaga), ബ്രൂസ് സ്പ്രിംഗ്സ്റ്റീൻ (Bruce Springsteen), റേഡിയോഹെഡ് (Radiohead) തുടങ്ങിയ പ്രശസ്തരായ കലാകാരന്മാർ മുതൽ ഹെയ്ൻബാക്ക് (Hainbach) പോലുള്ള പരീക്ഷണാത്മക സംഗീതജ്ഞരും അഫെക്സ് ട്വിൻ (Aphex Twin) പോലുള്ള ഇലക്ട്രോണിക് കലാകാരന്മാരും ഉൾപ്പെടുന്ന വിശാലമായ സംഗീത ശേഖരത്തിലൂടെ ആർക്കും തിരയാൻ ഈ ഡാറ്റാബേസ് അനുവദിക്കുന്നു.

സാങ്കേതികമായ വിടവ്: പ്ലാറ്റ്‌ഫോം സുരക്ഷാ സംവിധാനങ്ങളെ മറികടക്കുന്നു

പരിശീലന ഡാറ്റ ശേഖരിക്കുന്നതിനായി AI ഡെവലപ്പർമാർ ഉപയോഗിക്കുന്ന സങ്കീർണ്ണമായ ഒരു സാങ്കേതിക മാർഗ്ഗം ഈ കണ്ടെത്തൽ വെളിപ്പെടുത്തുന്നു. ഈ ഡാറ്റാസെറ്റുകളിൽ ഭൂരിഭാഗവും നേരിട്ടുള്ള ഓഡിയോ ഫയലുകൾക്ക് പകരം YouTube, Spotify തുടങ്ങിയ പ്ലാറ്റ്‌ഫോമുകളിലേക്കുള്ള ലിങ്കുകളുടെ പട്ടികകളാണ്.

ഈ ലിങ്കുകളെ ഉപയോഗപ്രദമായ പരിശീലന ഡാറ്റയാക്കി മാറ്റുന്നതിന്, ഓഡിയോ നേരിട്ട് ഡൗൺലോഡ് ചെയ്യാൻ രൂപകൽപ്പന ചെയ്ത ഓട്ടോമേറ്റഡ് സ്ക്രാപ്പിംഗ് ടൂളുകൾ ഡെവലപ്പർമാർ ഉപയോഗിക്കുന്നു. ലോഗിൻ നടപടികൾ മറികടക്കാനും, പരസ്യങ്ങൾ ഒഴിവാക്കാനും, സ്രഷ്ടാക്കൾക്ക് അവരുടെ സൃഷ്ടികളിലൂടെ വരുമാനം നേടാൻ സഹായിക്കുന്ന സബ്‌സ്‌ക്രിപ്ഷൻ മോഡലുകൾ, പേവാളുകൾ (paywalls) തുടങ്ങിയ സംവിധാനങ്ങളെ മറികടക്കാനും ഈ ടൂളുകൾ പ്രത്യേകം രൂപകൽപ്പന ചെയ്തിട്ടുള്ളതാണ്. ഈ ഡാറ്റാസെറ്റുകൾ ഇന്റർനെറ്റിൽ "ലഭ്യമായിരിക്കാം", എങ്കിലും അവ ശേഖരിക്കുന്ന രീതി പലപ്പോഴും ഹോസ്റ്റിംഗ് പ്ലാറ്റ്‌ഫോമുകളുടെ സേവന വ്യവസ്ഥകൾ ലംഘിക്കുകയും കലാകാരന്മാരെ സംരക്ഷിക്കാൻ ഉദ്ദേശിച്ചുള്ള ഡിജിറ്റൽ റൈറ്റ്‌സ് മാനേജ്‌മെന്റിനെ (DRM) തകർക്കുകയും ചെയ്യുന്നു.

വ്യവസായത്തിലെ പ്രത്യാഘാതങ്ങളും AI വാച്ച്ഡോഗും

ഈ ഡാറ്റാ ഇൻജഷന്റെ ആഘാതം കേവലം സൈദ്ധാന്തികമല്ല; പ്രമുഖ വ്യവസായ കമ്പനികൾ ഇതിനോടകം തന്നെ ഇതിന്റെ ഉപയോഗം അംഗീകരിച്ചിട്ടുണ്ട്. Google-ഉം Stability AI-യും തങ്ങളുടെ ഔദ്യോഗിക ഗവേഷണ പ്രബന്ധങ്ങളിൽ ഈ ഡാറ്റാസെറ്റുകളുടെ ഉപയോഗം സ്ഥിരീകരിച്ചിട്ടുണ്ട്. മൾട്ടിമോഡൽ AI-യുടെ അതിവേഗത്തിലുള്ള പുരോഗതിയും ബൗദ്ധിക സ്വത്തവകാശം നിയന്ത്രിക്കുന്ന നിയമപരമായ ചട്ടക്കൂടുകളും തമ്മിലുള്ള വർദ്ധിച്ചുവരുന്ന സംഘർഷത്തെ ഈ സ്ഥിരീകരണം അടിവരയിടുന്നു.

The Atlantic-ന്റെ "AI Watchdog" സൈറ്റിൽ ഈ വിവരങ്ങൾ പ്രസിദ്ധീകരിക്കുന്നതിലൂടെ, തങ്ങളുടെ ബൗദ്ധിക സ്വത്തവകാശം എങ്ങനെ ഉപയോഗിക്കപ്പെടുന്നു എന്ന് നിരീക്ഷിക്കാൻ ഡെവലപ്പർമാർക്കും നിയമവിദഗ്ധർക്കും കലാകാരന്മാർക്കും ആവശ്യമായ ഒരു പ്രധാന ഉപകരണം ഈ പ്രസിദ്ധീകരണം നൽകുന്നു. ഈ നീക്കം ചർച്ചകളെ ഊഹാപോഹങ്ങളിൽ നിന്ന് പ്രായോഗിക തെളിവുകളിലേക്ക് മാറ്റുകയും, മെഷീൻ ലേണിംഗ് കാലഘട്ടത്തിലെ 'ഫെയർ യൂസ്' (fair use) സംബന്ധിച്ച വരാനിരിക്കുന്ന പകർപ്പവകാശ തർക്കങ്ങൾക്കും നിയന്ത്രണ ചർച്ചകൾക്കും ആവശ്യമായ അടിത്തറ പാകുകയും ചെയ്യുന്നു.

പ്രധാന കാര്യങ്ങൾ

  • വിപുലമായ ഡാറ്റാ ഇൻജഷൻ: AI പരിശീലന ഡാറ്റാസെറ്റുകളിൽ ദശലക്ഷക്കണക്കിന് പാട്ടുകൾ അടങ്ങിയിരിക്കുന്നു, ഇതിൽ 12 ദശലക്ഷം, 9 ദശലക്ഷം പാട്ടുകൾ വീതമുള്ള രണ്ട് വലിയ ശേഖരങ്ങളും ഉൾപ്പെടുന്നു.
  • നിബന്ധനകളെ മറികടക്കൽ: YouTube, Spotify എന്നിവയുടെ സുരക്ഷാ സംവിധാനങ്ങളെ മറികടക്കാൻ ഡെവലപ്പർമാർ ഓട്ടോമേറ്റഡ് ടൂളുകൾ ഉപയോഗിക്കുന്നു, ഇത് യഥാർത്ഥത്തിൽ സ്രഷ്ടാക്കളുടെ പരസ്യ വരുമാനവും സബ്‌സ്‌ക്രിപ്ഷൻ ഫീസും ഇല്ലാതാക്കുന്നു.
  • കോർപ്പറേറ്റ് ഉത്തരവാദിത്തം: Google, Stability AI എന്നിവയുൾപ്പെടെയുള്ള പ്രമുഖ AI സ്ഥാപനങ്ങൾ തങ്ങളുടെ പ്രസിദ്ധീകരിച്ച ഗവേഷണങ്ങളിൽ ഈ ഡാറ്റാസെറ്റുകളുടെ ഉപയോഗം സാക്ഷ്യപ്പെടുത്തിയിട്ടുണ്ട്.