AI பயிற்சியில் பயன்படுத்தப்படும் இசை குறித்த தேடக்கூடிய தரவுத்தளத்தை The Atlantic வெளியிடுகிறது
உருவாக்கத் திறன் கொண்ட (generative) AI பயிற்சியில் நிலவி வந்த வெளிப்படைத்தன்மை இடைவெளியானது, ஒரு முக்கிய புலனாய்வு முயற்சியின் மூலம் இப்போது சரிசெய்யப்பட்டுள்ளது. செயற்கை நுண்ணறிவு மாதிரிகளால் (AI models) உள்வாங்கப்படும் பதிப்புரிமை பெற்ற இசையின் பிரம்மாண்டமான அளவை வெளிப்படுத்தும் வகையில், The Atlantic ஒரு பொதுவான, தேடக்கூடிய தரவுத்தளத்தைத் தொடங்கியுள்ளது.
பிரம்மாண்டமான தரவுத்தொகுப்புகளை வெளிப்படுத்துதல்: மில்லியன் கணக்கான பாடல்கள் அம்பலமாகின்றன
புலனாய்வு செய்தியாளர் Alex Reisner, தற்போது AI இசைப் பயிற்சியின் முதுகெலும்பாகச் செயல்படும் நான்கு முதன்மைத் தரவுத்தொகுப்புகளை (datasets) அடையாளம் கண்டுள்ளார். இந்தத் தரவுச் சேமிப்பகங்களின் அளவு வியக்கத்தக்கது: இரண்டு தரவுத்தொகுப்புகள் முறையே 12 மில்லியன் மற்றும் 9 மில்லியன் பாடல்களைக் கொண்டுள்ளன, அதே சமயம் இரண்டு சிறிய தொகுப்புகள் தலா 100,000-க்கும் மேற்பட்ட பாடல்களைக் கொண்டுள்ளன.
இந்தத் தகவல் வெளிப்பாடு, AI துறையில் உள்ள ஒரு முறையான சிக்கலைச் சுட்டிக்காட்டுகிறது; அதாவது, அசல் படைப்பாளிகளிடமிருந்து வெளிப்படையான அனுமதி பெறாமல், பெருமளவிலான ஊடகத் தரவுகள் பயிற்சித் தொகுப்புகளாகத் திரட்டப்படுகின்றன. இந்தத் தரவுத்தளம், Lady Gaga, Bruce Springsteen மற்றும் Radiohead போன்ற முதன்மை இசைப் பிரபலங்கள் முதல் Hainbach போன்ற சோதனை முயற்சிகளில் ஈடுபடும் இசையமைப்பாளர்கள் மற்றும் Aphex Twin போன்ற மின்னணு இசைக்கலைஞர்கள் வரையிலான பரந்த அளவிலான இசைத் திறமைகளை உள்ளடக்கிய இந்தத் தொகுப்புகளைத் தேடிக் கண்டறியப் பயனர்களுக்கு அனுமதிக்கிறது.
தொழில்நுட்பத் துளை: தளப் பாதுகாப்புகளைத் தவிர்த்தல்
பயிற்சித் தரவைப் பெறுவதற்காக AI மேம்பாட்டாளர்கள் பயன்படுத்தும் ஒரு நுணுக்கமான தொழில்நுட்பத் தந்திரத்தை இந்தத் கண்டுபிடிப்பு வெளிப்படுத்துகிறது. இந்தத் தரவுத்தொகுப்புகளில் பெரும்பாலானவை நேரடி ஆடியோ கோப்புகளைக் கொண்டிருக்கவில்லை, மாறாக YouTube மற்றும் Spotify போன்ற தளங்களுக்கான இணைப்புகளின் (links) பட்டியல்களாகவே உள்ளன.
இந்த இணைப்புகளைப் பயன்படுத்தக்கூடிய பயிற்சித் தரவாக மாற்ற, மேம்பாட்டாளர்கள் ஆடியோவை நேரடியாகப் பதிவிறக்கம் செய்ய வடிவமைக்கப்பட்ட தானியங்கி ஸ்கிராப்பிங் (scraping) கருவிகளைப் பயன்படுத்துகின்றனர். இந்தத் கருவிகள் லாகின் (login) முறைகளைத் தவிர்க்கவும், விளம்பரங்களைத் தவிர்க்கவும் மற்றும் படைப்பாளர்கள் தங்கள் படைப்புகளின் மூலம் வருமானம் ஈட்டுவதற்கு உதவும் சந்தா முறைகள் (subscription models) மற்றும் பேவால் (paywalls) போன்ற வழிமுறைகளைச் சுற்றியே செயல்படும் வகையில் பிரத்யேகமாக வடிவமைக்கப்பட்டுள்ளன. இந்தத் தரவுத்தொகுப்புகள் இணையத்தில் "கிடைக்கக்கூடியதாக" இருக்கலாம் என்றாலும், இவற்றைத் எடுக்கும் முறை பெரும்பாலும் அந்தத் தளங்களின் சேவை விதிமுறைகளை மீறுவதோடு, கலைஞர்களைப் பாதுகாக்கக் கொண்டுவரப்பட்ட டிஜிட்டல் உரிம மேலாண்மையையும் (DRM) சீர்குலைக்கிறது.
தொழில்முறை தாக்கங்கள் மற்றும் AI கண்காணிப்பாளர்
இந்தத் தரவு உட்கிரகிப்பின் (data ingestion) தாக்கம் வெறும் தத்துவார்த்தமானது அல்ல; முக்கியத் தொழில் துறை நிறுவனங்கள் ஏற்கனவே அதன் பயன்பாட்டை ஒப்புக்கொண்டுள்ளன. Google மற்றும் Stability AI ஆகிய இரண்டும் தங்களது அதிகாரப்பூர்வ ஆராய்ச்சித் தாள்களில் இந்தத் தரவுத்தொகுப்புகளின் (datasets) பயன்பாட்டை உறுதிப்படுத்தியுள்ளன. இந்த உறுதிப்படுத்தல், மல்டிமோடல் AI-ன் விரைவான முன்னேற்றத்திற்கும், அறிவுசார் சொத்துரிமையை (intellectual property) நிர்வகிக்கும் சட்டக் கட்டமைப்புகளுக்கும் இடையே அதிகரித்து வரும் பதற்றத்தை அடிக்கோடிட்டுக் காட்டுகிறது.
The Atlantic-ன் "AI Watchdog" தளத்தில் இந்தத் தகவலை வெளியிடுவதன் மூலம், இந்த வெளியீடு டெவலப்பர்கள், சட்ட வல்லுநர்கள் மற்றும் கலைஞர்கள் தங்களது அறிவுசார் சொத்து எவ்வாறு பயன்படுத்தப்படுகிறது என்பதைக் கண்காணிக்க ஒரு முக்கியமான கருவியைப் வழங்குகிறது. இந்த நடவடிக்கை, விவாதங்களை யூகங்களிலிருந்து அனுபவ ரீதியான ஆதாரங்களுக்கு மாற்றுகிறது; மேலும், இயந்திரக் கற்றல் (machine learning) காலத்தில் 'நியாயமான பயன்பாடு' (fair use) குறித்த வரவிருக்கும் பதிப்புரிமை வழக்குகள் மற்றும் ஒழுங்குமுறை விவாதங்களுக்குத் தேவையான அடித்தளத்தை வழங்குகிறது.
முக்கியக் குறிப்புகள்
- மிகப்பெரிய அளவிலான உட்கிரகிப்பு: AI பயிற்சித் தரவுத்தொகுப்புகளில் மில்லியன் கணக்கான பாடல்கள் உள்ளன, இதில் 12 மில்லியன் மற்றும் 9 மில்லியன் பாடல்களைக் கொண்ட இரண்டு பிரம்மாண்டமான தொகுப்புகளும் அடங்கும்.
- விதிமுறைகளைத் தவிர்த்தல்: டெவலப்பர்கள் YouTube மற்றும் Spotify பாதுகாப்புகளைத் தவிர்க்க தானியங்கி கருவிகளைப் பயன்படுத்துகின்றனர், இது படைப்பாளிகளின் விளம்பர வருவாய் மற்றும் சந்தா கட்டணங்களைச் செயல்திறன் மிக்க முறையில் பறிக்கிறது.
- நிறுவனப் பொறுப்புக்கூறல்: Google மற்றும் Stability AI உட்பட முக்கிய AI நிறுவனங்கள், தங்களது வெளியிடப்பட்ட ஆராய்ச்சிகளில் இந்தத் தரவுத்தொகுப்புகளின் பயன்பாட்டைச் சரிபார்த்துள்ளன.