The Atlantic Unveils Searchable Database of Music Used for AI Training

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 வாரங்களுக்கு முன்2min read

In this article

AI பயிற்சியில் பயன்படுத்தப்படும் இசை குறித்த தேடக்கூடிய தரவுத்தளத்தை The Atlantic வெளியிடுகிறது

உருவாக்கத் திறன் கொண்ட (generative) AI பயிற்சியில் நிலவி வந்த வெளிப்படைத்தன்மை இடைவெளியானது, ஒரு முக்கிய புலனாய்வு முயற்சியின் மூலம் இப்போது சரிசெய்யப்பட்டுள்ளது. செயற்கை நுண்ணறிவு மாதிரிகளால் (AI models) உள்வாங்கப்படும் பதிப்புரிமை பெற்ற இசையின் பிரம்மாண்டமான அளவை வெளிப்படுத்தும் வகையில், The Atlantic ஒரு பொதுவான, தேடக்கூடிய தரவுத்தளத்தைத் தொடங்கியுள்ளது.

பிரம்மாண்டமான தரவுத்தொகுப்புகளை வெளிப்படுத்துதல்: மில்லியன் கணக்கான பாடல்கள் அம்பலமாகின்றன

புலனாய்வு செய்தியாளர் Alex Reisner, தற்போது AI இசைப் பயிற்சியின் முதுகெலும்பாகச் செயல்படும் நான்கு முதன்மைத் தரவுத்தொகுப்புகளை (datasets) அடையாளம் கண்டுள்ளார். இந்தத் தரவுச் சேமிப்பகங்களின் அளவு வியக்கத்தக்கது: இரண்டு தரவுத்தொகுப்புகள் முறையே 12 மில்லியன் மற்றும் 9 மில்லியன் பாடல்களைக் கொண்டுள்ளன, அதே சமயம் இரண்டு சிறிய தொகுப்புகள் தலா 100,000-க்கும் மேற்பட்ட பாடல்களைக் கொண்டுள்ளன.

இந்தத் தகவல் வெளிப்பாடு, AI துறையில் உள்ள ஒரு முறையான சிக்கலைச் சுட்டிக்காட்டுகிறது; அதாவது, அசல் படைப்பாளிகளிடமிருந்து வெளிப்படையான அனுமதி பெறாமல், பெருமளவிலான ஊடகத் தரவுகள் பயிற்சித் தொகுப்புகளாகத் திரட்டப்படுகின்றன. இந்தத் தரவுத்தளம், Lady Gaga, Bruce Springsteen மற்றும் Radiohead போன்ற முதன்மை இசைப் பிரபலங்கள் முதல் Hainbach போன்ற சோதனை முயற்சிகளில் ஈடுபடும் இசையமைப்பாளர்கள் மற்றும் Aphex Twin போன்ற மின்னணு இசைக்கலைஞர்கள் வரையிலான பரந்த அளவிலான இசைத் திறமைகளை உள்ளடக்கிய இந்தத் தொகுப்புகளைத் தேடிக் கண்டறியப் பயனர்களுக்கு அனுமதிக்கிறது.

தொழில்நுட்பத் துளை: தளப் பாதுகாப்புகளைத் தவிர்த்தல்

பயிற்சித் தரவைப் பெறுவதற்காக AI மேம்பாட்டாளர்கள் பயன்படுத்தும் ஒரு நுணுக்கமான தொழில்நுட்பத் தந்திரத்தை இந்தத் கண்டுபிடிப்பு வெளிப்படுத்துகிறது. இந்தத் தரவுத்தொகுப்புகளில் பெரும்பாலானவை நேரடி ஆடியோ கோப்புகளைக் கொண்டிருக்கவில்லை, மாறாக YouTube மற்றும் Spotify போன்ற தளங்களுக்கான இணைப்புகளின் (links) பட்டியல்களாகவே உள்ளன.

இந்த இணைப்புகளைப் பயன்படுத்தக்கூடிய பயிற்சித் தரவாக மாற்ற, மேம்பாட்டாளர்கள் ஆடியோவை நேரடியாகப் பதிவிறக்கம் செய்ய வடிவமைக்கப்பட்ட தானியங்கி ஸ்கிராப்பிங் (scraping) கருவிகளைப் பயன்படுத்துகின்றனர். இந்தத் கருவிகள் லாகின் (login) முறைகளைத் தவிர்க்கவும், விளம்பரங்களைத் தவிர்க்கவும் மற்றும் படைப்பாளர்கள் தங்கள் படைப்புகளின் மூலம் வருமானம் ஈட்டுவதற்கு உதவும் சந்தா முறைகள் (subscription models) மற்றும் பேவால் (paywalls) போன்ற வழிமுறைகளைச் சுற்றியே செயல்படும் வகையில் பிரத்யேகமாக வடிவமைக்கப்பட்டுள்ளன. இந்தத் தரவுத்தொகுப்புகள் இணையத்தில் "கிடைக்கக்கூடியதாக" இருக்கலாம் என்றாலும், இவற்றைத் எடுக்கும் முறை பெரும்பாலும் அந்தத் தளங்களின் சேவை விதிமுறைகளை மீறுவதோடு, கலைஞர்களைப் பாதுகாக்கக் கொண்டுவரப்பட்ட டிஜிட்டல் உரிம மேலாண்மையையும் (DRM) சீர்குலைக்கிறது.

தொழில்முறை தாக்கங்கள் மற்றும் AI கண்காணிப்பாளர்

இந்தத் தரவு உட்கிரகிப்பின் (data ingestion) தாக்கம் வெறும் தத்துவார்த்தமானது அல்ல; முக்கியத் தொழில் துறை நிறுவனங்கள் ஏற்கனவே அதன் பயன்பாட்டை ஒப்புக்கொண்டுள்ளன. Google மற்றும் Stability AI ஆகிய இரண்டும் தங்களது அதிகாரப்பூர்வ ஆராய்ச்சித் தாள்களில் இந்தத் தரவுத்தொகுப்புகளின் (datasets) பயன்பாட்டை உறுதிப்படுத்தியுள்ளன. இந்த உறுதிப்படுத்தல், மல்டிமோடல் AI-ன் விரைவான முன்னேற்றத்திற்கும், அறிவுசார் சொத்துரிமையை (intellectual property) நிர்வகிக்கும் சட்டக் கட்டமைப்புகளுக்கும் இடையே அதிகரித்து வரும் பதற்றத்தை அடிக்கோடிட்டுக் காட்டுகிறது.

The Atlantic-ன் "AI Watchdog" தளத்தில் இந்தத் தகவலை வெளியிடுவதன் மூலம், இந்த வெளியீடு டெவலப்பர்கள், சட்ட வல்லுநர்கள் மற்றும் கலைஞர்கள் தங்களது அறிவுசார் சொத்து எவ்வாறு பயன்படுத்தப்படுகிறது என்பதைக் கண்காணிக்க ஒரு முக்கியமான கருவியைப் வழங்குகிறது. இந்த நடவடிக்கை, விவாதங்களை யூகங்களிலிருந்து அனுபவ ரீதியான ஆதாரங்களுக்கு மாற்றுகிறது; மேலும், இயந்திரக் கற்றல் (machine learning) காலத்தில் 'நியாயமான பயன்பாடு' (fair use) குறித்த வரவிருக்கும் பதிப்புரிமை வழக்குகள் மற்றும் ஒழுங்குமுறை விவாதங்களுக்குத் தேவையான அடித்தளத்தை வழங்குகிறது.

முக்கியக் குறிப்புகள்

மிகப்பெரிய அளவிலான உட்கிரகிப்பு: AI பயிற்சித் தரவுத்தொகுப்புகளில் மில்லியன் கணக்கான பாடல்கள் உள்ளன, இதில் 12 மில்லியன் மற்றும் 9 மில்லியன் பாடல்களைக் கொண்ட இரண்டு பிரம்மாண்டமான தொகுப்புகளும் அடங்கும்.
விதிமுறைகளைத் தவிர்த்தல்: டெவலப்பர்கள் YouTube மற்றும் Spotify பாதுகாப்புகளைத் தவிர்க்க தானியங்கி கருவிகளைப் பயன்படுத்துகின்றனர், இது படைப்பாளிகளின் விளம்பர வருவாய் மற்றும் சந்தா கட்டணங்களைச் செயல்திறன் மிக்க முறையில் பறிக்கிறது.
நிறுவனப் பொறுப்புக்கூறல்: Google மற்றும் Stability AI உட்பட முக்கிய AI நிறுவனங்கள், தங்களது வெளியிடப்பட்ட ஆராய்ச்சிகளில் இந்தத் தரவுத்தொகுப்புகளின் பயன்பாட்டைச் சரிபார்த்துள்ளன.

The Atlantic Unveils Searchable Database of Music Used for AI Training

AI பயிற்சியில் பயன்படுத்தப்படும் இசை குறித்த தேடக்கூடிய தரவுத்தளத்தை The Atlantic வெளியிடுகிறது

பிரம்மாண்டமான தரவுத்தொகுப்புகளை வெளிப்படுத்துதல்: மில்லியன் கணக்கான பாடல்கள் அம்பலமாகின்றன

தொழில்நுட்பத் துளை: தளப் பாதுகாப்புகளைத் தவிர்த்தல்

தொழில்முறை தாக்கங்கள் மற்றும் AI கண்காணிப்பாளர்

முக்கியக் குறிப்புகள்

Continue reading

AI நம்பிக்கை இடைவெளி: ஏன் 60% அமெரிக்க நுகர்வோர் AI செய்திகளை நிராகரிக்கிறார்கள்?

இணையத் தரவு உள்கட்டமைப்பின் எழுச்சி: AI-ன் அறிவுத் தடையைத் தீர்த்தல்

Tidal to Demonetize AI Music While Implementing New Labeling Rules

இடைவெளியைக் குறைத்தல்: AI வெற்றியின் ரகசியம் ஏன் செயல்முறைச் சிறப்பு?