The Atlantic Yafichua Kanzi-data Inayoweza Kutafutwa ya Muziki Unaotumika kwa Mafunzo ya AI
Pengo la uwazi katika mafunzo ya AI inayozalisha (generative AI) limevukwa hivi punde kupitia jitihada muhimu za uchunguzi. The Atlantic imezindua kanzi-data ya umma inayoweza kutafutwa ambayo inafichua ukubwa wa muziki wenye hakimiliki unaotumika na mifumo ya akili mnemba (AI).
Kufichua Kanzi-data Kubwa: Milioni ya Nyimbo Imefichuliwa
Mwandishi wa uchunguzi Alex Reisner amebaini kanzi-data nne kuu zinazotumika sasa kama uti wa mgongo wa mafunzo ya muziki ya AI. Ukubwa wa hizi ni wa kushangaza: kanzi-data mbili zina nyimbo milioni 12 na milioni 9, mtawalia, huku seti mbili ndogo zikiwa na zaidi ya nyimbo 100,000 kila moja.
Ufunuo huu unaangazia tatizo la kimfumo katika tasnia ya AI ambapo kiasi kikubwa cha vyombo vya habari hukusanywa katika seti za mafunzo bila ruhusa ya wazi kutoka kwa watayarishaji wa awali. Kanzi-data hiyo inamruhusu mtu yeyote kutafuta katika mkusanyiko huu, ambao unajumuisha wanamuziki wa aina mbalimbali kuanzia mastaa maarufu kama Lady Gaga, Bruce Springsteen, na Radiohead hadi watunzi wa majaribio kama Hainbach na wasanii wa muziki wa kielektroniki kama Aphex Twin.
Udhaifu wa Kiufundi: Kupita Kinga za Majukwaa
Ugunduzi huu unaonyesha mbinu ya kiufundi iliyobuniwa na watengenezaji wa AI ili kupata data za mafunzo. Kanzi-data nyingi kati ya hizi hazijajumuisha faili za sauti moja kwa moja bali ni orodha ya viungo (links) vya majukwaa kama YouTube na Spotify.
Ili kugeuza viungo hivi kuwa data zinazoweza kutumika kwa mafunzo, watengenezaji hutumia zana za kiotomatiki za scraping zilizoundwa kupakua sauti moja kwa moja. Zana hizi zimeundwa mahususi ili kupita mifumo ya kuingia (logins), kuruka matangazo, na kukwepa mifumo yenyewe—kama vile mifumo ya usajili na kuta za malipo (paywalls)—inayowaruhusu watayarishaji kupata kipato kutokana na kazi zao. Ingawa kanzi-data hizi zinaweza kuwa "zinapatikana" kwenye mtandao, mbinu ya kuzichukua mara nyingi inakiuka masharti ya huduma ya majukwaa yanayozihifadhi na kudhoofisha usimamizi wa haki za kidijitali (DRM) uliokusudiwa kuwalinda wasanii.
Athari kwa Tasnia na Msimamizi wa AI
Athari ya uingizaji huu wa data si ya kinadharia; wachezaji wakuu wa tasnia tayari wamekubali matumizi yake. Google na Stability AI wote wamethibitisha utumiaji wa seti hizi za data katika karatasi zao rasmi za utafiti. Thibitisho hili linasisitiza mvutano unaozidi kuongezeka kati ya maendeleo ya haraka ya AI ya multimodal na mifumo ya kisheria inayodhibiti miliki ya kiakili.
Kwa kuweka taarifa hizi kwenye tovuti ya "AI Watchdog" ya The Atlantic, chapisho hilo linatoa zana muhimu kwa watengenezaji, wataalamu wa sheria, na wasanii kufuatilia jinsi miliki yao ya kiakili inavyotumiwa. Hatua hii inahamisha mazungumzo kutoka kwenye uvumi kwenda kwenye ushahidi wa kulingana na uchunguzi, ikitoa msingi unaohitajika kwa kesi za hakimiliki zinazokuja na mijadala ya kikanuni kuhusu matumizi ya haki katika enzi ya ujifunzaji wa mashine.
Mambo Muhimu ya Kuzingatia
- Ukubwa wa Uingizaji: Seti za data za mafunzo ya AI zina nyimbo mamilioni, ikiwa ni pamoja na seti mbili kubwa za nyimbo milioni 12 na milioni 9.
- Kukwepa Masharti: Watengenezaji hutumia zana za kiotomatiki kukwepa ulinzi wa YouTube na Spotify, jambo linalowanyang'anya watayarishaji mapato ya matangazo na ada za usajili.
- Uwajibikaji wa Makampuni: Mashirika makubwa ya AI, ikiwa ni pamoja na Google na Stability AI, yamethibitisha utumiaji wa seti hizi za data katika utafiti wao uliochapishwa.