AI శిక్షణ కోసం ఉపయోగించిన సంగీతానికి సంబంధించిన సెర్చబుల్ డేటాబేస్ను The Atlantic వెల్లడించింది
జనరేటివ్ AI శిక్షణలో ఉన్న పారదర్శకత లోపాన్ని ఒక చారిత్రాత్మక పరిశోధనాత్మక ప్రయత్నం అధిగమించింది. ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ మోడల్స్ ఎంత భారీ స్థాయిలో కాపీరైట్ చేయబడిన సంగీతాన్ని వినియోగిస్తున్నాయో బయటపెడుతూ, The Atlantic ఒక బహిరంగ, సెర్చబుల్ డేటాబేస్ను ప్రారంభించింది.
భారీ డేటాసెట్ల వెల్లడి: మిలియన్ల కొద్దీ ట్రాక్లు బయటపడ్డాయి
ఇన్వెస్టిగేటివ్ రిపోర్టర్ Alex Reisner, ప్రస్తుతం AI మ్యూజిక్ ట్రైనింగ్కు వెన్నెముకగా పనిచేస్తున్న నాలుగు ప్రధాన డేటాసెట్లను గుర్తించారు. ఈ రిపోజిటరీల పరిమాణం ఆశ్చర్యపరిచేలా ఉంది: రెండు డేటాసెట్లలో వరుసగా 12 మిలియన్లు మరియు 9 మిలియన్ల ట్రాక్లు ఉన్నాయి, అయితే రెండు చిన్న సెట్లలో ఒక్కొక్కటి 100,000 కంటే ఎక్కువ పాటలు ఉన్నాయి.
అసలు సృష్టికర్తల నుండి స్పష్టమైన అనుమతి లేకుండా భారీ మొత్తంలో మీడియాను శిక్షణ సెట్లుగా సమకూర్చుకుంటున్న AI పరిశ్రమలోని వ్యవస్థాగత సమస్యను ఈ వెల్లడి నొక్కి చెబుతోంది. ఈ డేటాబేస్ ద్వారా ఎవరైనా ఈ సేకరణలను వెతకవచ్చు. ఇందులో లేడీ గాగా, బ్రూస్ స్పింగ్స్టీన్ మరియు రేడియోహెడ్ వంటి మెయిన్స్ట్రీమ్ ఐకాన్స్ నుండి హేన్బాచ్ వంటి ప్రయోగాత్మక కంపోజర్లు మరియు అపెక్స్ ట్విన్ వంటి ఎలక్ట్రానిక్ కళాకారుల వరకు విస్తృత శ్రేణి సంగీత ప్రతిభావంతులు ఉన్నారు.
సాంకేతిక లూప్హోల్: ప్లాట్ఫారమ్ రక్షణలను అధిగమించడం
శిక్షణ డేటాను పొందడానికి AI డెవలపర్లు ఉపయోగించే ఒక అధునాతన సాంకేతిక ఉపాయాన్ని ఈ పరిశోధన వెల్లడించింది. ఈ డేటాసెట్లలో చాలా వరకు నేరుగా ఆడియో ఫైల్లుగా కాకుండా, YouTube మరియు Spotify వంటి ప్లాట్ఫారమ్ల లింక్ల జాబితాలుగా ఉన్నాయి.
ఈ లింక్లను ఉపయోగించదగిన శిక్షణ డేటాగా మార్చడానికి, డెవలపర్లు నేరుగా ఆడియోను డౌన్లోడ్ చేయడానికి రూపొందించిన ఆటోమేటెడ్ స్క్రాపింగ్ టూల్స్ను ఉపయోగిస్తారు. ఈ టూల్స్ ప్రత్యేకంగా లాగిన్లను దాటవేయడానికి, ప్రకటనలను స్కిప్ చేయడానికి మరియు సృష్టికర్తలు తమ పని ద్వారా ఆదాయాన్ని పొందేందుకు ఉపయోగపడే సబ్స్క్రిప్షన్ మోడల్స్ మరియు పేవాల్స్ వంటి యంత్రాంగాలను తప్పించుకోవడానికి రూపొందించబడ్డాయి. ఈ డేటాసెట్లు ఇంటర్నెట్లో "అందుబాటులో" ఉన్నప్పటికీ, వీటిని సేకరించే విధానం తరచుగా హోస్టింగ్ ప్లాట్ఫారమ్ల సేవా నిబంధనలను ఉల్లంఘిస్తుంది మరియు కళాకారులను రక్షించడానికి ఉద్దేశించిన డిజిటల్ రైట్స్ మేనేజ్మెంట్ (DRM)ను దెబ్బతీస్తుంది.
పరిశ్రమపై ప్రభావం మరియు AI వాచ్డాగ్
ఈ డేటా ఇంజెక్షన్ ప్రభావం కేవలం సిద్ధాంతపరమైనది మాత్రమే కాదు; పరిశ్రమలోని ప్రధాన సంస్థలు ఇప్పటికే దీని వినియోగాన్ని అంగీకరించాయి. Google మరియు Stability AI రెండూ తమ అధికారిక పరిశోధనా పత్రాలలో ఈ డేటాసెట్ల వినియోగాన్ని ధృవీకరించాయి. ఈ ధృవీకరణ, మల్టీమోడల్ AI యొక్క వేగవంతమైన పురోగతికి మరియు మేధో సంపత్తిని నియంత్రించే చట్టపరమైన నిబంధనలకు మధ్య పెరుగుతున్న ఉద్రిక్తతను నొక్కి చెబుతుంది.
The Atlantic యొక్క "AI Watchdog" సైట్లో ఈ సమాచారాన్ని ఉంచడం ద్వారా, డెవలపర్లు, చట్టపరమైన నిపుణులు మరియు కళాకారులు తమ మేధో సంపత్తి ఎలా వినియోగించబడుతుందో ట్రాక్ చేయడానికి ఈ ప్రచురణ ఒక కీలకమైన సాధనాన్ని అందిస్తోంది. ఈ చర్య చర్చను ఊహల నుండి వాస్తవ ఆధారాల వైపు మళ్లిస్తుంది, తద్వారా మెషిన్ లెర్నింగ్ యుగంలో 'ఫెయిర్ యూజ్' కి సంబంధించిన రాబోయే కాపీరైట్ వ్యాజ్యాలకు మరియు నియంత్రణ చర్చలకు అవసరమైన పునాదిని అందిస్తుంది.
ముఖ్య అంశాలు
- భారీ స్థాయిలో డేటా సేకరణ: AI శిక్షణ డేటాసెట్లలో మిలియన్ల కొద్దీ ట్రాక్లు ఉన్నాయి, వీటిలో 12 మిలియన్లు మరియు 9 మిలియన్ల పాటలతో కూడిన రెండు భారీ సెట్లు కూడా ఉన్నాయి.
- నిబంధనలను తప్పించుకోవడం: డెవలపర్లు YouTube మరియు Spotify రక్షణలను అధిగమించడానికి స్వయంచాలక సాధనాలను ఉపయోగిస్తున్నారు, ఇది సృష్టికర్తలకు రావలసిన ప్రకటనల ఆదాయం మరియు సబ్స్క్రిప్షన్ రుసుములను సమర్థవంతంగా దూరం చేస్తోంది.
- కార్పొరేట్ జవాబుదారీతనం: Google మరియు Stability AI తో సహా ప్రధాన AI సంస్థలు తమ ప్రచురించిన పరిశోధనలలో ఈ డేటాసెట్ల వినియోగాన్ని ధృవీకరించాయి.