AI ತರಬೇತಿಗಾಗಿ ಬಳಸಲಾದ ಸಂಗೀತದ ಹುಡುಕಬಹುದಾದ ಡೇಟಾಬೇಸ್ ಅನ್ನು The Atlantic ಅನಾವರಣಗೊಳಿಸಿದೆ

ಜನರೇಟಿವ್ AI ತರಬೇತಿಯಲ್ಲಿನ ಪಾರದರ್ಶಕತೆಯ ಕೊರತೆಯನ್ನು ಒಂದು ಐತಿಹಾಸಿಕ ತನಿಖಾ ಪ್ರಯತ್ನವು ಈಗ ನಿವಾರಿಸಿದೆ. ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ (AI) ಮಾದರಿಗಳು ಬಳಸಿಕೊಳ್ಳುತ್ತಿರುವ ಕಾಪಿರೈಟ್ ಹೊಂದಿರುವ ಸಂಗೀತದ ಬೃಹತ್ ಪ್ರಮಾಣವನ್ನು ಬಹಿರಂಗಪಡಿಸುವ ಸಾರ್ವಜನಿಕ, ಹುಡುಕಬಹುದಾದ ಡೇಟಾಬೇಸ್ ಅನ್ನು The Atlantic ಪ್ರಾರಂಭಿಸಿದೆ.

ಬೃಹತ್ ಡೇಟಾಸೆಟ್‌ಗಳ ಅನಾವರಣ: ಲಕ್ಷಾಂತರ ಟ್ರ್ಯಾಕ್‌ಗಳು ಬಹಿರಂಗ

ತನಿಖಾ ವರದಿಗಾರ ಅಲೆಕ್ಸ್ ರೈಸ್ನರ್ ಅವರು ಪ್ರಸ್ತುತ AI ಸಂಗೀತ ತರಬೇತಿಗೆ ಬೆನ್ನೆಲುಬಾಗಿರುವ ನಾಲ್ಕು ಪ್ರಮುಖ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಗುರುತಿಸಿದ್ದಾರೆ. ಈ ಸಂಗ್ರಹಗಳ ಪ್ರಮಾಣವು ಬೆಚ್ಚಿಬೀಳಿಸುವಂತಿದೆ: ಎರಡು ಡೇಟಾಸೆಟ್‌ಗಳು ಕ್ರಮವಾಗಿ 1.2 ಕೋಟಿ (12 million) ಮತ್ತು 90 ಲಕ್ಷ (9 million) ಟ್ರ್ಯಾಕ್‌ಗಳನ್ನು ಹೊಂದಿದ್ದರೆ, ಉಳಿದ ಎರಡು ಸಣ್ಣ ಸೆಟ್‌ಗಳು ತಲಾ 1,00,000 ಕ್ಕೂ ಹೆಚ್ಚು ಹಾಡುಗಳನ್ನು ಹೊಂದಿವೆ.

ಈ ಬಹಿರಂಗಪಡಿಸುವಿಕೆಯು AI ಉದ್ಯಮದಲ್ಲಿನ ವ್ಯವಸ್ಥಿತ ಸಮಸ್ಯೆಯನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ, ಅಲ್ಲಿ ಮೂಲ ಸೃಷ್ಟಿಕರ್ತರಿಂದ ಸ್ಪಷ್ಟ ಅನುಮತಿಯಿಲ್ಲದೆ ಬೃಹತ್ ಪ್ರಮಾಣದ ಮಾಧ್ಯಮಗಳನ್ನು ತರಬೇತಿ ಸೆಟ್‌ಗಳಾಗಿ ಕ್ರೋಢೀಕರಿಸಲಾಗುತ್ತದೆ. ಈ ಡೇಟಾಬೇಸ್ ಯಾರೇ ಆದರೂ ಈ ಸಂಗ್ರಹಗಳನ್ನು ಹುಡುಕಲು ಅನುಮತಿಸುತ್ತದೆ. ಇದರಲ್ಲಿ ಲೇಡಿ ಗಾಗಾ, ಬ್ರೂಸ್ ಸ್ಪ್ರಿಂಗ್‌ಸ್ಟೀನ್ ಮತ್ತು ರೇಡಿಯೋಹೆಡ್‌ನಂತಹ ಮುಖ್ಯವಾಹಿನಿಯ ಐಕಾನ್‌ಗಳಿಂದ ಹಿಡಿದು ಹೈನ್ಬಾಕ್‌ನಂತಹ ಪ್ರಯೋಗಾತ್ಮಕ ಸಂಯೋಜಕರು ಮತ್ತು ಅಪೆಕ್ಸ್ ಟ್ವಿನ್‌ನಂತಹ ಎಲೆಕ್ಟ್ರಾನಿಕ್ ಕಲಾವಿದರವರೆಗಿನ ವ್ಯಾಪಕ ಸಂಗೀತ ಪ್ರತಿಭೆಗಳು ಸೇರಿವೆ.

ತಾಂತ್ರಿಕ ಲೋಪ: ಪ್ಲಾಟ್‌ಫಾರ್ಮ್ ರಕ್ಷಣೆಗಳನ್ನು ಬೈಪಾಸ್ ಮಾಡುವುದು

ಈ ಸಂಶೋಧನೆಯು ತರಬೇತಿ ಡೇಟಾವನ್ನು ಪಡೆಯಲು AI ಡೆವಲಪರ್‌ಗಳು ಬಳಸುವ ಅತ್ಯಾಧುನಿಕ ತಾಂತ್ರಿಕ ಉಪಾಯವನ್ನು ಬಹಿರಂಗಪಡಿಸುತ್ತದೆ. ಈ ಡೇಟಾಸೆಟ್‌ಗಳಲ್ಲಿ ಹೆಚ್ಚಿನವು ನೇರ ಆಡಿಯೋ ಫೈಲ್‌ಗಳ ಬದಲಾಗಿ YouTube ಮತ್ತು Spotify ನಂತಹ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗಳ ಲಿಂಕ್‌ಗಳ ಪಟ್ಟಿಯನ್ನು ಒಳಗೊಂಡಿವೆ.

ಈ ಲಿಂಕ್‌ಗಳನ್ನು ಬಳಸಬಹುದಾದ ತರಬೇತಿ ಡೇಟಾವಾಗಿ ಪರಿವರ್ತಿಸಲು, ಡೆವಲಪರ್‌ಗಳು ಆಡಿಯೋವನ್ನು ನೇರವಾಗಿ ಡೌನ್‌ಲೋಡ್ ಮಾಡಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಸ್ವಯಂಚಾಲಿತ ಸ್ಕ್ರೇಪಿಂಗ್ (scraping) ಪರಿಕರಗಳನ್ನು ಬಳಸುತ್ತಾರೆ. ಈ ಪರಿಕರಗಳನ್ನು ಲಾಗಿನ್‌ಗಳನ್ನು ಬೈಪಾಸ್ ಮಾಡಲು, ಜಾಹೀರಾತುಗಳನ್ನು ಬಿಡಲು ಮತ್ತು ಸೃಷ್ಟಿಕರ್ತರು ತಮ್ಮ ಕೆಲಸದಿಂದ ಹಣ ಗಳಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುವ ಸಬ್‌ಸ್ಕ್ರಿಪ್ಷನ್ ಮಾದರಿಗಳು ಮತ್ತು ಪೇವಾಲ್‌ಗಳಂತಹ (paywalls) ಕಾರ್ಯವಿಧಾನಗಳನ್ನು ತಪ್ಪಿಸಲು ನಿರ್ದಿಷ್ಟವಾಗಿ ರೂಪಿಸಲಾಗಿದೆ. ಈ ಡೇಟಾಸೆಟ್‌ಗಳು ಇಂಟರ್ನೆಟ್‌ನಲ್ಲಿ "ಲಭ್ಯ"ವಿರಬಹುದು, ಆದರೆ ಇವುಗಳನ್ನು ಹೊರತೆಗೆಯುವ ವಿಧಾನವು ಹೆಚ್ಚಾಗಿ ಹೋಸ್ಟಿಂಗ್ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗಳ ಸೇವಾ ನಿಯಮಗಳನ್ನು ಉಲ್ಲಂಘಿಸುತ್ತದೆ ಮತ್ತು ಕಲಾವಿದರನ್ನು ರಕ್ಷಿಸಲು ಉದ್ದೇಶಿಸಲಾದ ಡಿಜಿಟಲ್ ರೈಟ್ಸ್ ಮ್ಯಾನೇಜ್‌ಮೆಂಟ್ (DRM) ಅನ್ನು ದುರ್ಬಲಗೊಳಿಸುತ್ತದೆ.

ಉದ್ಯಮದ ಪರಿಣಾಮಗಳು ಮತ್ತು AI ವಾಚ್‌ಡಾಗ್

ಈ ಡೇಟಾ ಇಂಜೆಕ್ಷನ್‌ನ ಪರಿಣಾಮವು ಕೇವಲ ಸೈದ್ಧಾಂತಿಕವಾದುದಲ್ಲ; ಉದ್ಯಮದ ಪ್ರಮುಖ ಸಂಸ್ಥೆಗಳು ಈಗಾಗಲೇ ಇದರ ಬಳಕೆಯನ್ನು ಒಪ್ಪಿಕೊಂಡಿವೆ. Google ಮತ್ತು Stability AI ಎರಡೂ ತಮ್ಮ ಅಧಿಕೃತ ಸಂಶೋಧನಾ ಪ್ರಬಂಧಗಳಲ್ಲಿ ಈ ಡೇಟಾಸೆಟ್‌ಗಳ ಬಳಕೆಯನ್ನು ಖಚಿತಪಡಿಸಿವೆ. ಈ ದೃಢೀಕರಣವು ಮಲ್ಟಿಮೋಡಲ್ AI ನ ಕ್ಷಿಪ್ರ ಪ್ರಗತಿ ಮತ್ತು ಬೌದ್ಧಿಕ ಆಸ್ತಿಯನ್ನು ನಿಯಂತ್ರಿಸುವ ಕಾನೂನು ಚೌಕಟ್ಟುಗಳ ನಡುವೆ ಬೆಳೆಯುತ್ತಿರುವ ಉದ್ವಿಗ್ನತೆಯನ್ನು ಎತ್ತಿ ತೋರಿಸುತ್ತದೆ.

The Atlantic ನ "AI Watchdog" ಸೈಟ್‌ನಲ್ಲಿ ಈ ಮಾಹಿತಿಯನ್ನು ಪ್ರಕಟಿಸುವ ಮೂಲಕ, ಈ ಪ್ರಕಟಣೆಯು ಡೆವಲಪರ್‌ಗಳು, ಕಾನೂನು ತಜ್ಞರು ಮತ್ತು ಕಲಾವಿದರಿಗೆ ತಮ್ಮ ಬೌದ್ಧಿಕ ಆಸ್ತಿಯನ್ನು ಹೇಗೆ ಬಳಸಲಾಗುತ್ತಿದೆ ಎಂಬುದನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಒಂದು ನಿರ್ಣಾಯಕ ಸಾಧನವನ್ನು ಒದಗಿಸುತ್ತಿದೆ. ಈ ಕ್ರಮವು ಚರ್ಚೆಯನ್ನು ಕೇವಲ ಊಹಾಪೋಹಗಳಿಂದ ವಾಸ್ತವಿಕ ಪುರಾವೆಗಳತ್ತ ಸರಿಸುತ್ತದೆ, ಇದು ಮಷೀನ್ ಲರ್ನಿಂಗ್ ಯುಗದಲ್ಲಿ 'ಫೇರ್ ಯೂಸ್' (fair use) ಕುರಿತಾದ ಮುಂಬರುವ ಕಾಪಿರೈಟ್ ವ್ಯಾಜ್ಯಗಳು ಮತ್ತು ನಿಯಂತ್ರಕ ಚರ್ಚೆಗಳಿಗೆ ಅಗತ್ಯವಾದ ಅಡಿಪಾಯವನ್ನು ಒದಗಿಸುತ್ತದೆ.

ಪ್ರಮುಖ ಅಂಶಗಳು

  • ಬೃಹತ್ ಪ್ರಮಾಣದ ಇಂಜೆಕ್ಷನ್: AI ತರಬೇತಿ ಡೇಟಾಸೆಟ್‌ಗಳು ಲಕ್ಷಾಂತರ ಟ್ರ್ಯಾಕ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿವೆ, ಇದರಲ್ಲಿ 12 ಮಿಲಿಯನ್ ಮತ್ತು 9 ಮಿಲಿಯನ್ ಹಾಡುಗಳ ಎರಡು ಬೃಹತ್ ಸೆಟ್‌ಗಳು ಸೇರಿವೆ.
  • ನಿಯಮಗಳ ಉಲ್ಲಂಘನೆ: ಡೆವಲಪರ್‌ಗಳು YouTube ಮತ್ತು Spotify ರಕ್ಷಣೆಗಳನ್ನು ಬೈಪಾಸ್ ಮಾಡಲು ಸ್ವಯಂಚಾಲಿತ ಸಾಧನಗಳನ್ನು ಬಳಸುತ್ತಾರೆ, ಇದು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಸೃಷ್ಟಿಕರ್ತರಿಗೆ ಸಿಗಬೇಕಾದ ಜಾಹೀರಾತು ಆದಾಯ ಮತ್ತು ಚಂದಾದಾರಿಕೆ ಶುಲ್ಕಗಳನ್ನು ಕಸಿದುಕೊಳ್ಳುತ್ತದೆ.
  • ಕಾರ್ಪೊರೇಟ್ ಹೊಣೆಗಾರಿಕೆ: Google ಮತ್ತು Stability AI ಸೇರಿದಂತೆ ಪ್ರಮುಖ AI ಸಂಸ್ಥೆಗಳು ತಮ್ಮ ಪ್ರಕಟಿತ ಸಂಶೋಧನೆಗಳಲ್ಲಿ ಈ ಡೇಟಾಸೆಟ್‌ಗಳ ಬಳಕೆಯನ್ನು ದೃಢೀಕರಿಸಿವೆ.