AI প্রশিক্ষণের জন্য ব্যবহৃত সঙ্গীতের একটি অনুসন্ধানযোগ্য ডেটাবেস উন্মোচন করেছে The Atlantic
জেনারেটিভ AI প্রশিক্ষণের ক্ষেত্রে স্বচ্ছতার যে ঘাটতি ছিল, তা একটি যুগান্তকারী অনুসন্ধানী প্রচেষ্টার মাধ্যমে দূর করা হয়েছে। The Atlantic একটি প্রকাশ্য, অনুসন্ধানযোগ্য ডেটাবেস চালু করেছে যা কৃত্রিম বুদ্ধিমত্তা (AI) মডেলগুলোর দ্বারা ব্যবহৃত কপিরাইটযুক্ত সঙ্গীতের বিশাল পরিধি উন্মোচন করে।
বিশাল ডেটাসেট উন্মোচন: লক্ষ লক্ষ ট্র্যাক প্রকাশ
অনুসন্ধানী সাংবাদিক অ্যালেক্স রাইসনার (Alex Reisner) চারটি প্রাথমিক ডেটাসেট শনাক্ত করেছেন যা বর্তমানে AI মিউজিক ট্রেনিংয়ের মেরুদণ্ড হিসেবে কাজ করছে। এই রিপোজিটরিগুলোর পরিধি বিস্ময়কর: দুটি ডেটাসেটে যথাক্রমে ১২ মিলিয়ন এবং ৯ মিলিয়ন ট্র্যাক রয়েছে, যেখানে দুটি ছোট সেটে রয়েছে প্রতিটি ১০০,০০০-এর বেশি গান।
এই প্রকাশটি AI শিল্পে একটি পদ্ধতিগত সমস্যাকে তুলে ধরে যেখানে মূল নির্মাতাদের স্পষ্ট অনুমতি ছাড়াই বিপুল পরিমাণ মিডিয়াকে ট্রেনিং সেটে একত্রিত করা হয়। এই ডেটাবেসটি যে কাউকে এই সংগ্রহগুলো অনুসন্ধান করার সুযোগ দেয়, যার মধ্যে লেডি গাগা (Lady Gaga), ব্রুস স্প্রিংস্টিন (Bruce Springsteen) এবং রেডিওহেড (Radiohead)-এর মতো মূলধারার আইকন থেকে শুরু করে হেইনবাখ (Hainbach)-এর মতো পরীক্ষামূলক সুরকার এবং অ্যাপেক্স টুইন (Aphex Twin)-এর মতো ইলেকট্রনিক শিল্পীদের মতো বিশাল পরিসরের সঙ্গীত প্রতিভা অন্তর্ভুক্ত রয়েছে।
প্রযুক্তিগত ফাঁকফোকর: প্ল্যাটফর্মের সুরক্ষা ব্যবস্থা এড়িয়ে যাওয়া
এই আবিষ্কারটি AI ডেভেলপারদের প্রশিক্ষণ ডেটা সংগ্রহের জন্য ব্যবহৃত একটি অত্যাধুনিক প্রযুক্তিগত বিকল্প পথ (workaround) প্রকাশ করে। এই ডেটাসেটগুলোর বেশিরভাগই সরাসরি অডিও ফাইল নয়, বরং ইউটিউব (YouTube) এবং স্পটিফাই (Spotify)-এর মতো প্ল্যাটফর্মের লিঙ্কের তালিকা।
এই লিঙ্কগুলোকে ব্যবহারযোগ্য ট্রেনিং ডেটাতে রূপান্তর করতে, ডেভেলপাররা সরাসরি অডিও ডাউনলোড করার জন্য ডিজাইন করা স্বয়ংক্রিয় স্ক্র্যাপিং টুল ব্যবহার করেন। এই টুলগুলো বিশেষভাবে লগইন এড়িয়ে যেতে, বিজ্ঞাপন স্কিপ করতে এবং সাবস্ক্রিপশন মডেল ও পে-ওয়াল-এর মতো সেই পদ্ধতিগুলোকে পাশ কাটিয়ে যেতে তৈরি করা হয়েছে যা নির্মাতাদের তাদের কাজ থেকে অর্থ উপার্জনের সুযোগ দেয়। যদিও এই ডেটাসেটগুলো ইন্টারনেটে "সহজলভ্য" হতে পারে, তবে সংগ্রহের এই পদ্ধতিটি প্রায়শই হোস্টিং প্ল্যাটফর্মগুলোর ব্যবহারের শর্তাবলী (terms of service) লঙ্ঘন করে এবং শিল্পীদের সুরক্ষার জন্য নির্ধারিত ডিজিটাল রাইটস ম্যানেজমেন্ট (DRM)-কে ক্ষতিগ্রস্ত করে।
শিল্পের প্রভাব এবং AI ওয়াচডগ
এই ডেটা ইনজেশনের প্রভাব কেবল তাত্ত্বিক নয়; শিল্পের প্রধান খেলোয়াড়রা ইতিমধ্যেই এর ব্যবহার স্বীকার করেছেন। Google এবং Stability AI উভয়ই তাদের অফিসিয়াল রিসার্চ পেপারে এই ডেটাসেটগুলোর ব্যবহারের কথা নিশ্চিত করেছে। এই নিশ্চিতকরণ মাল্টিমোডাল AI-এর দ্রুত অগ্রগতি এবং বুদ্ধিবৃত্তিক সম্পদ (intellectual property) নিয়ন্ত্রণকারী আইনি কাঠামোর মধ্যে ক্রমবর্ধমান উত্তেজনার বিষয়টি স্পষ্ট করে তোলে।
The Atlantic-এর "AI Watchdog" সাইটে এই তথ্যটি হোস্ট করার মাধ্যমে, প্রকাশনাটি ডেভেলপার, আইনি বিশেষজ্ঞ এবং শিল্পীদের জন্য তাদের বুদ্ধিবৃত্তিক সম্পদ কীভাবে ব্যবহৃত হচ্ছে তা ট্র্যাক করার একটি গুরুত্বপূর্ণ সরঞ্জাম প্রদান করছে। এই পদক্ষেপটি আলোচনাকে অনুমান থেকে বাস্তব প্রমাণের দিকে নিয়ে যায়, যা মেশিন লার্নিংয়ের যুগে 'ফেয়ার ইউজ' (fair use) সংক্রান্ত আসন্ন কপিরাইট মামলা এবং নিয়ন্ত্রক বিতর্কের জন্য প্রয়োজনীয় ভিত্তি তৈরি করে।
মূল বিষয়সমূহ
- ইনজেশনের বিশাল স্কেল: AI ট্রেনিং ডেটাসেটে লক্ষ লক্ষ ট্র্যাক রয়েছে, যার মধ্যে ১২ মিলিয়ন এবং ৯ মিলিয়নের দুটি বিশাল গানের সেট অন্তর্ভুক্ত।
- শর্তাবলী এড়ানো: ডেভেলপাররা YouTube এবং Spotify-এর সুরক্ষা ব্যবস্থা এড়ানোর জন্য স্বয়ংক্রিয় টুল ব্যবহার করে, যা কার্যকরভাবে নির্মাতাদের বিজ্ঞাপন থেকে আয় এবং সাবস্ক্রিপশন ফি থেকে বঞ্চিত করে।
- কর্পোরেট জবাবদিহিতা: Google এবং Stability AI সহ প্রধান AI সংস্থাগুলো তাদের প্রকাশিত গবেষণায় এই ডেটাসেটগুলোর ব্যবহারের সত্যতা যাচাই করেছে।