এআই প্রশিক্ষণে ব্যবহৃত সঙ্গীতের একটি অনুসন্ধানযোগ্য ডেটাবেস উন্মোচন করেছে দ্য আটলান্টিক

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial২ সপ্তাহ আগে2min read

In this article

AI প্রশিক্ষণের জন্য ব্যবহৃত সঙ্গীতের একটি অনুসন্ধানযোগ্য ডেটাবেস উন্মোচন করেছে The Atlantic

জেনারেটিভ AI প্রশিক্ষণের ক্ষেত্রে স্বচ্ছতার যে ঘাটতি ছিল, তা একটি যুগান্তকারী অনুসন্ধানী প্রচেষ্টার মাধ্যমে দূর করা হয়েছে। The Atlantic একটি প্রকাশ্য, অনুসন্ধানযোগ্য ডেটাবেস চালু করেছে যা কৃত্রিম বুদ্ধিমত্তা (AI) মডেলগুলোর দ্বারা ব্যবহৃত কপিরাইটযুক্ত সঙ্গীতের বিশাল পরিধি উন্মোচন করে।

বিশাল ডেটাসেট উন্মোচন: লক্ষ লক্ষ ট্র্যাক প্রকাশ

অনুসন্ধানী সাংবাদিক অ্যালেক্স রাইসনার (Alex Reisner) চারটি প্রাথমিক ডেটাসেট শনাক্ত করেছেন যা বর্তমানে AI মিউজিক ট্রেনিংয়ের মেরুদণ্ড হিসেবে কাজ করছে। এই রিপোজিটরিগুলোর পরিধি বিস্ময়কর: দুটি ডেটাসেটে যথাক্রমে ১২ মিলিয়ন এবং ৯ মিলিয়ন ট্র্যাক রয়েছে, যেখানে দুটি ছোট সেটে রয়েছে প্রতিটি ১০০,০০০-এর বেশি গান।

এই প্রকাশটি AI শিল্পে একটি পদ্ধতিগত সমস্যাকে তুলে ধরে যেখানে মূল নির্মাতাদের স্পষ্ট অনুমতি ছাড়াই বিপুল পরিমাণ মিডিয়াকে ট্রেনিং সেটে একত্রিত করা হয়। এই ডেটাবেসটি যে কাউকে এই সংগ্রহগুলো অনুসন্ধান করার সুযোগ দেয়, যার মধ্যে লেডি গাগা (Lady Gaga), ব্রুস স্প্রিংস্টিন (Bruce Springsteen) এবং রেডিওহেড (Radiohead)-এর মতো মূলধারার আইকন থেকে শুরু করে হেইনবাখ (Hainbach)-এর মতো পরীক্ষামূলক সুরকার এবং অ্যাপেক্স টুইন (Aphex Twin)-এর মতো ইলেকট্রনিক শিল্পীদের মতো বিশাল পরিসরের সঙ্গীত প্রতিভা অন্তর্ভুক্ত রয়েছে।

প্রযুক্তিগত ফাঁকফোকর: প্ল্যাটফর্মের সুরক্ষা ব্যবস্থা এড়িয়ে যাওয়া

এই আবিষ্কারটি AI ডেভেলপারদের প্রশিক্ষণ ডেটা সংগ্রহের জন্য ব্যবহৃত একটি অত্যাধুনিক প্রযুক্তিগত বিকল্প পথ (workaround) প্রকাশ করে। এই ডেটাসেটগুলোর বেশিরভাগই সরাসরি অডিও ফাইল নয়, বরং ইউটিউব (YouTube) এবং স্পটিফাই (Spotify)-এর মতো প্ল্যাটফর্মের লিঙ্কের তালিকা।

এই লিঙ্কগুলোকে ব্যবহারযোগ্য ট্রেনিং ডেটাতে রূপান্তর করতে, ডেভেলপাররা সরাসরি অডিও ডাউনলোড করার জন্য ডিজাইন করা স্বয়ংক্রিয় স্ক্র্যাপিং টুল ব্যবহার করেন। এই টুলগুলো বিশেষভাবে লগইন এড়িয়ে যেতে, বিজ্ঞাপন স্কিপ করতে এবং সাবস্ক্রিপশন মডেল ও পে-ওয়াল-এর মতো সেই পদ্ধতিগুলোকে পাশ কাটিয়ে যেতে তৈরি করা হয়েছে যা নির্মাতাদের তাদের কাজ থেকে অর্থ উপার্জনের সুযোগ দেয়। যদিও এই ডেটাসেটগুলো ইন্টারনেটে "সহজলভ্য" হতে পারে, তবে সংগ্রহের এই পদ্ধতিটি প্রায়শই হোস্টিং প্ল্যাটফর্মগুলোর ব্যবহারের শর্তাবলী (terms of service) লঙ্ঘন করে এবং শিল্পীদের সুরক্ষার জন্য নির্ধারিত ডিজিটাল রাইটস ম্যানেজমেন্ট (DRM)-কে ক্ষতিগ্রস্ত করে।

শিল্পের প্রভাব এবং AI ওয়াচডগ

এই ডেটা ইনজেশনের প্রভাব কেবল তাত্ত্বিক নয়; শিল্পের প্রধান খেলোয়াড়রা ইতিমধ্যেই এর ব্যবহার স্বীকার করেছেন। Google এবং Stability AI উভয়ই তাদের অফিসিয়াল রিসার্চ পেপারে এই ডেটাসেটগুলোর ব্যবহারের কথা নিশ্চিত করেছে। এই নিশ্চিতকরণ মাল্টিমোডাল AI-এর দ্রুত অগ্রগতি এবং বুদ্ধিবৃত্তিক সম্পদ (intellectual property) নিয়ন্ত্রণকারী আইনি কাঠামোর মধ্যে ক্রমবর্ধমান উত্তেজনার বিষয়টি স্পষ্ট করে তোলে।

The Atlantic-এর "AI Watchdog" সাইটে এই তথ্যটি হোস্ট করার মাধ্যমে, প্রকাশনাটি ডেভেলপার, আইনি বিশেষজ্ঞ এবং শিল্পীদের জন্য তাদের বুদ্ধিবৃত্তিক সম্পদ কীভাবে ব্যবহৃত হচ্ছে তা ট্র্যাক করার একটি গুরুত্বপূর্ণ সরঞ্জাম প্রদান করছে। এই পদক্ষেপটি আলোচনাকে অনুমান থেকে বাস্তব প্রমাণের দিকে নিয়ে যায়, যা মেশিন লার্নিংয়ের যুগে 'ফেয়ার ইউজ' (fair use) সংক্রান্ত আসন্ন কপিরাইট মামলা এবং নিয়ন্ত্রক বিতর্কের জন্য প্রয়োজনীয় ভিত্তি তৈরি করে।

মূল বিষয়সমূহ

ইনজেশনের বিশাল স্কেল: AI ট্রেনিং ডেটাসেটে লক্ষ লক্ষ ট্র্যাক রয়েছে, যার মধ্যে ১২ মিলিয়ন এবং ৯ মিলিয়নের দুটি বিশাল গানের সেট অন্তর্ভুক্ত।
শর্তাবলী এড়ানো: ডেভেলপাররা YouTube এবং Spotify-এর সুরক্ষা ব্যবস্থা এড়ানোর জন্য স্বয়ংক্রিয় টুল ব্যবহার করে, যা কার্যকরভাবে নির্মাতাদের বিজ্ঞাপন থেকে আয় এবং সাবস্ক্রিপশন ফি থেকে বঞ্চিত করে।
কর্পোরেট জবাবদিহিতা: Google এবং Stability AI সহ প্রধান AI সংস্থাগুলো তাদের প্রকাশিত গবেষণায় এই ডেটাসেটগুলোর ব্যবহারের সত্যতা যাচাই করেছে।

এআই প্রশিক্ষণে ব্যবহৃত সঙ্গীতের একটি অনুসন্ধানযোগ্য ডেটাবেস উন্মোচন করেছে দ্য আটলান্টিক

AI প্রশিক্ষণের জন্য ব্যবহৃত সঙ্গীতের একটি অনুসন্ধানযোগ্য ডেটাবেস উন্মোচন করেছে The Atlantic

বিশাল ডেটাসেট উন্মোচন: লক্ষ লক্ষ ট্র্যাক প্রকাশ

প্রযুক্তিগত ফাঁকফোকর: প্ল্যাটফর্মের সুরক্ষা ব্যবস্থা এড়িয়ে যাওয়া

শিল্পের প্রভাব এবং AI ওয়াচডগ

মূল বিষয়সমূহ

Continue reading

এআই-এর প্রতি আস্থার অভাব: কেন ৬০% মার্কিন ভোক্তা এআই বার্তা প্রত্যাখ্যান করছেন

ওয়েব ডেটা ইনফ্রাস্ট্রাকচারের উত্থান: এআই-এর জ্ঞানগত প্রতিবন্ধকতা সমাধান

নতুন লেবেলিং নিয়ম কার্যকর করার পাশাপাশি Tidal এআই (AI) মিউজিক থেকে মনিটাইজেশন বন্ধ করতে যাচ্ছে

ব্যবধান পূরণ করা: কেন প্রসেস এক্সিলেন্স হলো এআই (AI) সাফল্যের চাবিকাঠি