Physical AI-তে ডেটার সংকট নিরসনে XDOF-এর আবির্ভাব

OpenAI তাদের রোবোটিক্স প্রোগ্রাম পুনরায় চালু করার ফলে ফিজিক্যাল ইন্টেলিজেন্সের (physical intelligence) প্রতিযোগিতা যখন তীব্র হচ্ছে, তখন একটি নতুন চ্যালেঞ্জ সামনে এসেছে: উচ্চ-মানের (high-fidelity) ট্রেনিং ডেটার অভাব। Large Language Models (LLMs) পাবলিক ইন্টারনেটের বিশাল ভাণ্ডার ব্যবহার করে সফল হলেও, রোবোটিক্সের জন্য প্রয়োজন সুনির্দিষ্ট এবং ভৌত মিথস্ক্রিয়া সংক্রান্ত ডেটা (physical interaction data), যা বর্তমান ডেটাসেটগুলো দিতে পারছে না।

ডেটার ঘাটতি: কেন LLM রোবোটিক্সের সমস্যার সমাধান করতে পারবে না

সক্ষম রোবট তৈরির ক্ষেত্রে প্রধান বাধা কেবল কম্পিউটেশন বা মডেল আর্কিটেকচার নয়; বরং GPT মডেলগুলোতে ব্যবহৃত টেক্সটের মতো কোনো "ডেটা মোয়াট" (data moat) বা ডেটার বিশাল ভাণ্ডারের অনুপস্থিতি। বর্তমানে বিকল্প হিসেবে ইউটিউব ভিডিও বা গিগ ওয়ার্কারদের তোলা নিম্ন-মানের ফুটেজ ব্যবহার করা হলেও, রোবোটিক মুভমেন্টের জটিল ভৌত বাস্তবতার সাথে সেগুলোর সমন্বয় করা কঠিন। এই "চিকেন-অ্যান্ড-এগ" (chicken-and-egg) সমস্যা—অর্থাৎ মডেল প্রশিক্ষণের জন্য ডেটা প্রয়োজন, আবার দক্ষ ডেটা সংগ্রহের জন্য মডেল প্রয়োজন—শিল্পক্ষেত্রে প্রধান প্রতিবন্ধক হয়ে দাঁড়িয়েছে।

স্টেলথ মোড থেকে বেরিয়ে আসা স্টার্টআপ XDOF এই সমস্যা সমাধানের জন্য নিজেকে একটি ইনফ্রাস্ট্রাকচার লেয়ার হিসেবে প্রতিষ্ঠিত করছে। Thrive Capital, Spark Capital, a16z, Lux এবং WndrCo-এর মতো বড় বড় বিনিয়োগকারী প্রতিষ্ঠান থেকে ৭০ মিলিয়ন ডলার সংগ্রহ করে কোম্পানিটি এমন পাইপলাইন, সংগ্রহ সরঞ্জাম এবং অ্যানোটেশন সিস্টেম তৈরি করছে যা ফ্রন্টিয়ার AI ল্যাবগুলো নিজেদের অভ্যন্তরীণভাবে তৈরি করতে হিমশিম খাচ্ছে।

ABC ডেটাসেট এবং ডেটা পিরামিড তৈরি করা

এই ইকোসিস্টেমকে গতিশীল করতে XDOF, UC Berkeley-র AI Research ল্যাবের সাথে অংশীদারিত্বের মাধ্যমে "ABC" নামে উচ্চ-মানের রোবট ট্রেনিং ডেটার একটি বিশাল সংগ্রহ প্রকাশ করছে। এই ডেটাসেটে রয়েছে:

এই ডেটা ব্যবহার করে গবেষক দলগুলো ইতিমধ্যে টি-শার্ট ভাঁজ করা, বক্স চ্যাপ্টা করা এবং AirPods কেস-এ রাখার মতো সূক্ষ্ম কাজের জন্য রোবটগুলোকে সফলভাবে প্রশিক্ষণ দিয়েছে।

ব্যাপক ও পূর্ণাঙ্গ শিক্ষা নিশ্চিত করতে XDOF-এর কৌশলটি একটি তিন-স্তরের "ডেটা পিরামিড" অনুসরণ করে। সবচেয়ে মূল্যবান স্তরটি হলো টার্গেট রোবটের মাধ্যমে সরাসরি সংগ্রহ করা টেলিয়পারেশন (teleoperation) ডেটা। এর পরে আসে GELLO-এর মতো ডিভাইসের মাধ্যমে সংগ্রহ করা সাধারণ ডেটা (GELLO হলো XDOF-এর সহ-প্রতিষ্ঠাতা Philippe Wu এবং Fred Shentu দ্বারা তৈরি একটি স্বল্পমূল্যের টেলিয়পারেশন সিস্টেম)। শেষ স্তরটি হলো "এগোসেন্ট্রিক" (egocentric) ডেটা, যেখানে মানুষ XDOF-এর নিজস্ব সেন্সর পরে দৈনন্দিন কাজ সম্পন্ন করে এবং এর মাধ্যমে ফার্স্ট-পারসন ভৌত মুভমেন্ট বা নড়াচড়া ক্যাপচার করা হয়।

ফ্রন্টিয়ার ল্যাবগুলোকে ছাড়িয়ে যাওয়া

বিনিয়োগকারীদের জন্য একটি গুরুত্বপূর্ণ প্রশ্ন হলো কেন প্রধান এআই (AI) ল্যাবগুলো নিজেরাই এই ডেটা ফ্যাক্টরিগুলো তৈরি করছে না। সিইও ফিলিপ উ-এর মতে, এর পরিচালনগত জটিলতা অত্যন্ত ব্যাপক। একটি ডেটা সংগ্রহের কার্যক্রম চালাতে লক্ষ লক্ষ বর্গফুট গুদামঘর, শত শত ক্যালিব্রেটেড রোবট এবং টেলিপারেটরদের একটি বিশাল ও প্রশিক্ষিত জনবল প্রয়োজন।

ডেটা ক্লিনিং এবং হার্ডওয়্যার-নির্দিষ্ট ক্যালিব্রেশনসহ এই "কম আকর্ষণীয়" কাজে বিশেষায়িত হওয়ার মাধ্যমে, XDOF এআই ল্যাবগুলোকে মডেল আর্কিটেকচারের ওপর মনোযোগ দিতে সাহায্য করে, যেখানে XDOF ভৌত ডেটা উৎপাদনের বিশাল লজিস্টিক বোঝা সামলায়। কোম্পানির নামটি "degrees of freedom"-এর ওপর ভিত্তি করে রাখা হয়েছে, যা মানুষের হাতের সাতটি 'degrees of freedom' থেকে শুরু করে হিউম্যানয়েডের ৩০টি 'degrees of freedom' পর্যন্ত যেকোনো ধরনের গতির জটিলতার জন্য ডেটা সরবরাহ করার লক্ষ্যকে প্রতিফলিত করে।

মূল বিষয়সমূহ