𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜-এর জন্য একটি নতুন পথ
রোবট প্রশিক্ষণ দেওয়া আগে কঠিন ছিল। আপনাকে অনেকগুলো আলাদা মডেল ব্যবহার করতে হতো। একটি ভিশনের জন্য। একটি পরিকল্পনার জন্য। একটি চলাফেরার জন্য। ডেটা আদান-প্রদানের সময় এই মডেলগুলো ভুল করত।
NVIDIA Cosmos 3 এটি সমাধান করে। এটি সবকিছুর জন্য একটি মাত্র মডেল। এটি reasoning এবং action একসাথে পরিচালনা করে।
সিস্টেমটি দুটি টাওয়ার (tower) ব্যবহার করে।
Reasoner টাওয়ার দৃশ্যটি বুঝতে পারে। এটি ছবি এবং ভিডিও দেখে। এটি বস্তুর অবস্থান এবং গতিবিধি শনাক্ত করে।
Generator টাওয়ার আউটপুট তৈরি করে। এটি ভিডিও বা রোবটের মুভমেন্ট তৈরি করে। এটি চালানোর জন্য reasoner-এর context প্রয়োজন হয়।
উভয় টাওয়ার একটি 3D এনকোডিং সিস্টেম শেয়ার করে। এটি মডেলটিকে পদার্থবিজ্ঞানের নিয়ম মেনে চলতে সাহায্য করে। এটি ওজন এবং ঘর্ষণ সম্পর্কে জানে।
এর তিনটি সাইজ রয়েছে:
- Nano: ওয়ার্কস্টেশনের জন্য।
- Super: ডেটাসেন্টারের জন্য।
- Edge: গাড়ি এবং ড্রোনের জন্য।
ব্যবহারের ক্ষেত্রসমূহ:
- ব্লকের একটি স্তূপ পড়ে যাবে কি না তা অনুমান করা।
- সিন্থেটিক ট্রেনিং ডেটা তৈরি করা।
- রোবট মোটর কমান্ড তৈরি করা।
Weights এবং কোড GitHub এবং Hugging Face-এ পাওয়া যাচ্ছে।
এর কিছু সীমাবদ্ধতা রয়েছে। এর প্রচুর শক্তির প্রয়োজন। রিয়েল-টাইম গতি অর্জন করা এখনও কঠিন।
এটি অগোছালো পাইপলাইনগুলোকে একটি পরিচ্ছন্ন ভিত্তির মাধ্যমে প্রতিস্থাপন করে।
উৎস: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi