𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜 𝗸𝗲 𝗹𝗶𝘆𝗲 𝗲𝗸 𝗻𝗮𝘆𝗮 𝘁𝗮𝗿𝗶𝗸𝗮

रोबोट ट्रेनिंग पहले काफी कठिन हुआ करती थी। इसके लिए कई अलग-अलग मॉडल्स का उपयोग किया जाता था। एक विज़न (vision) के लिए। एक प्लानिंग (planning) के लिए। एक मूवमेंट (movement) के लिए। जब ये मॉडल्स डेटा पास करते थे, तो इनमें गलतियाँ हो जाती थीं।

NVIDIA Cosmos 3 इसे ठीक करता है। यह सब कुछ के लिए एक ही मॉडल है। यह रीजनिंग (reasoning) और एक्शन (action) को एक साथ संभालता है।

सिस्टम दो टावर्स (towers) का उपयोग करता है।

Reasoner टावर सीन (scene) को समझता है। यह इमेज और वीडियो को देखता है। यह ऑब्जेक्ट्स की स्थिति और मोशन (motion) का पता लगाता है।

Generator टावर आउटपुट तैयार करता है। यह वीडियो या रोबोट के मूवमेंट बनाता है। इसे चलने के लिए reasoner के कॉन्टेक्स्ट (context) की आवश्यकता होती है।

दोनों टावर्स एक 3D एन्कोडिंग सिस्टम साझा करते हैं। यह मॉडल को भौतिकी के नियमों (laws of physics) का पालन करने में मदद करता है। यह वजन और घर्षण (friction) के बारे में जानता है।

इसके तीन साइज हैं:

  • Nano: वर्कस्टेशन के लिए।
  • Super: डेटासेंटर्स के लिए।
  • Edge: कारों और ड्रोन्स के लिए।

उपयोग के मामले (Use cases):

  • यह अनुमान लगाना कि क्या ब्लॉक्स का ढेर गिर जाएगा।
  • सिंथेटिक ट्रेनिंग डेटा बनाना।
  • रोबोट मोटर कमांड जेनरेट करना।

Weights और कोड GitHub और Hugging Face पर उपलब्ध हैं।

इसकी कुछ सीमाएँ भी हैं। इसे बहुत अधिक पावर की आवश्यकता होती है। रियल-टाइम स्पीड अभी भी एक चुनौती है।

यह जटिल पाइपलाइनों की जगह एक साफ-सुथरा बेस प्रदान करता है।

Source: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f Optional learning community: https://t.me/GyaanSetuAi