𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: طريقة جديدة للذكاء الاصطناعي الفيزيائي

كان تدريب الروبوتات أمراً صعباً. كنت تستخدم العديد من النماذج المنفصلة. نموذج للرؤية، وآخر للتخطيط، وثالث للحركة. كانت هذه النماذج ترتكب أخطاءً عند نقل البيانات فيما بينها.

يقوم NVIDIA Cosmos 3 بحل هذه المشكلة. فهو نموذج واحد لكل شيء. يتعامل مع الاستنتاج والعمل معاً.

يستخدم النظام "برجين" (two towers).

يقوم برج الاستنتاج (Reasoner tower) بفهم المشهد. فهو ينظر إلى الصور والفيديو. ويحدد مواقع الأجسام وحركتها.

يقوم برج التوليد (Generator tower) بإنشاء المخرجات. فهو يقوم بإنشاء الفيديو أو حركات الروبوت. ويحتاج إلى السياق الذي يوفره برج الاستنتاج ليعمل.

يتشارك البرجان نظام ترميز ثلاثي الأبعاد (3D encoding system). وهذا يساعد النموذج على اتباع قوانين الفيزياء. فهو يدرك مفاهيم الوزن والاحتكاك.

يتوفر بثلاثة أحجام:

  • Nano: لمحطات العمل.
  • Super: لمراكز البيانات.
  • Edge: للسيارات والطائرات بدون طيار.

حالات الاستخدام:

  • التنبؤ بما إذا كانت كومة من المكعبات ستسقط.
  • إنشاء بيانات تدريب اصطناعية.
  • توليد أوامر محركات الروبوت.

الأوزان (Weights) والكود متاحان على GitHub و Hugging Face.

هناك بعض القيود. فهو يتطلب طاقة كبيرة. كما أن السرعة في الوقت الفعلي (Real-time) لا تزال صعبة.

إنه يستبدل خطوط المعالجة (pipelines) المعقدة بقاعدة نظيفة.

المصدر: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi