NVIDIA Cosmos 3: روشی جدید برای هوش مصنوعی فیزیکی (Physical AI)
آموزش رباتها قبلاً دشوار بود. از مدلهای مجزای زیادی استفاده میشد. یکی برای بینایی. یکی برای برنامهریزی. یکی برای حرکت. این مدلها هنگام انتقال دادهها دچار خطا میشدند.
NVIDIA Cosmos 3 این مشکل را حل میکند. این یک مدل واحد برای همه کارهاست. استدلال و عمل را با هم مدیریت میکند.
این سیستم از دو برج (two towers) استفاده میکند.
برج Reasoner صحنه را درک میکند. به تصاویر و ویدئوها نگاه میکند. موقعیت اشیاء و حرکت آنها را پیدا میکند.
برج Generator خروجی را ایجاد میکند. ویدئو یا حرکات ربات را میسازد. برای اجرا به بافتار (context) ارائه شده توسط Reasoner نیاز دارد.
هر دو برج از یک سیستم کدگذاری سهبعدی (3D encoding) مشترک استفاده میکنند. این به مدل کمک میکند تا قوانین فیزیک را رعایت کند. مدل از وزن و اصطکاک آگاه است.
سه اندازه وجود دارد:
- Nano: برای ایستگاههای کاری (workstations).
- Super: برای مراکز داده (datacenters).
- Edge: برای خودروها و پهپادها.
موارد استفاده:
- پیشبینی اینکه آیا پشتهای از بلوکها سقوط میکند یا خیر.
- ایجاد دادههای آموزشی مصنوعی (synthetic).
- تولید دستورات موتور ربات.
وزنها و کدها در GitHub و Hugging Face موجود هستند.
محدودیتهایی نیز وجود دارد. به توان پردازشی زیادی نیاز دارد. دستیابی به سرعت بلادرنگ (real-time) همچنان دشوار است.
این مدل خط لولههای (pipelines) نامنظم را با یک پایه تمیز جایگزین میکند.
منبع: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi