NVIDIA Cosmos 3: روشی جدید برای هوش مصنوعی فیزیکی (Physical AI)

آموزش ربات‌ها قبلاً دشوار بود. از مدل‌های مجزای زیادی استفاده می‌شد. یکی برای بینایی. یکی برای برنامه‌ریزی. یکی برای حرکت. این مدل‌ها هنگام انتقال داده‌ها دچار خطا می‌شدند.

NVIDIA Cosmos 3 این مشکل را حل می‌کند. این یک مدل واحد برای همه کارهاست. استدلال و عمل را با هم مدیریت می‌کند.

این سیستم از دو برج (two towers) استفاده می‌کند.

برج Reasoner صحنه را درک می‌کند. به تصاویر و ویدئوها نگاه می‌کند. موقعیت اشیاء و حرکت آن‌ها را پیدا می‌کند.

برج Generator خروجی را ایجاد می‌کند. ویدئو یا حرکات ربات را می‌سازد. برای اجرا به بافتار (context) ارائه شده توسط Reasoner نیاز دارد.

هر دو برج از یک سیستم کدگذاری سه‌بعدی (3D encoding) مشترک استفاده می‌کنند. این به مدل کمک می‌کند تا قوانین فیزیک را رعایت کند. مدل از وزن و اصطکاک آگاه است.

سه اندازه وجود دارد:

  • Nano: برای ایستگاه‌های کاری (workstations).
  • Super: برای مراکز داده (datacenters).
  • Edge: برای خودروها و پهپادها.

موارد استفاده:

  • پیش‌بینی اینکه آیا پشته‌ای از بلوک‌ها سقوط می‌کند یا خیر.
  • ایجاد داده‌های آموزشی مصنوعی (synthetic).
  • تولید دستورات موتور ربات.

وزن‌ها و کدها در GitHub و Hugging Face موجود هستند.

محدودیت‌هایی نیز وجود دارد. به توان پردازشی زیادی نیاز دارد. دستیابی به سرعت بلادرنگ (real-time) همچنان دشوار است.

این مدل خط لوله‌های (pipelines) نامنظم را با یک پایه تمیز جایگزین می‌کند.

منبع: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi