𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗙𝗶𝘇𝗶𝗸𝘀𝗲𝗹 𝗔𝗜 𝗜𝗰̧𝗶𝗻 𝗬𝗲𝗸𝗶 𝗬𝗼𝗹
Robot eğitimi eskiden zordu. Birçok ayrı model kullanılırdı. Biri görme için. Biri planlama için. Biri hareket için. Bu modeller veri aktarımı yaparken hatalar yapardı.
NVIDIA Cosmos 3 bunu düzeltiyor. Her şey için tek bir modeldir. Muhakeme ve eylemi birlikte yönetir.
Sistem iki kule (tower) kullanır.
Reasoner kulesi sahneyi anlar. Görüntülere ve videolara bakar. Nesne konumlarını ve hareketlerini tespit eder.
Generator kulesi çıktıyı oluşturur. Video veya robot hareketleri üretir. Çalışmak için reasoner'ın bağlamına ihtiyaç duyar.
Her iki kule de ortak bir 3D kodlama sistemi kullanır. Bu, modelin fizik yasalarına uymasına yardımcı olur. Ağırlık ve sürtünme hakkında bilgi sahibidir.
Üç farklı boyutu vardır:
- Nano: İş istasyonları için.
- Super: Veri merkezleri için.
- Edge: Arabalar ve dronlar için.
Kullanım durumları:
- Blok yığınının devrilip devrilmeyeceğini tahmin eder.
- Sentetik eğitim verileri oluşturur.
- Robot motor komutları üretir.
Ağırlıklar ve kod GitHub ve Hugging Face üzerindedir.
Sınırları vardır. Yüksek güç gerektirir. Gerçek zamanlı hız hala zorlayıcıdır.
Karmaşık pipeline'ların yerini temiz bir temel alır.
Kaynak: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi