NVIDIA Cosmos 3: Nowy sposób na Fizyczne AI

Trenowanie robotów było kiedyś trudne. Używano wielu oddzielnych modeli. Jeden do wizji. Jeden do planowania. Jeden do ruchu. Te modele popełniały błędy podczas przekazywania danych.

NVIDIA Cosmos 3 rozwiązuje ten problem. To jeden model do wszystkiego. Łączy rozumowanie i działanie.

System wykorzystuje dwie wieże.

Wieża Reasoner rozumie scenę. Analizuje obrazy i wideo. Wykrywa pozycje obiektów i ich ruch.

Wieża Generator tworzy wynik. Generuje wideo lub ruchy robota. Do działania potrzebuje kontekstu od modułu Reasoner.

Obie wieże korzystają ze wspólnego systemu kodowania 3D. Pomaga to modelowi przestrzegać praw fizyki. Model bierze pod uwagę wagę i tarcie.

Dostępne są trzy rozmiary:

  • Nano: Do stacji roboczych.
  • Super: Do centrów danych.
  • Edge: Do samochodów i dronów.

Zastosowania:

  • Przewidywanie, czy stos klocków się przewróci.
  • Tworzenie syntetycznych danych treningowych.
  • Generowanie poleceń silników robota.

Wagi i kod są dostępne na GitHub i Hugging Face.

Istnieją ograniczenia. Wymaga dużej mocy obliczeniowej. Praca w czasie rzeczywistym wciąż stanowi wyzwanie.

Zastępuje chaotyczne potoki czystą podstawą.

Źródło: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi