NVIDIA Cosmos 3: Ein neuer Weg für Physikalische KI
Das Training von Robotern war früher schwierig. Man verwendete viele verschiedene Modelle. Eines für die Vision. Eines für die Planung. Eines für die Bewegung. Diese Modelle machten Fehler beim Datenaustausch.
NVIDIA Cosmos 3 löst dieses Problem. Es ist ein einziges Modell für alles. Es verarbeitet Reasoning und Handlungen gemeinsam.
Das System nutzt zwei Towers.
Der Reasoner-Tower versteht die Szene. Er analysiert Bilder und Videos. Er erkennt Objektpositionen und Bewegungen.
Der Generator-Tower erstellt die Ausgabe. Er erzeugt Videos oder Roboterbewegungen. Er benötigt den Kontext des Reasoners, um zu funktionieren.
Beide Towers teilen sich ein 3D-Kodierungssystem. Dies hilft dem Modell, den Gesetzen der Physik zu folgen. Es kennt Gewicht und Reibung.
Es gibt drei Größen:
- Nano: Für Workstations.
- Super: Für Rechenzentren.
- Edge: Für Autos und Drohnen.
Anwendungsfälle:
- Vorhersagen, ob ein Stapel Blöcke umfällt.
- Erstellen von synthetischen Trainingsdaten.
- Generieren von Roboter-Motorbefehlen.
Gewichte und Code sind auf GitHub und Hugging Face verfügbar.
Es gibt Grenzen. Es benötigt viel Rechenleistung. Echtzeit-Geschwindigkeit ist nach wie vor schwierig.
Es ersetzt unübersichtliche Pipelines durch eine saubere Basis.
Source: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f Optional learning community: https://t.me/GyaanSetuAi