𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗳𝗼𝗿 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜

Translated for your language. Original lesen.

AI-assisted draft.

vor 2 Wochen1Min. Lesezeit

NVIDIA Cosmos 3: Ein neuer Weg für Physikalische KI

Das Training von Robotern war früher schwierig. Man verwendete viele verschiedene Modelle. Eines für die Vision. Eines für die Planung. Eines für die Bewegung. Diese Modelle machten Fehler beim Datenaustausch.

NVIDIA Cosmos 3 löst dieses Problem. Es ist ein einziges Modell für alles. Es verarbeitet Reasoning und Handlungen gemeinsam.

Das System nutzt zwei Towers.

Der Reasoner-Tower versteht die Szene. Er analysiert Bilder und Videos. Er erkennt Objektpositionen und Bewegungen.

Der Generator-Tower erstellt die Ausgabe. Er erzeugt Videos oder Roboterbewegungen. Er benötigt den Kontext des Reasoners, um zu funktionieren.

Beide Towers teilen sich ein 3D-Kodierungssystem. Dies hilft dem Modell, den Gesetzen der Physik zu folgen. Es kennt Gewicht und Reibung.

Es gibt drei Größen:

Nano: Für Workstations.
Super: Für Rechenzentren.
Edge: Für Autos und Drohnen.

Anwendungsfälle:

Vorhersagen, ob ein Stapel Blöcke umfällt.
Erstellen von synthetischen Trainingsdaten.
Generieren von Roboter-Motorbefehlen.

Gewichte und Code sind auf GitHub und Hugging Face verfügbar.

Es gibt Grenzen. Es benötigt viel Rechenleistung. Echtzeit-Geschwindigkeit ist nach wie vor schwierig.

Es ersetzt unübersichtliche Pipelines durch eine saubere Basis.

Source: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f Optional learning community: https://t.me/GyaanSetuAi

𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗳𝗼𝗿 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜

Weiterlesen

𝗔𝗜 𝗥𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 𝗔𝘀 𝗔𝗻 𝗘𝗾𝘂𝗶𝗹𝗶𝗯𝗿𝗶𝘂𝗺 𝗣𝗼𝗶𝗻𝘁

Einheitliche Belohnungsmodelle für KI

𝗡𝘃𝗶𝗱𝗶𝗮 𝗟𝗮𝘂𝗻𝗰𝗵𝗲𝘀 𝗡𝗲𝘄 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜 𝗧𝗼𝗼𝗹𝘀

𝗙𝗿𝗼𝗺 𝗖𝗵𝗮𝗼𝘀 𝘁𝗼 𝗖𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆: 𝗗𝗼𝗰𝗸𝗲𝗿 𝗳𝗼𝗿 𝗔𝗜 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗡𝗩𝗜𝗗𝗜𝗔 𝗕𝗿𝗶𝗻𝗴𝘀 𝗔𝗜 𝗜𝗻𝘁𝗼 𝗧𝗵𝗲 𝗥𝗲𝗮𝗹 𝗪𝗼𝗿𝗹𝗱