𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯 : 𝗨𝗻𝗲 𝗻𝗼𝘂𝘃𝗲𝗹𝗹𝗲 𝗮𝗽𝗽𝗿𝗼𝗰𝗵𝗲 𝗽𝗼𝘂𝗿 𝗹'𝗜𝗔 𝗽𝗵𝘆𝘀𝗶𝗾𝘂𝗲

L'entraînement des robots était autrefois difficile. On utilisait de nombreux modèles distincts. Un pour la vision. Un pour la planification. Un pour le mouvement. Ces modèles commettaient des erreurs lors du transfert de données.

NVIDIA Cosmos 3 corrige cela. C'est un modèle unique pour tout. Il gère conjointement le raisonnement et l'action.

Le système utilise deux tours.

La tour Reasoner comprend la scène. Elle analyse les images et les vidéos. Elle identifie la position et le mouvement des objets.

La tour Generator crée la sortie. Elle génère des vidéos ou des mouvements de robot. Elle a besoin du contexte du Reasoner pour fonctionner.

Les deux tours partagent un système d'encodage 3D. Cela aide le modèle à respecter les lois de la physique. Il prend en compte le poids et la friction.

Il existe trois tailles :

  • Nano : pour les stations de travail.
  • Super : pour les centres de données.
  • Edge : pour les voitures et les drones.

Cas d'utilisation :

  • Prédire si une pile de blocs va tomber.
  • Créer des données d'entraînement synthétiques.
  • Générer des commandes motrices pour robots.

Les poids et le code sont sur GitHub et Hugging Face.

Il y a des limites. Cela nécessite beaucoup de puissance. La vitesse en temps réel reste un défi.

Il remplace les pipelines désordonnés par une base propre.

Source: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi