NVIDIA Cosmos 3: Physical AI కోసం ఒక కొత్త విధానం

రోబోట్ శిక్షణ (training) ఒకప్పుడు కష్టంగా ఉండేది. మీరు అనేక విడివిడి మోడళ్లను ఉపయోగించేవారు. ఒకటి విజన్ (vision) కోసం. ఒకటి ప్లానింగ్ (planning) కోసం. ఒకటి మూవ్‌మెంట్ (movement) కోసం. ఈ మోడళ్లు డేటాను ఒకదాని నుండి మరొకదానికి పంపేటప్పుడు తప్పులు చేసేవి.

NVIDIA Cosmos 3 దీనిని సరిచేస్తుంది. ఇది అన్నింటికీ ఒకే మోడల్. ఇది రీజనింగ్ (reasoning) మరియు యాక్షన్ (action) రెండింటినీ కలిపి నిర్వహిస్తుంది.

ఈ సిస్టమ్ రెండు టవర్లను (towers) ఉపయోగిస్తుంది.

Reasoner టవర్ దృశ్యాన్ని (scene) అర్థం చేసుకుంటుంది. ఇది చిత్రాలను మరియు వీడియోలను పరిశీలిస్తుంది. ఇది వస్తువుల స్థానాలను మరియు కదలికలను గుర్తిస్తుంది.

Generator టవర్ అవుట్‌పుట్‌ను సృష్టిస్తుంది. ఇది వీడియోలను లేదా రోబోట్ కదలికలను తయారు చేస్తుంది. ఇది పనిచేయడానికి Reasoner అందించే సందర్భం (context) అవసరం.

రెండు టవర్లు ఒకే 3D ఎన్‌కోడింగ్ సిస్టమ్‌ను పంచుకుంటాయి. ఇది మోడల్ భౌతిక శాస్త్ర నియమాలను (laws of physics) పాటించడంలో సహాయపడుతుంది. దీనికి బరువు మరియు ఘర్షణ (friction) గురించి తెలుసు.

ఇందులో మూడు పరిమాణాలు ఉన్నాయి:

  • Nano: వర్క్‌స్టేషన్ల కోసం.
  • Super: డేటాసెంటర్ల కోసం.
  • Edge: కార్లు మరియు డ్రోన్ల కోసం.

ఉపయోగించే సందర్భాలు (Use cases):

  • బ్లాక్‌ల కుప్ప పడిపోతుందో లేదో అంచనా వేయడం.
  • సింథటిక్ ట్రైనింగ్ డేటాను సృష్టించడం.
  • రోబోట్ మోటార్ కమాండ్లను రూపొందించడం.

Weights మరియు కోడ్ GitHub మరియు Hugging Faceలో అందుబాటులో ఉన్నాయి.

దీనికి కొన్ని పరిమితులు ఉన్నాయి. దీనికి చాలా శక్తి (power) అవసరం. రియల్-టైమ్ వేగం (Real-time speed) సాధించడం ఇంకా కష్టంగానే ఉంది.

ఇది గందరగోళంగా ఉండే పైప్‌లైన్‌లను ఒక స్పష్టమైన బేస్‌తో భర్తీ చేస్తుంది.

మూలం: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi