𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜-க்கான ஒரு புதிய வழி
ரோபோக்களைப் பயிற்றுவிப்பது கடினமாக இருந்தது. நீங்கள் பல தனித்தனி மாதிரிகளைப் பயன்படுத்தினீர்கள். ஒன்று பார்வைக்காக (vision). ஒன்று திட்டமிடலுக்காக (planning). ஒன்று இயக்கத்திற்காக (movement). இந்த மாதிரிகள் தரவுகளைப் பரிமாறும்போது தவறுகளைச் செய்தன.
NVIDIA Cosmos 3 இதைச் சரிசெய்கிறது. இது அனைத்திற்கும் ஒரே மாதிரியாகும். இது பகுத்தறிவு (reasoning) மற்றும் செயல்பாடு (action) ஆகிய இரண்டையும் ஒன்றாகக் கையாள்கிறது.
இந்த அமைப்பு இரண்டு கோபுரங்களைப் (towers) பயன்படுத்துகிறது.
Reasoner கோபுரம் சூழலைப் புரிந்துகொள்கிறது. இது படங்கள் மற்றும் வீடியோக்களைப் பார்க்கிறது. இது பொருட்களின் இருப்பிடம் மற்றும் இயக்கத்தைக் கண்டறிகிறது.
Generator கோபுரம் வெளியீட்டை உருவாக்குகிறது. இது வீடியோ அல்லது ரோபோவின் இயக்கங்களை உருவாக்குகிறது. இது இயங்குவதற்கு Reasoner-இன் சூழல் (context) தேவைப்படுகிறது.
இரண்டு கோபுரங்களும் ஒரு 3D encoding முறையைப் பகிர்ந்து கொள்கின்றன. இது இயற்பியல் விதிகளுக்கு இணங்க மாதிரியைப் பின்பற்ற உதவுகிறது. இது எடை மற்றும் உராய்வு (friction) பற்றித் জানে.
இதில் மூன்று அளவுகள் உள்ளன:
- Nano: பணிநிலையங்களுக்கு (workstations).
- Super: தரவு மையங்களுக்கு (datacenters).
- Edge: கார்கள் மற்றும் ட்ரோன்களுக்கு (drones).
பயன்பாட்டு முறைகள் (Use cases):
- கட்டங்களின் அடுக்கு கீழே விழுமா என்று கணிக்க.
- செயற்கையான பயிற்சித் தரவை (synthetic training data) உருவாக்க.
- ரோபோ மோட்டார் கட்டளைகளை உருவாக்க.
Weights மற்றும் குறியீடுகள் (code) GitHub மற்றும் Hugging Face-இல் உள்ளன.
இதில் சில வரம்புகள் உள்ளன. இதற்கு அதிக ஆற்றல் தேவைப்படுகிறது. நிகழ்நேர வேகம் (real-time speed) இன்னும் சவாலாகவே உள்ளது.
இது குழப்பமான வழிமுறைகளுக்குப் (messy pipelines) பதிலாக ஒரு தெளிவான அடிப்படையை வழங்குகிறது.
Source: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f Optional learning community: https://t.me/GyaanSetuAi