𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗡𝗷𝗶𝗮 𝗠𝗽𝘆𝗮 𝘆𝗮 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜
Mafunzo ya roboti yalikuwa magumu. Ulitumia mifano mingi tofauti. Moja kwa ajili ya uoni. Moja kwa ajili ya upangaji. Moja kwa ajili ya mwendo. Mifano hii ilifanya makosa wakati ilipokuwa ikipitisha data.
NVIDIA Cosmos 3 inatatua hili. Ni mfano mmoja kwa kila kitu. Inashughulikia uwezo wa kufikiri (reasoning) na vitendo kwa pamoja.
Mfumo huu unatumia minara miwili.
Mnara wa Reasoner unaelewa mazingira. Unatazama picha na video. Unapata nafasi za vitu na mwendo wake.
Mnara wa Generator unatengeneza matokeo. Unatengeneza video au mienendo ya roboti. Unahitaji muktadha wa reasoner ili kufanya kazi.
Minara yote miwili inatumia mfumo mmoja wa uwekaji nambari wa 3D (3D encoding system). Hii inasaidia mfano kufuata sheria za fizikia. Unajua kuhusu uzito na msuguano.
Kuna ukubwa tatu:
- Nano: Kwa ajili ya workstations.
- Super: Kwa ajili ya datacenters.
- Edge: Kwa ajili ya magari na ndege zisizo na rubani (drones).
Matumizi:
- Kutabiri ikiwa mrundikano wa vizuizi utaanguka.
- Kutengeneza data za mafunzo za bandia (synthetic training data).
- Kuzalisha amri za mota za roboti.
Uzito (weights) na kodi zipo kwenye GitHub na Hugging Face.
Kuna mipaka. Inahitaji nguvu nyingi. Kasi ya wakati halisi (real-time speed) bado ni changamoto.
Inachukua nafasi ya mifumo tata (messy pipelines) kwa msingi safi.
Chanzo: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f Jumuiya ya hiari ya kujifunza: https://t.me/GyaanSetuAi