NVIDIA Cosmos 3: דרך חדשה עבור Physical AI
אימון רובוטים היה פעם קשה. השתמשתם במודלים נפרדים רבים. אחד לראייה. אחד לתכנון. אחד לתנועה. המודלים הללו היו עושים טעויות בזמן העברת הנתונים.
NVIDIA Cosmos 3 פותר זאת. זהו מודל אחד לכל דבר. הוא מטפל בהסקה ובפעולה יחד.
המערכת משתמשת בשני מגדלים (towers).
מגדל ה-Reasoner מבין את הסצנה. הוא בוחן תמונות ווידאו. הוא מזהה מיקומי אובייקטים ותנועה.
מגדל ה-Generator יוצר את הפלט. הוא יוצר וידאו או תנועות רובוטיות. הוא זקוק להקשר (context) של ה-reasoner כדי לפעול.
שני המגדלים חולקים מערכת קידוד תלת-ממדית (3D encoding). זה עוזר למודל לפעול לפי חוקי הפיזיקה. הוא מודע למשקל ולחיכוך.
ישנם שלושה גדלים:
- Nano: לתחנות עבודה.
- Super: למרכזי נתונים.
- Edge: למכוניות וכטב"מים.
שימושים:
- חיזוי אם ערימת בלוקים תיפול.
- יצירת נתוני אימון סינתטיים.
- יצירת פקודות מנוע לרובוט.
המשקולות והקוד זמינים ב-GitHub וב-Hugging Face.
ישנן מגבלות. הוא דורש הרבה כוח מחשוב. מהירות בזמן אמת היא עדיין אתגר.
הוא מחליף תהליכי עבודה (pipelines) מסורבלים בבסיס נקי.
מקור: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f קהילת למידה אופציונלית: https://t.me/GyaanSetuAi