NVIDIA Cosmos 3: דרך חדשה עבור Physical AI

אימון רובוטים היה פעם קשה. השתמשתם במודלים נפרדים רבים. אחד לראייה. אחד לתכנון. אחד לתנועה. המודלים הללו היו עושים טעויות בזמן העברת הנתונים.

NVIDIA Cosmos 3 פותר זאת. זהו מודל אחד לכל דבר. הוא מטפל בהסקה ובפעולה יחד.

המערכת משתמשת בשני מגדלים (towers).

מגדל ה-Reasoner מבין את הסצנה. הוא בוחן תמונות ווידאו. הוא מזהה מיקומי אובייקטים ותנועה.

מגדל ה-Generator יוצר את הפלט. הוא יוצר וידאו או תנועות רובוטיות. הוא זקוק להקשר (context) של ה-reasoner כדי לפעול.

שני המגדלים חולקים מערכת קידוד תלת-ממדית (3D encoding). זה עוזר למודל לפעול לפי חוקי הפיזיקה. הוא מודע למשקל ולחיכוך.

ישנם שלושה גדלים:

  • Nano: לתחנות עבודה.
  • Super: למרכזי נתונים.
  • Edge: למכוניות וכטב"מים.

שימושים:

  • חיזוי אם ערימת בלוקים תיפול.
  • יצירת נתוני אימון סינתטיים.
  • יצירת פקודות מנוע לרובוט.

המשקולות והקוד זמינים ב-GitHub וב-Hugging Face.

ישנן מגבלות. הוא דורש הרבה כוח מחשוב. מהירות בזמן אמת היא עדיין אתגר.

הוא מחליף תהליכי עבודה (pipelines) מסורבלים בבסיס נקי.

מקור: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f קהילת למידה אופציונלית: https://t.me/GyaanSetuAi