חוקרי Nvidia מאפשרים לרובוטים לאמן את עצמם באמצעות סוכני קוד מבוססי AI

📅2 hours ago⏱3 min read

In this article

חוקרי Nvidia מאפשרים לרובוטים להתאמן באופן עצמאי באמצעות סוכני תכנות AI

צוואר הבקבוק של איסוף נתונים ידני והתערבות אנושית מתמדת בתחום הרובוטיקה מקבל סוף סוף מענה. באמצעות שימוש בסוכני תכנות AI, חוקרים פיתחו מערכת שבה רובוטים יכולים לכתוב באופן אוטונומי את קוד האימון שלהם ולשפר את המיומנות שלהם בסביבות העולם האמיתי.

שבירת צוואר הבקבוק הידני באמצעות ENPIRE

באופן מסורתי, לימוד רובוט משימות מורכבות כמו אחיזה מיומנת דורש מהמהנדסים לאפס סצנות, לאסוף מאגרי נתונים ולכוונן אלגוריתמים באופן ידני. תהליך עתיר עבודה זה יוצר נקודת חיכוך עצומה בהרחבת האינטליגנציה הרובוטית. כדי לפתור זאת, חוקרים מ-Nvidia, אוניברסיטת Carnegie Mellon ו-UC Berkeley הציגו את ENPIRE, מסגרת עבודה (framework) שהופכת את תהליך האימון ללולאת משוב המזינה את עצמה.

במקום להמתין להוראות אנושיות, מערכת ENPIRE משתמשת בסוכני תכנות AI כדי לנהל את כל מחזור החיים: איפוס סביבת העבודה, ביצוע אסטרטגיית תנועה, הערכת התוצאה וביצוע איטרציה מיידית על הקוד כדי לשפר את הביצועים. זה מעביר את הרובוטיקה ממצב של "human-in-the-loop" למצב של "agent-in-the-loop".

כיצד סוכני תכנות אוטונומיים מניעים מיומנות

מסגרת ENPIRE פועלת בשני שלבים נפרדים. בשלב הראשון, הסוכן מקים סביבת עבודה תוך שימוש בהדרכה אנושית מינימלית — לעיתים קרובות רק כמה דקות של וידאו המציג ניסיונות מוצלחים וכושלים. באופן מכריע, הסוכן כותב את פונקציות התגמול (reward functions) שלו בעצמו. לדוגמה, במהלך משימות הכנסת סיכה, הסוכן פיתח בדיקה מותאמת אישית המשלבת יישור ויזואלי, גובה התפס (gripper) וכוח מוערך כדי לקבוע הצלחה.

בשלב השני, הסוכנים פועלים באוטונומיה מלאה. הם קוראים מאמרים מחקריים, מנסחים היפותזות ועורכים את קוד האימון ישירות. הם יכולים לבחור בין שיטות כמו behavior cloning (חיקוי תנועה אנושית) או reinforcement learning (למידת חיזוק - ניסוי וטעייה) בהתאם לגישה המניבה אותות טובים יותר בעולם האמיתי. במהלך הבדיקות, החוקרים השתמשו במודלים בעלי ביצועים גבוהים הכוללים את Codex (עם GPT-5.5), Claude Code (עם Opus 4.7) ו-Kimi Code (עם Kimi K2.6), כאשר Codex הוכח כבעל הביצועים הטובים ביותר.

הרחבה באמצעות צי רובוטים מבוסס Git

אחד ההיבטים החדשניים ביותר במחקר זה הוא התיאום של צי של שמונה תחנות רובוט YAM בעלות זרוע כפולה. במקום לעבוד בבידוד, תחנות אלו פועלות כצוות מחקר מבוזר. הן משתפות את הממצאים שלהן, "מתכונים" מוצלחים והיפותזות שנכשלו באמצעות Git, כלי בקרת הגרסאות הסטנדרטי המשמש בהנדסת תוכנה.

גישה מבוססת-צי זו מניבה שיפורים משמעותיים בזמן:

מבחן Push-T: הגדלת המכסה מאגנט אחד לשמונה אגנטים הפחיתה את זמן ההשלמה מחמש שעות לשעתיים בלבד.
הכנסת סיכה (Pin Insertion): זמן השלמת המשימה ירד מיותר מ-90 דקות לכ-40 דקות.
שיעורי הצלחה: הצי השיג עד 99% הצלחה במשימות תובעניות, כולל מיון סיכות וחיתוך אזירונים (cable ties).

פער המציאות: סימולציה מול חומרה

למרות פריצות דרך אלו, המחקר מדגיש את פער ה-"sim-to-real". בעוד שכל שלושת האגנטים שנבדקו פתרו את מבחן ה-Push-T בסימולציה, שניים מתוך שלושה נכשלו עם המעבר לחומרה פיזית בשל משתנים בלתי צפויים כמו חיכוך ודינמיקה של רובוטים. עם זאת, ENPIRE הפגין ביצועים עדיפים בסימולציית RoboCasa בהשוואה למודלים קיימים כמו GR00T.

ככל שהתעשייה נעה לעבר רובוטיקה למטרות כלליות, היכולת של מכונות לבצע "מחקר עצמי" באמצעות קוד תהיה המפתח למעבר מעבר לתנועות צרות ומתכנתות מראש לעבר אינטליגנציה אמיתית וסתגלנית.

תובנות מרכזיות

איטרציה אוטונומית: ENPIRE מאפשר לרובוטים לכתוב את פונקציות התגמול (reward functions) וקוד האימון שלהם, מה שמפחית משמעותית את הצורך של מהנדסים אנושיים לאתחל סצנות או לבצע כיוונונים לאלגוריתמים.
למידה שיתופית: באמצעות שימוש ב-Git לשיתוף נתונים, צי של שמונה רובוטים יכול ללמוד יחד מהצלחות וכישלונות של זה ושל זה, מה שמאיץ בצורה דרסטית את לוח הזמנים של האימון.
מורכבות העולם האמיתי: בעוד שהמערכת משיגה עד 99% הצלחה במשימות ספציפיות, הטבע הבלתי צפוי של סביבות פיזיות נותר אתגר משמעותי בהשוואה לאימון בסימולציה.

חוקרי Nvidia מאפשרים לרובוטים לאמן את עצמם באמצעות סוכני קוד מבוססי AI

חוקרי Nvidia מאפשרים לרובוטים להתאמן באופן עצמאי באמצעות סוכני תכנות AI

שבירת צוואר הבקבוק הידני באמצעות ENPIRE

כיצד סוכני תכנות אוטונומיים מניעים מיומנות

הרחבה באמצעות צי רובוטים מבוסס Git

פער המציאות: סימולציה מול חומרה

תובנות מרכזיות

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

𝗧𝗵𝗲 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻𝗰𝗲 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸

𝗔𝗜 𝗦𝗲𝗹𝗳 𝗥𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻

How AI Flexibility Could Solve the Global Data Center Power Crunch

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁