חוקרי Nvidia מאפשרים לרובוטים להתאמן באופן עצמאי באמצעות סוכני תכנות AI

צוואר הבקבוק של איסוף נתונים ידני והתערבות אנושית מתמדת בתחום הרובוטיקה מקבל סוף סוף מענה. באמצעות שימוש בסוכני תכנות AI, חוקרים פיתחו מערכת שבה רובוטים יכולים לכתוב באופן אוטונומי את קוד האימון שלהם ולשפר את המיומנות שלהם בסביבות העולם האמיתי.

שבירת צוואר הבקבוק הידני באמצעות ENPIRE

באופן מסורתי, לימוד רובוט משימות מורכבות כמו אחיזה מיומנת דורש מהמהנדסים לאפס סצנות, לאסוף מאגרי נתונים ולכוונן אלגוריתמים באופן ידני. תהליך עתיר עבודה זה יוצר נקודת חיכוך עצומה בהרחבת האינטליגנציה הרובוטית. כדי לפתור זאת, חוקרים מ-Nvidia, אוניברסיטת Carnegie Mellon ו-UC Berkeley הציגו את ENPIRE, מסגרת עבודה (framework) שהופכת את תהליך האימון ללולאת משוב המזינה את עצמה.

במקום להמתין להוראות אנושיות, מערכת ENPIRE משתמשת בסוכני תכנות AI כדי לנהל את כל מחזור החיים: איפוס סביבת העבודה, ביצוע אסטרטגיית תנועה, הערכת התוצאה וביצוע איטרציה מיידית על הקוד כדי לשפר את הביצועים. זה מעביר את הרובוטיקה ממצב של "human-in-the-loop" למצב של "agent-in-the-loop".

כיצד סוכני תכנות אוטונומיים מניעים מיומנות

מסגרת ENPIRE פועלת בשני שלבים נפרדים. בשלב הראשון, הסוכן מקים סביבת עבודה תוך שימוש בהדרכה אנושית מינימלית — לעיתים קרובות רק כמה דקות של וידאו המציג ניסיונות מוצלחים וכושלים. באופן מכריע, הסוכן כותב את פונקציות התגמול (reward functions) שלו בעצמו. לדוגמה, במהלך משימות הכנסת סיכה, הסוכן פיתח בדיקה מותאמת אישית המשלבת יישור ויזואלי, גובה התפס (gripper) וכוח מוערך כדי לקבוע הצלחה.

בשלב השני, הסוכנים פועלים באוטונומיה מלאה. הם קוראים מאמרים מחקריים, מנסחים היפותזות ועורכים את קוד האימון ישירות. הם יכולים לבחור בין שיטות כמו behavior cloning (חיקוי תנועה אנושית) או reinforcement learning (למידת חיזוק - ניסוי וטעייה) בהתאם לגישה המניבה אותות טובים יותר בעולם האמיתי. במהלך הבדיקות, החוקרים השתמשו במודלים בעלי ביצועים גבוהים הכוללים את Codex (עם GPT-5.5), Claude Code (עם Opus 4.7) ו-Kimi Code (עם Kimi K2.6), כאשר Codex הוכח כבעל הביצועים הטובים ביותר.

הרחבה באמצעות צי רובוטים מבוסס Git

אחד ההיבטים החדשניים ביותר במחקר זה הוא התיאום של צי של שמונה תחנות רובוט YAM בעלות זרוע כפולה. במקום לעבוד בבידוד, תחנות אלו פועלות כצוות מחקר מבוזר. הן משתפות את הממצאים שלהן, "מתכונים" מוצלחים והיפותזות שנכשלו באמצעות Git, כלי בקרת הגרסאות הסטנדרטי המשמש בהנדסת תוכנה.

גישה מבוססת-צי זו מניבה שיפורים משמעותיים בזמן:

פער המציאות: סימולציה מול חומרה

למרות פריצות דרך אלו, המחקר מדגיש את פער ה-"sim-to-real". בעוד שכל שלושת האגנטים שנבדקו פתרו את מבחן ה-Push-T בסימולציה, שניים מתוך שלושה נכשלו עם המעבר לחומרה פיזית בשל משתנים בלתי צפויים כמו חיכוך ודינמיקה של רובוטים. עם זאת, ENPIRE הפגין ביצועים עדיפים בסימולציית RoboCasa בהשוואה למודלים קיימים כמו GR00T.

ככל שהתעשייה נעה לעבר רובוטיקה למטרות כלליות, היכולת של מכונות לבצע "מחקר עצמי" באמצעות קוד תהיה המפתח למעבר מעבר לתנועות צרות ומתכנתות מראש לעבר אינטליגנציה אמיתית וסתגלנית.

תובנות מרכזיות