חוקרי Nvidia מאפשרים לרובוטים להתאמן באופן עצמאי באמצעות סוכני תכנות AI
צוואר הבקבוק של איסוף נתונים ידני והתערבות אנושית מתמדת בתחום הרובוטיקה מקבל סוף סוף מענה. באמצעות שימוש בסוכני תכנות AI, חוקרים פיתחו מערכת שבה רובוטים יכולים לכתוב באופן אוטונומי את קוד האימון שלהם ולשפר את המיומנות שלהם בסביבות העולם האמיתי.
שבירת צוואר הבקבוק הידני באמצעות ENPIRE
באופן מסורתי, לימוד רובוט משימות מורכבות כמו אחיזה מיומנת דורש מהמהנדסים לאפס סצנות, לאסוף מאגרי נתונים ולכוונן אלגוריתמים באופן ידני. תהליך עתיר עבודה זה יוצר נקודת חיכוך עצומה בהרחבת האינטליגנציה הרובוטית. כדי לפתור זאת, חוקרים מ-Nvidia, אוניברסיטת Carnegie Mellon ו-UC Berkeley הציגו את ENPIRE, מסגרת עבודה (framework) שהופכת את תהליך האימון ללולאת משוב המזינה את עצמה.
במקום להמתין להוראות אנושיות, מערכת ENPIRE משתמשת בסוכני תכנות AI כדי לנהל את כל מחזור החיים: איפוס סביבת העבודה, ביצוע אסטרטגיית תנועה, הערכת התוצאה וביצוע איטרציה מיידית על הקוד כדי לשפר את הביצועים. זה מעביר את הרובוטיקה ממצב של "human-in-the-loop" למצב של "agent-in-the-loop".
כיצד סוכני תכנות אוטונומיים מניעים מיומנות
מסגרת ENPIRE פועלת בשני שלבים נפרדים. בשלב הראשון, הסוכן מקים סביבת עבודה תוך שימוש בהדרכה אנושית מינימלית — לעיתים קרובות רק כמה דקות של וידאו המציג ניסיונות מוצלחים וכושלים. באופן מכריע, הסוכן כותב את פונקציות התגמול (reward functions) שלו בעצמו. לדוגמה, במהלך משימות הכנסת סיכה, הסוכן פיתח בדיקה מותאמת אישית המשלבת יישור ויזואלי, גובה התפס (gripper) וכוח מוערך כדי לקבוע הצלחה.
בשלב השני, הסוכנים פועלים באוטונומיה מלאה. הם קוראים מאמרים מחקריים, מנסחים היפותזות ועורכים את קוד האימון ישירות. הם יכולים לבחור בין שיטות כמו behavior cloning (חיקוי תנועה אנושית) או reinforcement learning (למידת חיזוק - ניסוי וטעייה) בהתאם לגישה המניבה אותות טובים יותר בעולם האמיתי. במהלך הבדיקות, החוקרים השתמשו במודלים בעלי ביצועים גבוהים הכוללים את Codex (עם GPT-5.5), Claude Code (עם Opus 4.7) ו-Kimi Code (עם Kimi K2.6), כאשר Codex הוכח כבעל הביצועים הטובים ביותר.
הרחבה באמצעות צי רובוטים מבוסס Git
אחד ההיבטים החדשניים ביותר במחקר זה הוא התיאום של צי של שמונה תחנות רובוט YAM בעלות זרוע כפולה. במקום לעבוד בבידוד, תחנות אלו פועלות כצוות מחקר מבוזר. הן משתפות את הממצאים שלהן, "מתכונים" מוצלחים והיפותזות שנכשלו באמצעות Git, כלי בקרת הגרסאות הסטנדרטי המשמש בהנדסת תוכנה.
גישה מבוססת-צי זו מניבה שיפורים משמעותיים בזמן:
- מבחן Push-T: הגדלת המכסה מאגנט אחד לשמונה אגנטים הפחיתה את זמן ההשלמה מחמש שעות לשעתיים בלבד.
- הכנסת סיכה (Pin Insertion): זמן השלמת המשימה ירד מיותר מ-90 דקות לכ-40 דקות.
- שיעורי הצלחה: הצי השיג עד 99% הצלחה במשימות תובעניות, כולל מיון סיכות וחיתוך אזירונים (cable ties).
פער המציאות: סימולציה מול חומרה
למרות פריצות דרך אלו, המחקר מדגיש את פער ה-"sim-to-real". בעוד שכל שלושת האגנטים שנבדקו פתרו את מבחן ה-Push-T בסימולציה, שניים מתוך שלושה נכשלו עם המעבר לחומרה פיזית בשל משתנים בלתי צפויים כמו חיכוך ודינמיקה של רובוטים. עם זאת, ENPIRE הפגין ביצועים עדיפים בסימולציית RoboCasa בהשוואה למודלים קיימים כמו GR00T.
ככל שהתעשייה נעה לעבר רובוטיקה למטרות כלליות, היכולת של מכונות לבצע "מחקר עצמי" באמצעות קוד תהיה המפתח למעבר מעבר לתנועות צרות ומתכנתות מראש לעבר אינטליגנציה אמיתית וסתגלנית.
תובנות מרכזיות
- איטרציה אוטונומית: ENPIRE מאפשר לרובוטים לכתוב את פונקציות התגמול (reward functions) וקוד האימון שלהם, מה שמפחית משמעותית את הצורך של מהנדסים אנושיים לאתחל סצנות או לבצע כיוונונים לאלגוריתמים.
- למידה שיתופית: באמצעות שימוש ב-Git לשיתוף נתונים, צי של שמונה רובוטים יכול ללמוד יחד מהצלחות וכישלונות של זה ושל זה, מה שמאיץ בצורה דרסטית את לוח הזמנים של האימון.
- מורכבות העולם האמיתי: בעוד שהמערכת משיגה עד 99% הצלחה במשימות ספציפיות, הטבע הבלתי צפוי של סביבות פיזיות נותר אתגר משמעותי בהשוואה לאימון בסימולציה.