پژوهشگران Nvidia امکان خودآموزی ربات‌ها را با استفاده از عوامل کدنویسی هوش مصنوعی فراهم کردند

گلوگاه جمع‌آوری دستی داده‌ها و مداخله مداوم انسان در رباتیک بالاخره در حال رفع شدن است. پژوهشگران با بهره‌گیری از عوامل کدنویسی هوش مصنوعی، سیستمی را توسعه داده‌اند که در آن ربات‌ها می‌توانند به‌طور خودکار کد آموزشی خود را بنویسند و مهارت‌های حرکتی خود را در محیط‌های واقعی بهبود بخشند.

شکستن گلوگاه‌های دستی با ENPIRE

به‌طور سنتی، آموزش وظایف پیچیده به ربات، مانند گرفتن ماهرانه اشیاء، مستلزم آن است که مهندسان انسانی صحنه‌ها را بازنشانی کنند، مجموعه‌داده‌ها را جمع‌آوری کنند و الگوریتم‌ها را به‌صورت دستی تنظیم نمایند. این فرآیند پرزحمت، یک نقطه اصطکاک بزرگ در مقیاس‌پذیری هوش رباتیک ایجاد می‌کند. برای حل این مشکل، پژوهشگران Nvidia، دانشگاه کارنگی ملون و دانشگاه یو‌سی برکلی، ENPIRE را معرفی کردند؛ چارچوبی که فرآیند آموزش را به یک حلقه بازخورد خودکفا تبدیل می‌کند.

سیستم ENPIRE به‌جای انتظار برای دستورات انسانی، از عوامل کدنویسی هوش مصنوعی برای مدیریت کل چرخه حیات استفاده می‌کند: بازنشانی فضای کاری، اجرای استراتژی حرکتی، ارزیابی نتیجه و تکرار فوری کد برای بهبود عملکرد. این امر رباتیک را از حالت «انسان در چرخه» (human-in-the-loop) به حالت «عامل در چرخه» (agent-in-the-loop) تغییر می‌دهد.

چگونه عوامل کدنویسی خودکار باعث افزایش مهارت حرکتی می‌شوند

چارچوب ENPIRE در دو مرحله متمایز عمل می‌کند. در مرحله اول، عامل با استفاده از حداقل راهنمایی انسانی — که اغلب تنها چند دقیقه ویدئو از تلاش‌های موفق و ناموفق است — یک فضای کاری ایجاد می‌کند. نکته حیاتی این است که عامل، توابع پاداش (reward functions) خود را می‌نویسد. برای مثال، در طول وظایف قرار دادن پین، عامل یک بررسی سفارشی را توسعه داد که ترکیبی از تراز بصری، ارتفاع گیره و نیروی تخمینی برای تعیین موفقیت بود.

در مرحله دوم، عوامل با خودمختاری کامل عمل می‌کنند. آن‌ها مقالات پژوهشی را می‌خوانند، فرضیه‌ها را تدوین می‌کنند و مستقیماً کد آموزشی را ویرایش می‌کنند. آن‌ها می‌توانند بر اساس اینکه کدام رویکرد سیگنال‌های دنیای واقعی بهتری ارائه می‌دهد، بین روش‌هایی مانند شبیه‌سازی رفتار (behavior cloning - تقلید از حرکت انسان) یا یادگیری تقویتی (reinforcement learning - آزمون و خطا) انتخاب کنند. در طول آزمایش‌ها، پژوهشگران از مدل‌های با کارایی بالا از جمله Codex (با GPT-5.5)، Claude Code (با Opus 4.7) و Kimi Code (با Kimi K2.6) استفاده کردند که در این میان Codex بهترین عملکرد را داشت.

مقیاس‌پذیری از طریق ناوگانی از ربات‌های مجهز به Git

یکی از نوآورانه‌ترین جنبه‌های این تحقیق، هماهنگی ناوگانی متشکل از هشت ایستگاه رباتیک دو بازوی YAM است. این ایستگاه‌ها به جای کار به صورت مجزا، مانند یک تیم تحقیقاتی توزیع‌شده عمل می‌کنند. آن‌ها یافته‌ها، «دستورالعمل‌های» موفق و فرضیه‌های شکست‌خورده خود را با استفاده از Git، ابزار استاندارد کنترل نسخه در مهندسی نرم‌افزار، به اشتراک می‌گذارند.

این رویکرد مبتنی بر ناوگان، باعث صرفه‌جویی زمانی عظیمی می‌شود:

شکاف واقعیت: شبیه‌سازی در مقابل سخت‌افزار

علیرغم این پیشرفت‌ها، این تحقیق بر شکاف «شبیه‌سازی به واقعیت» (sim-to-real) تأکید می‌کند. در حالی که هر سه عامل آزمایش‌شده، تست Push-T را در شبیه‌سازی حل کردند، دو مورد از آن‌ها هنگام انتقال به سخت‌افزار فیزیکی به دلیل متغیرهای غیرقابل پیش‌بینی مانند اصطکاک و دینامیک ربات شکست خوردند. با این حال، ENPIRE عملکرد برتری را در شبیه‌سازی RoboCasa نسبت به مدل‌های تثبیت‌شده‌ای مانند GR00T نشان داد.

با حرکت صنعت به سمت رباتیک همه‌منظوره، توانایی ماشین‌ها برای «خود-تحقیقی» از طریق کد، کلید عبور از حرکات محدود و از پیش برنامه‌ریزی‌شده به سمت هوش واقعی و تطبیق‌پذیر خواهد بود.

نکات کلیدی