پژوهشگران Nvidia امکان خودآموزی رباتها را با استفاده از عوامل کدنویسی هوش مصنوعی فراهم کردند
گلوگاه جمعآوری دستی دادهها و مداخله مداوم انسان در رباتیک بالاخره در حال رفع شدن است. پژوهشگران با بهرهگیری از عوامل کدنویسی هوش مصنوعی، سیستمی را توسعه دادهاند که در آن رباتها میتوانند بهطور خودکار کد آموزشی خود را بنویسند و مهارتهای حرکتی خود را در محیطهای واقعی بهبود بخشند.
شکستن گلوگاههای دستی با ENPIRE
بهطور سنتی، آموزش وظایف پیچیده به ربات، مانند گرفتن ماهرانه اشیاء، مستلزم آن است که مهندسان انسانی صحنهها را بازنشانی کنند، مجموعهدادهها را جمعآوری کنند و الگوریتمها را بهصورت دستی تنظیم نمایند. این فرآیند پرزحمت، یک نقطه اصطکاک بزرگ در مقیاسپذیری هوش رباتیک ایجاد میکند. برای حل این مشکل، پژوهشگران Nvidia، دانشگاه کارنگی ملون و دانشگاه یوسی برکلی، ENPIRE را معرفی کردند؛ چارچوبی که فرآیند آموزش را به یک حلقه بازخورد خودکفا تبدیل میکند.
سیستم ENPIRE بهجای انتظار برای دستورات انسانی، از عوامل کدنویسی هوش مصنوعی برای مدیریت کل چرخه حیات استفاده میکند: بازنشانی فضای کاری، اجرای استراتژی حرکتی، ارزیابی نتیجه و تکرار فوری کد برای بهبود عملکرد. این امر رباتیک را از حالت «انسان در چرخه» (human-in-the-loop) به حالت «عامل در چرخه» (agent-in-the-loop) تغییر میدهد.
چگونه عوامل کدنویسی خودکار باعث افزایش مهارت حرکتی میشوند
چارچوب ENPIRE در دو مرحله متمایز عمل میکند. در مرحله اول، عامل با استفاده از حداقل راهنمایی انسانی — که اغلب تنها چند دقیقه ویدئو از تلاشهای موفق و ناموفق است — یک فضای کاری ایجاد میکند. نکته حیاتی این است که عامل، توابع پاداش (reward functions) خود را مینویسد. برای مثال، در طول وظایف قرار دادن پین، عامل یک بررسی سفارشی را توسعه داد که ترکیبی از تراز بصری، ارتفاع گیره و نیروی تخمینی برای تعیین موفقیت بود.
در مرحله دوم، عوامل با خودمختاری کامل عمل میکنند. آنها مقالات پژوهشی را میخوانند، فرضیهها را تدوین میکنند و مستقیماً کد آموزشی را ویرایش میکنند. آنها میتوانند بر اساس اینکه کدام رویکرد سیگنالهای دنیای واقعی بهتری ارائه میدهد، بین روشهایی مانند شبیهسازی رفتار (behavior cloning - تقلید از حرکت انسان) یا یادگیری تقویتی (reinforcement learning - آزمون و خطا) انتخاب کنند. در طول آزمایشها، پژوهشگران از مدلهای با کارایی بالا از جمله Codex (با GPT-5.5)، Claude Code (با Opus 4.7) و Kimi Code (با Kimi K2.6) استفاده کردند که در این میان Codex بهترین عملکرد را داشت.
مقیاسپذیری از طریق ناوگانی از رباتهای مجهز به Git
یکی از نوآورانهترین جنبههای این تحقیق، هماهنگی ناوگانی متشکل از هشت ایستگاه رباتیک دو بازوی YAM است. این ایستگاهها به جای کار به صورت مجزا، مانند یک تیم تحقیقاتی توزیعشده عمل میکنند. آنها یافتهها، «دستورالعملهای» موفق و فرضیههای شکستخورده خود را با استفاده از Git، ابزار استاندارد کنترل نسخه در مهندسی نرمافزار، به اشتراک میگذارند.
این رویکرد مبتنی بر ناوگان، باعث صرفهجویی زمانی عظیمی میشود:
- تست Push-T: افزایش مقیاس از یک به هشت عامل، زمان تکمیل را از پنج ساعت به تنها دو ساعت کاهش داد.
- وارد کردن پین: زمان تکمیل وظیفه از بیش از ۹۰ دقیقه به حدود ۴۰ دقیقه کاهش یافت.
- نرخ موفقیت: این ناوگان در وظایف دشوار، از جمله مرتبسازی پینها و بریدن بستهای کابل، به موفقیت تا ۹۹٪ دست یافت.
شکاف واقعیت: شبیهسازی در مقابل سختافزار
علیرغم این پیشرفتها، این تحقیق بر شکاف «شبیهسازی به واقعیت» (sim-to-real) تأکید میکند. در حالی که هر سه عامل آزمایششده، تست Push-T را در شبیهسازی حل کردند، دو مورد از آنها هنگام انتقال به سختافزار فیزیکی به دلیل متغیرهای غیرقابل پیشبینی مانند اصطکاک و دینامیک ربات شکست خوردند. با این حال، ENPIRE عملکرد برتری را در شبیهسازی RoboCasa نسبت به مدلهای تثبیتشدهای مانند GR00T نشان داد.
با حرکت صنعت به سمت رباتیک همهمنظوره، توانایی ماشینها برای «خود-تحقیقی» از طریق کد، کلید عبور از حرکات محدود و از پیش برنامهریزیشده به سمت هوش واقعی و تطبیقپذیر خواهد بود.
نکات کلیدی
- تکرار خودگردان: ENPIRE به رباتها اجازه میدهد تا توابع پاداش و کدهای آموزشی خود را بنویسند، که نیاز مهندسان انسانی برای بازنشانی صحنهها یا اصلاح الگوریتمها را به میزان قابل توجهی کاهش میدهد.
- یادگیری مشارکتی: با استفاده از Git برای اشتراکگذاری دادهها، یک ناوگان هشت رباتی میتواند به طور جمعی از موفقیتها و شکستهای یکدیگر بیاموزد و روند آموزش را به شدت تسریع کند.
- پیچیدگی دنیای واقعی: اگرچه این سیستم در وظایف خاص به موفقیت تا ۹۹٪ دست مییابد، اما ماهیت غیرقابل پیشبینی محیطهای فیزیکی در مقایسه با آموزشهای شبیهسازیشده، همچنان یک چالش بزرگ باقی مانده است.