محققان انویدیا امکان خودآموزی ربات‌ها را با استفاده از عوامل کدنویسی هوش مصنوعی فراهم کردند

📅4 hours ago⏱3 min read

In this article

پژوهشگران Nvidia امکان خودآموزی ربات‌ها را با استفاده از عوامل کدنویسی هوش مصنوعی فراهم کردند

گلوگاه جمع‌آوری دستی داده‌ها و مداخله مداوم انسان در رباتیک بالاخره در حال رفع شدن است. پژوهشگران با بهره‌گیری از عوامل کدنویسی هوش مصنوعی، سیستمی را توسعه داده‌اند که در آن ربات‌ها می‌توانند به‌طور خودکار کد آموزشی خود را بنویسند و مهارت‌های حرکتی خود را در محیط‌های واقعی بهبود بخشند.

شکستن گلوگاه‌های دستی با ENPIRE

به‌طور سنتی، آموزش وظایف پیچیده به ربات، مانند گرفتن ماهرانه اشیاء، مستلزم آن است که مهندسان انسانی صحنه‌ها را بازنشانی کنند، مجموعه‌داده‌ها را جمع‌آوری کنند و الگوریتم‌ها را به‌صورت دستی تنظیم نمایند. این فرآیند پرزحمت، یک نقطه اصطکاک بزرگ در مقیاس‌پذیری هوش رباتیک ایجاد می‌کند. برای حل این مشکل، پژوهشگران Nvidia، دانشگاه کارنگی ملون و دانشگاه یو‌سی برکلی، ENPIRE را معرفی کردند؛ چارچوبی که فرآیند آموزش را به یک حلقه بازخورد خودکفا تبدیل می‌کند.

سیستم ENPIRE به‌جای انتظار برای دستورات انسانی، از عوامل کدنویسی هوش مصنوعی برای مدیریت کل چرخه حیات استفاده می‌کند: بازنشانی فضای کاری، اجرای استراتژی حرکتی، ارزیابی نتیجه و تکرار فوری کد برای بهبود عملکرد. این امر رباتیک را از حالت «انسان در چرخه» (human-in-the-loop) به حالت «عامل در چرخه» (agent-in-the-loop) تغییر می‌دهد.

چگونه عوامل کدنویسی خودکار باعث افزایش مهارت حرکتی می‌شوند

چارچوب ENPIRE در دو مرحله متمایز عمل می‌کند. در مرحله اول، عامل با استفاده از حداقل راهنمایی انسانی — که اغلب تنها چند دقیقه ویدئو از تلاش‌های موفق و ناموفق است — یک فضای کاری ایجاد می‌کند. نکته حیاتی این است که عامل، توابع پاداش (reward functions) خود را می‌نویسد. برای مثال، در طول وظایف قرار دادن پین، عامل یک بررسی سفارشی را توسعه داد که ترکیبی از تراز بصری، ارتفاع گیره و نیروی تخمینی برای تعیین موفقیت بود.

در مرحله دوم، عوامل با خودمختاری کامل عمل می‌کنند. آن‌ها مقالات پژوهشی را می‌خوانند، فرضیه‌ها را تدوین می‌کنند و مستقیماً کد آموزشی را ویرایش می‌کنند. آن‌ها می‌توانند بر اساس اینکه کدام رویکرد سیگنال‌های دنیای واقعی بهتری ارائه می‌دهد، بین روش‌هایی مانند شبیه‌سازی رفتار (behavior cloning - تقلید از حرکت انسان) یا یادگیری تقویتی (reinforcement learning - آزمون و خطا) انتخاب کنند. در طول آزمایش‌ها، پژوهشگران از مدل‌های با کارایی بالا از جمله Codex (با GPT-5.5)، Claude Code (با Opus 4.7) و Kimi Code (با Kimi K2.6) استفاده کردند که در این میان Codex بهترین عملکرد را داشت.

مقیاس‌پذیری از طریق ناوگانی از ربات‌های مجهز به Git

یکی از نوآورانه‌ترین جنبه‌های این تحقیق، هماهنگی ناوگانی متشکل از هشت ایستگاه رباتیک دو بازوی YAM است. این ایستگاه‌ها به جای کار به صورت مجزا، مانند یک تیم تحقیقاتی توزیع‌شده عمل می‌کنند. آن‌ها یافته‌ها، «دستورالعمل‌های» موفق و فرضیه‌های شکست‌خورده خود را با استفاده از Git، ابزار استاندارد کنترل نسخه در مهندسی نرم‌افزار، به اشتراک می‌گذارند.

این رویکرد مبتنی بر ناوگان، باعث صرفه‌جویی زمانی عظیمی می‌شود:

تست Push-T: افزایش مقیاس از یک به هشت عامل، زمان تکمیل را از پنج ساعت به تنها دو ساعت کاهش داد.
وارد کردن پین: زمان تکمیل وظیفه از بیش از ۹۰ دقیقه به حدود ۴۰ دقیقه کاهش یافت.
نرخ موفقیت: این ناوگان در وظایف دشوار، از جمله مرتب‌سازی پین‌ها و بریدن بست‌های کابل، به موفقیت تا ۹۹٪ دست یافت.

شکاف واقعیت: شبیه‌سازی در مقابل سخت‌افزار

علیرغم این پیشرفت‌ها، این تحقیق بر شکاف «شبیه‌سازی به واقعیت» (sim-to-real) تأکید می‌کند. در حالی که هر سه عامل آزمایش‌شده، تست Push-T را در شبیه‌سازی حل کردند، دو مورد از آن‌ها هنگام انتقال به سخت‌افزار فیزیکی به دلیل متغیرهای غیرقابل پیش‌بینی مانند اصطکاک و دینامیک ربات شکست خوردند. با این حال، ENPIRE عملکرد برتری را در شبیه‌سازی RoboCasa نسبت به مدل‌های تثبیت‌شده‌ای مانند GR00T نشان داد.

با حرکت صنعت به سمت رباتیک همه‌منظوره، توانایی ماشین‌ها برای «خود-تحقیقی» از طریق کد، کلید عبور از حرکات محدود و از پیش برنامه‌ریزی‌شده به سمت هوش واقعی و تطبیق‌پذیر خواهد بود.

نکات کلیدی

تکرار خودگردان: ENPIRE به ربات‌ها اجازه می‌دهد تا توابع پاداش و کدهای آموزشی خود را بنویسند، که نیاز مهندسان انسانی برای بازنشانی صحنه‌ها یا اصلاح الگوریتم‌ها را به میزان قابل توجهی کاهش می‌دهد.
یادگیری مشارکتی: با استفاده از Git برای اشتراک‌گذاری داده‌ها، یک ناوگان هشت رباتی می‌تواند به طور جمعی از موفقیت‌ها و شکست‌های یکدیگر بیاموزد و روند آموزش را به شدت تسریع کند.
پیچیدگی دنیای واقعی: اگرچه این سیستم در وظایف خاص به موفقیت تا ۹۹٪ دست می‌یابد، اما ماهیت غیرقابل پیش‌بینی محیط‌های فیزیکی در مقایسه با آموزش‌های شبیه‌سازی‌شده، همچنان یک چالش بزرگ باقی مانده است.

محققان انویدیا امکان خودآموزی ربات‌ها را با استفاده از عوامل کدنویسی هوش مصنوعی فراهم کردند

پژوهشگران Nvidia امکان خودآموزی ربات‌ها را با استفاده از عوامل کدنویسی هوش مصنوعی فراهم کردند

شکستن گلوگاه‌های دستی با ENPIRE

چگونه عوامل کدنویسی خودکار باعث افزایش مهارت حرکتی می‌شوند

مقیاس‌پذیری از طریق ناوگانی از ربات‌های مجهز به Git

شکاف واقعیت: شبیه‌سازی در مقابل سخت‌افزار

نکات کلیدی

Continue reading

SRE با حضور انسان در چرخه

چارچوب حاکمیت هوش مصنوعی عامل‌محور

𝗔𝗜 𝗦𝗲𝗹𝗳 𝗥𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻

چگونه انعطاف‌پذیری هوش مصنوعی می‌تواند بحران جهانی برق مراکز داده را حل کند

𝗧𝗵𝗲 𝗦𝗹𝗼𝘁 𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗪𝗮𝘀 𝘁𝗵𝗲 𝗣𝗼𝗶𝗻𝘁