باحثون من Nvidia يُمكّنون الروبوتات من التدريب الذاتي باستخدام وكلاء برمجة مدعومين بالذكاء الاصطناعي

📅2 hours ago⏱3 min read

In this article

باحثو Nvidia يُمكّنون الروبوتات من التدريب الذاتي باستخدام وكلاء البرمجة بالذكاء الاصطناعي

يتم أخيراً معالجة مشكلة عنق الزجاجة المتمثلة في جمع البيانات يدوياً والتدخل البشري المستمر في مجال الروبوتات. فمن خلال الاستفادة من وكلاء البرمجة بالذكاء الاصطناعي، طور الباحثون نظاماً يمكن للروبوتات من خلاله كتابة أكواد التدريب الخاصة بها بشكل مستقل وتحسين براعتها في بيئات العالم الحقيقي.

كسر عنق الزجاجة اليدوي باستخدام ENPIRE

تقليدياً، يتطلب تعليم الروبوت مهاماً معقدة مثل الإمساك الماهر (dexterous grasping) قيام المهندسين البشريين بإعادة ضبط المشاهد، وجمع مجموعات البيانات، وتعديل الخوارزميات يدوياً. وتخلق هذه العملية كثيفة العمالة نقطة احتكاك هائلة في توسيع نطاق الذكاء الروبوتي. ولحل هذه المشكلة، قدم باحثون من Nvidia وجامعة Carnegie Mellon وUC Berkeley إطار عمل ENPIRE، الذي يحول عملية التدريب إلى حلقة تغذية راجعة ذاتية الاستدامة.

بدلاً من انتظار التعليمات البشرية، يستخدم نظام ENPIRE وكلاء البرمجة بالذكاء الاصطناعي لإدارة دورة الحياة بأكملها: إعادة ضبط مساحة العمل، وتنفيذ استراتيجية الحركة، وتقييم النتيجة، والتكرار الفوري على الكود لتحسين الأداء. وهذا ينقل الروبوتات من نموذج "الإنسان في الحلقة" (human-in-the-loop) إلى نموذج "الوكيل في الحلقة" (agent-in-the-loop).

كيف تدفع وكلاء البرمجة المستقلة مهارة الروبوتات

يعمل إطار عمل ENPIRE في مرحلتين متميزتين. في المرحلة الأولى، يقوم الوكيل بإنشاء مساحة عمل باستخدام حد أدنى من التوجيه البشري - غالباً ما يكون مجرد بضع دقائق من الفيديو الذي يظهر المحاولات الناجحة والفاشلة. والأهم من ذلك، أن الوكيل يكتب وظائف المكافأة (reward functions) الخاصة به. على سبيل المثال، خلال مهام إدخال الدبوس، طور الوكيل فحصاً مخصصاً يجمع بين المحاذاة البصرية، وارتفاع القابض (gripper)، والقوة المقدرة لتحديد النجاح.

في المرحلة الثانية، يعمل الوكلاء باستقلالية تامة؛ حيث يقرؤون الأوراق البحثية، ويصيغون الفرضيات، ويعدلون كود التدريب مباشرة. ويمكنهم الاختيار بين أساليب مثل استنساخ السلوك (behavior cloning - محاكاة الحركة البشرية) أو التعلم المعزز (reinforcement learning - التجربة والخطأ) بناءً على أي نهج يحقق إشارات أفضل في العالم الحقيقي. وخلال الاختبار، استخدم الباحثون نماذج عالية الأداء تشمل Codex (مع GPT-5.5)، وClaude Code (مع Opus 4.7)، وKimi Code (مع Kimi K2.6)، حيث برز Codex كأفضل أداء.

التوسع عبر أسطول روبوتات مدعوم بـ Git

أحد أكثر الجوانب ابتكاراً في هذا البحث هو تنسيق أسطول مكون من ثماني محطات روبوتية YAM ثنائية الأذرع. فبدلاً من العمل في عزلة، تعمل هذه المحطات كفريق بحثي موزع؛ حيث تشارك نتائجها، و"الوصفات" الناجحة، والفرضيات الفاشلة باستخدام Git، وهي أداة التحكم في الإصدارات القياسية المستخدمة في هندسة البرمجيات.

يحقق هذا النهج القائم على الأسطول مكاسب زمنية هائلة:

اختبار Push-T: أدى التوسع من وكيل واحد إلى ثمانية وكلاء إلى تقليل وقت الإنجاز من خمس ساعات إلى ساعتين فقط.
إدخال الدبوس: انخفض وقت إنجاز المهمة من أكثر من 90 دقيقة إلى حوالي 40 دقيقة.
معدلات النجاح: حقق الأسطول نسبة نجاح تصل إلى 99% في المهام الصعبة، بما في ذلك فرز الدبابيس وقص روابط الكابلات.

فجوة الواقع: المحاكاة مقابل الأجهزة

على الرغم من هذه الاختراقات، يسلط البحث الضوء على فجوة "من المحاكاة إلى الواقع" (sim-to-real). فبينما نجح جميع الوكلاء الثلاثة المختبرين في حل اختبار Push-T في المحاكاة، فشل اثنان من أصل ثلاثة عند الانتقال إلى الأجهزة المادية بسبب متغيرات غير متوقعة مثل الاحتكاك وديناميكيات الروبوت. ومع ذلك، أظهر ENPIRE أداءً فائقاً في محاكاة RoboCasa مقارنة بالنماذج الراسخة مثل GR00T.

ومع توجه الصناعة نحو الروبوتات متعددة الأغراض، ستكون قدرة الآلات على "البحث الذاتي" من خلال الكود هي المفتاح للانتقال من الحركات الضيقة والمبرمجة مسبقاً إلى ذكاء حقيقي وقابل للتكيف.

أهم النتائج المستخلصة

التكرار الذاتي: يتيح ENPIRE للروبوتات كتابة دوال المكافأة وكود التدريب الخاص بها، مما يقلل بشكل كبير من حاجة المهندسين البشر لإعادة ضبط المشاهد أو تعديل الخوارزميات.
التعلم التعاوني: من خلال استخدام Git لمشاركة البيانات، يمكن لأسطول مكون من ثمانية روبوتات التعلم بشكل جماعي من نجاحات وإخفاقات بعضهم البعض، مما يسرع الجدول الزمني للتدريب بشكل كبير.
تعقيد العالم الحقيقي: بينما يحقق النظام نسبة نجاح تصل إلى 99% في مهام محددة، تظل الطبيعة غير المتوقعة للبيئات المادية تحدياً كبيراً مقارنة بالتدريب القائم على المحاكاة.

باحثون من Nvidia يُمكّنون الروبوتات من التدريب الذاتي باستخدام وكلاء برمجة مدعومين بالذكاء الاصطناعي

باحثو Nvidia يُمكّنون الروبوتات من التدريب الذاتي باستخدام وكلاء البرمجة بالذكاء الاصطناعي

كسر عنق الزجاجة اليدوي باستخدام ENPIRE

كيف تدفع وكلاء البرمجة المستقلة مهارة الروبوتات

التوسع عبر أسطول روبوتات مدعوم بـ Git

فجوة الواقع: المحاكاة مقابل الأجهزة

أهم النتائج المستخلصة

Continue reading

𝗧𝗵𝗲 𝗛𝘂𝗺𝗮𝗻 𝗶𝗻 𝘁𝗵𝗲 𝗟𝗼𝗼𝗽 𝗦𝗥𝗘

𝗧𝗵𝗲 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜 𝗚𝗼𝘃𝗲𝗿𝗻𝗮𝗻𝗰𝗲 𝗙𝗿𝗮𝗺𝗲𝘄𝗼𝗿𝗸

𝗔𝗜 𝗦𝗲𝗹𝗳 𝗥𝗲𝗳𝗹𝗲𝗰𝘁𝗶𝗼𝗻

كيف يمكن لمرونة الذكاء الاصطناعي أن تحل أزمة الطاقة العالمية في مراكز البيانات

كانت آلة القمار هي المغزى