باحثو Nvidia يُمكّنون الروبوتات من التدريب الذاتي باستخدام وكلاء البرمجة بالذكاء الاصطناعي
يتم أخيراً معالجة مشكلة عنق الزجاجة المتمثلة في جمع البيانات يدوياً والتدخل البشري المستمر في مجال الروبوتات. فمن خلال الاستفادة من وكلاء البرمجة بالذكاء الاصطناعي، طور الباحثون نظاماً يمكن للروبوتات من خلاله كتابة أكواد التدريب الخاصة بها بشكل مستقل وتحسين براعتها في بيئات العالم الحقيقي.
كسر عنق الزجاجة اليدوي باستخدام ENPIRE
تقليدياً، يتطلب تعليم الروبوت مهاماً معقدة مثل الإمساك الماهر (dexterous grasping) قيام المهندسين البشريين بإعادة ضبط المشاهد، وجمع مجموعات البيانات، وتعديل الخوارزميات يدوياً. وتخلق هذه العملية كثيفة العمالة نقطة احتكاك هائلة في توسيع نطاق الذكاء الروبوتي. ولحل هذه المشكلة، قدم باحثون من Nvidia وجامعة Carnegie Mellon وUC Berkeley إطار عمل ENPIRE، الذي يحول عملية التدريب إلى حلقة تغذية راجعة ذاتية الاستدامة.
بدلاً من انتظار التعليمات البشرية، يستخدم نظام ENPIRE وكلاء البرمجة بالذكاء الاصطناعي لإدارة دورة الحياة بأكملها: إعادة ضبط مساحة العمل، وتنفيذ استراتيجية الحركة، وتقييم النتيجة، والتكرار الفوري على الكود لتحسين الأداء. وهذا ينقل الروبوتات من نموذج "الإنسان في الحلقة" (human-in-the-loop) إلى نموذج "الوكيل في الحلقة" (agent-in-the-loop).
كيف تدفع وكلاء البرمجة المستقلة مهارة الروبوتات
يعمل إطار عمل ENPIRE في مرحلتين متميزتين. في المرحلة الأولى، يقوم الوكيل بإنشاء مساحة عمل باستخدام حد أدنى من التوجيه البشري - غالباً ما يكون مجرد بضع دقائق من الفيديو الذي يظهر المحاولات الناجحة والفاشلة. والأهم من ذلك، أن الوكيل يكتب وظائف المكافأة (reward functions) الخاصة به. على سبيل المثال، خلال مهام إدخال الدبوس، طور الوكيل فحصاً مخصصاً يجمع بين المحاذاة البصرية، وارتفاع القابض (gripper)، والقوة المقدرة لتحديد النجاح.
في المرحلة الثانية، يعمل الوكلاء باستقلالية تامة؛ حيث يقرؤون الأوراق البحثية، ويصيغون الفرضيات، ويعدلون كود التدريب مباشرة. ويمكنهم الاختيار بين أساليب مثل استنساخ السلوك (behavior cloning - محاكاة الحركة البشرية) أو التعلم المعزز (reinforcement learning - التجربة والخطأ) بناءً على أي نهج يحقق إشارات أفضل في العالم الحقيقي. وخلال الاختبار، استخدم الباحثون نماذج عالية الأداء تشمل Codex (مع GPT-5.5)، وClaude Code (مع Opus 4.7)، وKimi Code (مع Kimi K2.6)، حيث برز Codex كأفضل أداء.
التوسع عبر أسطول روبوتات مدعوم بـ Git
أحد أكثر الجوانب ابتكاراً في هذا البحث هو تنسيق أسطول مكون من ثماني محطات روبوتية YAM ثنائية الأذرع. فبدلاً من العمل في عزلة، تعمل هذه المحطات كفريق بحثي موزع؛ حيث تشارك نتائجها، و"الوصفات" الناجحة، والفرضيات الفاشلة باستخدام Git، وهي أداة التحكم في الإصدارات القياسية المستخدمة في هندسة البرمجيات.
يحقق هذا النهج القائم على الأسطول مكاسب زمنية هائلة:
- اختبار Push-T: أدى التوسع من وكيل واحد إلى ثمانية وكلاء إلى تقليل وقت الإنجاز من خمس ساعات إلى ساعتين فقط.
- إدخال الدبوس: انخفض وقت إنجاز المهمة من أكثر من 90 دقيقة إلى حوالي 40 دقيقة.
- معدلات النجاح: حقق الأسطول نسبة نجاح تصل إلى 99% في المهام الصعبة، بما في ذلك فرز الدبابيس وقص روابط الكابلات.
فجوة الواقع: المحاكاة مقابل الأجهزة
على الرغم من هذه الاختراقات، يسلط البحث الضوء على فجوة "من المحاكاة إلى الواقع" (sim-to-real). فبينما نجح جميع الوكلاء الثلاثة المختبرين في حل اختبار Push-T في المحاكاة، فشل اثنان من أصل ثلاثة عند الانتقال إلى الأجهزة المادية بسبب متغيرات غير متوقعة مثل الاحتكاك وديناميكيات الروبوت. ومع ذلك، أظهر ENPIRE أداءً فائقاً في محاكاة RoboCasa مقارنة بالنماذج الراسخة مثل GR00T.
ومع توجه الصناعة نحو الروبوتات متعددة الأغراض، ستكون قدرة الآلات على "البحث الذاتي" من خلال الكود هي المفتاح للانتقال من الحركات الضيقة والمبرمجة مسبقاً إلى ذكاء حقيقي وقابل للتكيف.
أهم النتائج المستخلصة
- التكرار الذاتي: يتيح ENPIRE للروبوتات كتابة دوال المكافأة وكود التدريب الخاص بها، مما يقلل بشكل كبير من حاجة المهندسين البشر لإعادة ضبط المشاهد أو تعديل الخوارزميات.
- التعلم التعاوني: من خلال استخدام Git لمشاركة البيانات، يمكن لأسطول مكون من ثمانية روبوتات التعلم بشكل جماعي من نجاحات وإخفاقات بعضهم البعض، مما يسرع الجدول الزمني للتدريب بشكل كبير.
- تعقيد العالم الحقيقي: بينما يحقق النظام نسبة نجاح تصل إلى 99% في مهام محددة، تظل الطبيعة غير المتوقعة للبيئات المادية تحدياً كبيراً مقارنة بالتدريب القائم على المحاكاة.