ظهور XDOF لحل مشكلة عنق الزجاجة الحرجة للبيانات في الذكاء الاصطناعي الفيزيائي
مع اشتداد السباق نحو الذكاء الفيزيائي مع إعادة إطلاق OpenAI لبرنامج الروبوتات الخاص بها، ظهر تحدٍ جديد: نقص بيانات التدريب عالية الدقة. وبينما ازدهرت النماذج اللغوية الكبيرة (LLMs) بفضل الاتساع الهائل للإنترنت العام، تتطلب الروبوتات بيانات تفاعل فيزيائي دقيقة لا تستطيع مجموعات البيانات الحالية توفيرها ببساطة.
فجوة البيانات: لماذا لن تحل النماذج اللغوية الكبيرة (LLMs) مشكلة الروبوتات
إن العقبة الرئيسية في تطوير روبوتات قادرة لا تقتصر فقط على القدرة الحوسبية أو بنية النموذج؛ بل تكمن في غياب "خندق بيانات" (data moat) يضاهي النصوص المستخدمة في نماذج GPT. ومن الصعب التوفيق بين البدائل الحالية، مثل فيديوهات YouTube أو اللقطات منخفضة الدقة التي يلتقطها العاملون المستقلون، وبين الحقائق الفيزيائية المعقدة لحركة الروبوتات. لقد أصبحت مشكلة "البيضة والدجاجة" هذه — الحاجة إلى البيانات لتدريب النماذج، والحاجة إلى النماذج لجمع بيانات فعالة — هي عنق الزجاجة الرئيسي في هذه الصناعة.
وتضع XDOF، وهي شركة ناشئة تخرج من مرحلة العمل السري (stealth mode)، نفسها كطبقة بنية تحتية لحل هذه المشكلة. وبعد أن جمعت 70 مليون دولار من شركات كبرى تشمل Thrive Capital وSpark Capital وa16z وLux وWndrCo، تعمل الشركة على بناء خطوط الأنابيب (pipelines)، وأدوات الجمع، وأنظمة التعليق التوضيحي (annotation systems) التي تكافح مختبرات الذكاء الاصطناعي الرائدة لبنائها داخلياً.
بناء مجموعة بيانات ABC وهرم البيانات
ولتحفيز هذا النظام البيئي، تتعاون XDOF مع مختبر أبحاث الذكاء الاصطناعي في جامعة كاليفورنيا، بيركلي (UC Berkeley) لإصدار "ABC"، وهي مجموعة ضخمة من بيانات تدريب الروبوتات عالية الجودة. وتتضمن مجموعة البيانات هذه:
- 130,000 مساراً من بيانات معالجة الروبوتات.
- 300 ساعة من بيانات المحاكاة.
- 100 ساعة من التقييمات.
وباستخدام هذه البيانات، نجحت الفرق بالفعل في تدريب الروبوتات على مهام دقيقة مثل طي القمصان، وتسوية الصناديق، وإجراء عمليات حساسة مثل وضع سماعات AirPods في علبها.
تتبع استراتيجية XDOF "هرم بيانات" مكوناً من ثلاثة مستويات لضمان التعلم الشامل. يتضمن المستوى الأكثر قيمة بيانات التشغيل عن بُعد (teleoperation) التي يتم جمعها مباشرة على الروبوت المستهدف. يليه البيانات العامة التي يتم جمعها عبر أجهزة مثل GELLO (وهو نظام تشغيل عن بُعد منخفض التكلفة طوره مؤسسا XDOF، Philippe Wu وFred Shentu). أما المستوى الأخير فيتضمن البيانات "المركزية الذاتية" (egocentric)، حيث يؤدي البشر المهام اليومية أثناء ارتداء مستشعرات XDOF المملوكة للشركة لالتقاط الحركة الفيزيائية من منظور الشخص الأول.
تجاوز مختبرات الطليعة
يتمثل السؤال الجوهري للمستثمرين في لماذا لا تقوم مختبرات الذكاء الاصطناعي الكبرى ببساطة ببناء مصانع البيانات هذه بنفسها. ووفقاً للمدير التنفيذي فيليب وو، فإن التعقيد التشغيلي هائل؛ إذ تتطلب إدارة عملية جمع البيانات مئات الآلاف من الأقدام المربعة من مساحات المستودعات، ومئات الروبوتات المعايرة، وقوة عاملة ضخمة ومدربة من المشغلين عن بُعد.
من خلال التخصص في هذا العمل "غير البراق" — بما في ذلك تنظيف البيانات والمعايرة الخاصة بالأجهزة — تتيح XDOF لمختبرات الذكاء الاصطناعي التركيز على بنية النماذج، بينما تتولى XDOF إدارة العبء اللوجستي الهائل لإنتاج البيانات المادية. ويعكس اسم الشركة، وهو تلاعب لفظي بمصطلح "درجات الحرية" (degrees of freedom)، هدفها المتمثل في توفير بيانات لأي تعقيد عشوائي في الحركة، بدءاً من درجات الحرية السبع لذراع الإنسان وصولاً إلى 30 درجة للروبوتات البشرية (humanoid).
أهم النقاط المستخلصة
- البنية التحتية قبل النماذج: تعمل XDOF على معالجة عنق الزجاجة في "الذكاء الاصطناعي المادي" (physical AI) من خلال توفير مسارات البيانات المتخصصة وأدوات التعليق التوضيحي التي تفتقر إليها المختبرات التي تركز على LLM.
- مجموعات بيانات عالية الدقة: يوفر إصدار ABC dataset للصناعة نطاقاً غير مسبوق، حيث يضم 130,000 مسار من مسارات المناولة (manipulation trajectories).
- الاستعانة بمصادر خارجية للعمليات: تُمكّن XDOF مختبرات الطليعة من تجاوز المتطلبات الرأسمالية واللوجستية الضخمة لإدارة مستودعات البيانات المادية واسعة النطاق وأساطيل التشغيل عن بُعد.