Physical AI में महत्वपूर्ण डेटा बाधा (bottleneck) को हल करने के लिए XDOF का उदय
जैसे-जैसे OpenAI द्वारा अपने रोबोटिक्स प्रोग्राम को फिर से लॉन्च करने के साथ फिजिकल इंटेलिजेंस (physical intelligence) की दौड़ तेज हो रही है, एक नई चुनौती सामने आई है: हाई-फिडेलिटी (high-fidelity) ट्रेनिंग डेटा की कमी। जहाँ Large Language Models (LLMs) सार्वजनिक इंटरनेट के विशाल विस्तार पर फले-फूले, वहीं रोबोटिक्स के लिए सटीक, भौतिक संपर्क (physical interaction) डेटा की आवश्यकता होती है जो वर्तमान डेटासेट प्रदान नहीं कर सकते।
डेटा गैप: LLMs रोबोटिक्स की समस्या को क्यों हल नहीं करेंगे
सक्षम रोबोट विकसित करने में मुख्य बाधा केवल कंप्यूट या मॉडल आर्किटेक्चर नहीं है; बल्कि यह GPT मॉडलों के लिए उपयोग किए जाने वाले टेक्स्ट के समान एक "डेटा मोट" (data moat) की अनुपस्थिति है। वर्तमान विकल्प, जैसे कि YouTube वीडियो या गिग वर्कर्स द्वारा कैप्चर किए गए लो-फिडेलिटी फुटेज, रोबोटिक मूवमेंट की जटिल भौतिक वास्तविकताओं के साथ तालमेल बिठाना कठिन है। यह "मुर्गी और अंडे" वाली समस्या—मॉडलों को प्रशिक्षित करने के लिए डेटा की आवश्यकता है, लेकिन कुशल डेटा एकत्र करने के लिए मॉडलों की आवश्यकता है—उद्योग के लिए प्राथमिक बाधा बन गई है।
XDOF, एक स्टार्टअप जो स्टेल्थ मोड से बाहर आ रहा है, इसे हल करने के लिए खुद को इंफ्रास्ट्रक्चर लेयर के रूप में स्थापित कर रहा है। Thrive Capital, Spark Capital, a16z, Lux, और WndrCo सहित दिग्गज निवेशकों से $70 मिलियन जुटाने के बाद, कंपनी उन पाइपलाइनों, कलेक्शन टूल्स और एनोटेशन सिस्टम का निर्माण कर रही है जिन्हें फ्रंटियर AI लैब्स इन-हाउस बनाने के लिए संघर्ष कर रही हैं।
ABC डेटासेट और डेटा पिरामिड का निर्माण
इकोसिस्टम को गति देने के लिए, XDOF हाई-क्वालिटी रोबोट ट्रेनिंग डेटा के एक विशाल संग्रह "ABC" को रिलीज़ करने के लिए UC Berkeley की AI Research लैब के साथ साझेदारी कर रहा है। इस डेटासेट में शामिल हैं:
- 130,000 ट्राजेक्टरीज रोबोट मैनिपुलेशन डेटा की।
- 300 घंटे सिमुलेशन डेटा के।
- 100 घंटे इवैल्यूएशन (evaluations) के।
इस डेटा का उपयोग करके, टीमों ने टी-शर्ट मोड़ने, बक्सों को चपटा करने और AirPods को उनके केस में लोड करने जैसे नाजुक कार्यों पर रोबोट्स को सफलतापूर्वक प्रशिक्षित किया है।
XDOF की रणनीति व्यापक सीखने को सुनिश्चित करने के लिए तीन-स्तरीय "डेटा पिरामिड" का पालन करती है। सबसे मूल्यवान स्तर में सीधे लक्षित रोबोट पर एकत्र किया गया टेलीऑपरेशन (teleoperation) डेटा शामिल है। इसके बाद GELLO जैसे उपकरणों के माध्यम से एकत्र किया गया सामान्य डेटा आता है (GELLO एक कम लागत वाला टेलीऑपरेशन सिस्टम है जिसे XDOF के सह-संस्थापक Philippe Wu और Fred Shentu द्वारा विकसित किया गया है)। अंतिम स्तर में "एगोसेंट्रिक" (egocentric) डेटा शामिल है, जहाँ मनुष्य पहले व्यक्ति के भौतिक मूवमेंट (first-person physical movement) को कैप्चर करने के लिए XDOF के प्रोप्रायटरी सेंसर पहनकर रोजमर्रा के काम करते हैं।
Outscaling the Frontier Labs
A critical question for investors is why major AI labs aren't simply building these data factories themselves. According to CEO Philippe Wu, the operational complexity is immense. Running a data collection operation requires hundreds of thousands of square feet of warehouse space, hundreds of calibrated robots, and a massive, trained workforce of teleoperators.
By specializing in this "unglamorous" work—including data cleaning and hardware-specific calibration—XDOF allows AI labs to focus on model architecture while XDOF manages the massive logistical burden of physical data production. The company's name, a play on "degrees of freedom," reflects its goal to provide data for any arbitrary complexity of motion, from a human arm's seven degrees of freedom to a humanoid's 30.
Key Takeaways
- Infrastructure over Models: XDOF is addressing the "physical AI" bottleneck by providing the specialized data pipelines and annotation tools that LLM-centric labs lack.
- High-Fidelity Datasets: The release of the ABC dataset provides the industry with unprecedented scale, featuring 130,000 manipulation trajectories.
- Operational Outsourcing: XDOF enables frontier labs to bypass the massive capital and logistical requirements of managing large-scale physical data warehouses and teleoperation fleets.