Physical AI मधील डेटाच्या गंभीर अडथळ्यावर उपाय शोधण्यासाठी XDOF समोर आले आहे

OpenAI ने आपला रोबोटिक्स प्रोग्राम पुन्हा सुरू केल्यामुळे फिजिकल इंटेलिजन्सची (physical intelligence) स्पर्धा तीव्र होत असताना, एक नवीन आव्हान समोर आले आहे: हाय-फिडेलिटी (high-fidelity) ट्रेनिंग डेटाचा अभाव. Large Language Models (LLMs) सार्वजनिक इंटरनेटवरील अफाट माहितीवर यशस्वी झाले असले तरी, रोबोटिक्ससाठी अचूक, भौतिक परस्परसंवादाच्या (physical interaction) डेटाची आवश्यकता असते, जो सध्याचे डेटासेट देऊ शकत नाहीत.

डेटातील तफावत: LLMs रोबोटिक्सची समस्या का सोडवू शकणार नाहीत

सक्षम रोबोट्स विकसित करण्यातील मुख्य अडथळा केवळ कॉम्प्युट किंवा मॉडेल आर्किटेक्चर नाही; तर GPT मॉडेल्ससाठी वापरल्या जाणाऱ्या मजकुराच्या तुलनेत "डेटा मोट" (data moat) उपलब्ध नसणे हा आहे. सध्याचे पर्याय, जसे की YouTube व्हिडिओ किंवा गिग वर्कर्सद्वारे (gig workers) टिपलेले कमी दर्जाचे फुटेज, रोबोटिक हालचालींच्या जटिल भौतिक वास्तवाशी जुळवून घेणे कठीण आहे. ही "चिकन-अँड-एग" (chicken-and-egg) समस्या—मॉडेल्सना प्रशिक्षित करण्यासाठी डेटाची गरज आहे, परंतु कार्यक्षम डेटा गोळा करण्यासाठी मॉडेल्सची गरज आहे—या उद्योगासाठी मुख्य अडथळा बनली आहे.

XDOF, एक स्टेल्थ मोडमधून (stealth mode) बाहेर पडणारे स्टार्टअप, यावर उपाय म्हणून स्वतःला इन्फ्रास्ट्रक्चर लेयर म्हणून प्रस्थापित करत आहे. Thrive Capital, Spark Capital, a16z, Lux आणि WndrCo यांसारख्या दिग्गज कंपन्यांकडून $70 दशलक्ष उभारल्यानंतर, ही कंपनी अशा पाइपलाइन्स, कलेक्शन टूल्स आणि अॅनोटेशन सिस्टम्स तयार करत आहे, ज्या प्रगत AI लॅब्सना स्वतःच्या स्तरावर (in-house) तयार करण्यासाठी संघर्ष करावा लागत आहे.

ABC डेटासेट आणि डेटा पिरामिड तयार करणे

या इकोसिस्टमला गती देण्यासाठी, XDOF 'ABC' नावाचा उच्च-गुणवत्तेचा रोबोट ट्रेनिंग डेटाचा एक मोठा संग्रह प्रदर्शित करण्यासाठी UC Berkeley च्या AI Research लॅबसोबत भागीदारी करत आहे. या डेटासेटमध्ये खालील गोष्टींचा समावेश आहे:

या डेटाचा वापर करून, टीम्सनी टी-शर्ट दुमडणे, बॉक्स सपाट करणे आणि AirPods त्यांच्या केसमध्ये लोड करणे यांसारख्या सूक्ष्म कामांसाठी रोबोट्सना यशस्वीरित्या प्रशिक्षित केले आहे.

XDOF ची रणनीती सर्वसमावेशक शिक्षण सुनिश्चित करण्यासाठी तीन स्तरांच्या "डेटा पिरामिड"चे अनुसरण करते. सर्वात मौल्यवान स्तर म्हणजे थेट लक्ष्यित रोबोटवर गोळा केलेला टेलिओपरेशन (teleoperation) डेटा. यानंतर GELLO सारख्या उपकरणांद्वारे गोळा केलेला सामान्य डेटा येतो (GELLO ही XDOF चे सह-संस्थापक Philippe Wu आणि Fred Shentu यांनी विकसित केलेली कमी खर्चाची टेलिओपरेशन सिस्टम आहे). शेवटचा स्तर "एगोसेंट्रिक" (egocentric) डेटाचा आहे, जिथे मानवी हालचाली प्रथम-व्यक्तीच्या (first-person) दृष्टिकोनातून टिपण्यासाठी XDOF चे प्रोप्रायटरी सेन्सर्स वापरून दैनंदिन कामे केली जातात.

फ्रंटियर लॅब्सच्या क्षमतेपेक्षा अधिक विस्तार

गुंतवणूकदारांसाठी एक महत्त्वाचा प्रश्न असा आहे की प्रमुख AI लॅब्स स्वतः या डेटा फॅक्टरी का बांधत नाहीत. CEO फिलिप वू यांच्या मते, याची कार्यात्मक गुंतागुंत प्रचंड आहे. डेटा संकलन प्रक्रिया चालवण्यासाठी लाखो चौरस फूट वेअरहाऊस जागा, शेकडो कॅलिब्रेटेड रोबॉट्स आणि टेलिओपरेटरोंचा एक मोठा, प्रशिक्षित कार्यबल आवश्यक असते.

डेटा क्लीनिंग आणि हार्डवेअर-विशिष्ट कॅलिब्रेशनसह या "अल्प-चर्चित" (unglamorous) कामात विशेष प्राविण्य मिळवून, XDOF मुळे AI लॅब्सना मॉडेल आर्किटेक्चरवर लक्ष केंद्रित करता येते, तर XDOF भौतिक डेटा उत्पादनाचा प्रचंड लॉजिस्टिक भार हाताळते. कंपनीचे नाव, "degrees of freedom" या शब्दांवर आधारित असून, मानवी हाताच्या सात 'degrees of freedom' पासून ते ह्युमनॉइडच्या ३० 'degrees of freedom' पर्यंत हालचालींच्या कोणत्याही जटिलतेसाठी डेटा प्रदान करण्याचे त्यांचे ध्येय दर्शवते.

महत्त्वाचे मुद्दे