Physical AI માં ગંભીર ડેટા બોટલનેકને ઉકેલવા માટે XDOF સામે આવ્યું છે

જેમ જેમ OpenAI તેના રોબોટિક્સ પ્રોગ્રામને ફરીથી લોન્ચ કરી રહ્યું છે તેમ ફિઝિકલ ઇન્ટેલિજન્સ માટેની સ્પર્ધા તેજ બની રહી છે, એક નવો પડકાર સામે આવ્યો છે: હાઈ-ફિડેલિટી ટ્રેનિંગ ડેટાનો અભાવ. જ્યારે Large Language Models (LLMs) પબ્લિક ઇન્ટરનેટના વિશાળ વિસ્તાર પર ખીલ્યા છે, ત્યારે રોબોટિક્સ માટે ચોક્કસ, ભૌતિક ઇન્ટરેક્શન ડેટાની જરૂર છે જે વર્તમાન ડેટાસેટ્સ આપી શકતા નથી.

ડેટા ગેપ: શા માટે LLMs રોબોટિક્સની સમસ્યા ઉકેલશે નહીં

સક્ષમ રોબોટ્સ વિકસાવવામાં મુખ્ય અવરોધ માત્ર કમ્પ્યુટ અથવા મોડેલ આર્કિટેક્ચર નથી; તે GPT મોડેલ્સ માટે વપરાતા ટેક્સ્ટની તુલનામાં "data moat" નો અભાવ છે. વર્તમાન વિકલ્પો, જેમ કે YouTube વિડિયો અથવા ગિગ વર્કર્સ દ્વારા કેપ્ચર કરવામાં આવેલા લો-ફિડેલિટી ફૂટેજ, રોબોટિક હલનચલનની જટિલ ભૌતિક વાસ્તવિકતાઓ સાથે સુસંગત કરવા મુશ્કેલ છે. આ "chicken-and-egg" સમસ્યા—મોડેલ્સને ટ્રેન કરવા માટે ડેટાની જરૂર છે, પરંતુ કાર્યક્ષમ ડેટા એકત્રિત કરવા માટે મોડેલ્સની જરૂર છે—ઉદ્યોગ માટે મુખ્ય બોટલનેક બની ગઈ છે.

XDOF, એક સ્ટાર્ટઅપ જે સ્ટીલ્થ મોડમાંથી બહાર આવી રહ્યું છે, તે આ સમસ્યા ઉકેલવા માટે ઇન્ફ્રાસ્ટ્રક્ચર લેયર તરીકે પોતાને સ્થાપિત કરી રહ્યું છે. Thrive Capital, Spark Capital, a16z, Lux, અને WndrCo સહિતના મોટા રોકાણકારો પાસેથી $70 મિલિયન મેળવ્યા પછી, કંપની એવા પાઇપલાઇન્સ, કલેક્શન ટૂલ્સ અને એનોટેશન સિસ્ટમ્સ બનાવી રહી છે જે ફ્રન્ટિયર AI લેબ્સ ઇન-હાઉસ બનાવવા માટે સંઘર્ષ કરી રહી છે.

ABC ડેટાસેટ અને ડેટા પિરામિડનું નિર્માણ

ઇકોસિસ્ટમને વેગ આપવા માટે, XDOF UC Berkeley ની AI Research લેબ સાથે મળીને "ABC" રિલીઝ કરી રહ્યું છે, જે ઉચ્ચ ગુણવત્તાવાળા રોબોટ ટ્રેનિંગ ડેટાનું વિશાળ સંગ્રહ છે. આ ડેટાસેટમાં શામેલ છે:

આ ડેટાનો ઉપયોગ કરીને, ટીમોએ ટી-શર્ટ ફોલ્ડ કરવા, બોક્સને સપાટ કરવા અને AirPods ને તેમના કેસમાં લોડ કરવા જેવા ઝીણવટભર્યા કાર્યો પર રોબોટ્સને સફળતાપૂર્વક ટ્રેન કર્યા છે.

XDOF ની વ્યૂહરચના વ્યાપક શિક્ષણ સુનિશ્ચિત કરવા માટે ત્રણ-સ્તરીય "data pyramid" અનુસરે છે. સૌથી મૂલ્યવાન સ્તરમાં ટાર્ગેટ રોબોટ પર સીધો જ કલેક્ટ કરવામાં આવેલ ટેલીઓપરેશન ડેટા સામેલ છે. ત્યારબાદ GELLO જેવા ઉપકરણો દ્વારા એકત્રિત કરવામાં આવેલ સામાન્ય ડેટા આવે છે (GELLO એ XDOF ના સહ-સ્થાપકો Philippe Wu અને Fred Shentu દ્વારા વિકસાવવામાં આવેલી લો-કોસ્ટ ટેલીઓપરેશન સિસ્ટમ છે). અંતિમ સ્તરમાં "egocentric" ડેટા સામેલ છે, જ્યાં માણસો XDOF ના પ્રોપ્રાઇટરી સેન્સર્સ પહેરીને રોજિંદા કાર્યો કરે છે જેથી પ્રથમ-વ્યક્તિ (first-person) ભૌતિક હલનચલન કેપ્ચર કરી શકાય.

ફ્રન્ટિયર લેબ્સને વટાવી જવું

રોકાણકારો માટે એક મહત્વપૂર્ણ પ્રશ્ન એ છે કે શા માટે મુખ્ય AI લેબ્સ પોતે આ ડેટા ફેક્ટરીઓનું નિર્માણ કરી રહી નથી. CEO Philippe Wu ના જણાવ્યા અનુસાર, કામગીરીની જટિલતા અત્યંત વધારે છે. ડેટા કલેક્શન ઓપરેશન ચલાવવા માટે લાખો ચોરસ ફૂટના વેરહાઉસ સ્પેસ, સેંકડો કેલિબ્રેટેડ રોબોટ્સ અને ટેલિઓપરેટર્સના વિશાળ, તાલીમબદ્ધ કાર્યબળની જરૂર પડે છે.

ડેટા ક્લિનિંગ અને હાર્ડવેર-વિશિષ્ટ કેલિબ્રેશન સહિતના આ "બિન-આકર્ષક" (unglamorous) કામમાં વિશેષતા પ્રાપ્ત કરીને, XDOF AI લેબ્સને મોડેલ આર્કિટેક્ચર પર ધ્યાન કેન્દ્રિત કરવાની મંજૂરી આપે છે, જ્યારે XDOF ભૌતિક ડેટા ઉત્પાદનના વિશાળ લોજિસ્ટિકલ બોજનું સંચાલન કરે છે. કંપનીનું નામ, "degrees of freedom" પર આધારિત છે, જે માનવ હાથના સાત degrees of freedom થી લઈને હ્યુમનોઇડના 30 સુધીની ગતિની કોઈપણ જટિલતા માટે ડેટા પૂરો પાડવાના તેના લક્ષ્યને પ્રતિબિંબિત કરે છે.

મુખ્ય તારણો