XDOF wkracza, aby rozwiązać problem krytycznego wąskiego gardła danych w fizycznej sztucznej inteligencji

📅2 hours ago⏱3 min read

In this article

XDOF Emerges to Solve the Critical Data Bottleneck in Physical AI

As the race for physical intelligence heats up with OpenAI relaunching its robotics program, a new challenge has surfaced: the lack of high-fidelity training data. While Large Language Models (LLMs) thrived on the vast expanse of the public internet, robotics requires precise, physical interaction data that current datasets simply cannot provide.

The Data Gap: Why LLMs Won't Solve Robotics

The primary hurdle in developing capable robots isn't just compute or model architecture; it is the absence of a "data moat" comparable to the text used for GPT models. Current alternatives, such as YouTube videos or low-fidelity footage captured by gig workers, are difficult to reconcile with the complex physical realities of robotic movement. This "chicken-and-egg" problem—needing data to train models, but needing models to collect efficient data—has become the primary bottleneck for the industry.

XDOF, a startup emerging from stealth, is positioning itself as the infrastructure layer to solve this. Having raised $70 million from heavyweights including Thrive Capital, Spark Capital, a16z, Lux, and WndrCo, the company is building the pipelines, collection tools, and annotation systems that frontier AI labs are struggling to build in-house.

Building the ABC Dataset and the Data Pyramid

To jumpstart the ecosystem, XDOF is partnering with UC Berkeley’s AI Research lab to release "ABC," a massive collection of high-quality robot training data. This dataset includes:

130,000 trajectories of robot manipulation data.
300 hours of simulation data.
100 hours of evaluations.

Using this data, teams have already successfully trained robots on granular tasks such as folding T-shirts, flattening boxes, and performing delicate operations like loading AirPods into their cases.

XDOF’s strategy follows a three-tier "data pyramid" to ensure comprehensive learning. The most valuable tier involves teleoperation data collected directly on the target robot. This is followed by general data gathered via devices like GELLO (a low-cost teleoperation system developed by XDOF co-founders Philippe Wu and Fred Shentu). The final tier involves "egocentric" data, where humans perform everyday tasks while wearing XDOF’s proprietary sensors to capture first-person physical movement.

Przewyższanie skalą laboratoriów frontier

Kluczowym pytaniem dla inwestorów jest to, dlaczego główne laboratoria AI nie budują po prostu tych fabryk danych we własnym zakresie. Według CEO Philippe'a Wu, złożoność operacyjna jest ogromna. Prowadzenie operacji zbierania danych wymaga setek tysięcy stóp kwadratowych powierzchni magazynowej, setek skalibrowanych robotów oraz ogromnej, przeszkolonej kadry teleoperatorów.

Specjalizując się w tej „niepozornej” pracy — obejmującej czyszczenie danych i kalibrację specyficzną dla sprzętu — XDOF pozwala laboratoriom AI skupić się na architekturze modeli, podczas gdy XDOF zarządza ogromnym obciążeniem logistycznym związanym z fizyczną produkcją danych. Nazwa firmy, będąca grą słów nawiązującą do „stopni swobody” (degrees of freedom), odzwierciedla jej cel: dostarczanie danych dla dowolnie złożonego ruchu, od siedmiu stopni swobody ludzkiego ramienia po 30 stopni u humanoida.

Kluczowe wnioski

Infrastruktura zamiast modeli: XDOF rozwiązuje problem wąskiego gardła „fizycznej AI”, dostarczając wyspecjalizowane potoki danych i narzędzia do adnotacji, których brakuje laboratoriom skoncentrowanym na LLM.
Zbiory danych wysokiej wierności: Udostępnienie zbioru danych ABC zapewnia branży niespotykaną dotąd skalę, obejmując 130 000 trajektorii manipulacji.
Outsourcing operacyjny: XDOF umożliwia laboratoriom frontier ominięcie ogromnych wymagań kapitałowych i logistycznych związanych z zarządzaniem wielkoskalowymi magazynami danych fizycznych oraz flotami robotów teleoperowanych.

XDOF wkracza, aby rozwiązać problem krytycznego wąskiego gardła danych w fizycznej sztucznej inteligencji

XDOF Emerges to Solve the Critical Data Bottleneck in Physical AI

The Data Gap: Why LLMs Won't Solve Robotics

Building the ABC Dataset and the Data Pyramid

Przewyższanie skalą laboratoriów frontier

Kluczowe wnioski

Continue reading

Jak elastyczność AI mogłaby rozwiązać globalny kryzys energetyczny centrów danych

AI Gateway: Centralny układ nerwowy dla modeli LLM w przedsiębiorstwach

𝗧𝗵𝗲 𝗔𝗜 𝗗𝗮𝘁𝗮 𝗥𝗲𝗮𝗱𝗶𝗻𝗲𝘀𝘀 𝗚𝗮𝗽

Luka w infrastrukturze AI: Hyperscalers mierzą się z kryzysami przepływów pieniężnych

Pramaana Labs pozyskuje 27 mln USD na rozwiązanie problemu niezawodności AI dzięki formalnej weryfikacji