XDOF tritt an, um den kritischen Datenengpass in der physischen KI zu lösen

📅2 hours ago⏱3 min read

In this article

XDOF erscheint, um den kritischen Datenengpass in der Physical AI zu lösen

Während sich das Rennen um physische Intelligenz mit dem Neustart des Robotik-Programms von OpenAI zuspitzt, ist eine neue Herausforderung aufgetaucht: der Mangel an hochpräzisen Trainingsdaten. Während Large Language Models (LLMs) von der enormen Weite des öffentlichen Internets profitierten, erfordert die Robotik präzise, physische Interaktionsdaten, die aktuelle Datensätze schlichtweg nicht liefern können.

Die Datenlücke: Warum LLMs die Robotik nicht lösen werden

Die größte Hürde bei der Entwicklung leistungsfähiger Roboter ist nicht nur die Rechenleistung oder die Modellarchitektur; es ist das Fehlen eines „Data Moat“, der mit den Textmengen vergleichbar ist, die für GPT-Modelle verwendet wurden. Aktuelle Alternativen, wie YouTube-Videos oder minderwertiges Videomaterial, das von Gig-Workern aufgenommen wurde, lassen sich nur schwer mit den komplexen physischen Realitäten robotischer Bewegungen in Einklang bringen. Dieses „Henne-Ei-Problem“ – man benötigt Daten, um Modelle zu trainieren, benötigt aber Modelle, um effiziente Daten zu sammeln – ist zum primären Engpass für die Branche geworden.

XDOF, ein Startup, das gerade aus der Stealth-Phase hervortritt, positioniert sich als Infrastrukturschicht, um dieses Problem zu lösen. Nachdem das Unternehmen 70 Millionen US-Dollar von Schwergewichten wie Thrive Capital, Spark Capital, a16z, Lux und WndrCo eingeworben hat, baut es die Pipelines, Erfassungswerkzeuge und Annotationssysteme auf, deren Eigenentwicklung führende KI-Labore vor große Herausforderungen stellt.

Aufbau des ABC-Datensatzes und der Datenpyramide

Um das Ökosystem anzukurbeln, arbeitet XDOF mit dem AI Research Lab der UC Berkeley zusammen, um „ABC“ zu veröffentlichen, eine massive Sammlung hochwertiger Robotik-Trainingsdaten. Dieser Datensatz umfasst:

130.000 Trajektorien von Roboter-Manipulationsdaten.
300 Stunden Simulationsdaten.
100 Stunden Evaluationen.

Mithilfe dieser Daten haben Teams bereits erfolgreich Roboter für granulare Aufgaben trainiert, wie etwa das Falten von T-Shirts, das Flachdrücken von Kartons oder das Ausführen präziser Operationen wie das Einsetzen von AirPods in ihre Ladehüllen.

Die Strategie von XDOF folgt einer dreistufigen „Datenpyramide“, um umfassendes Lernen zu gewährleisten. Die wertvollste Ebene umfasst Teleoperationsdaten, die direkt am Zielroboter gesammelt werden. Darauf folgen allgemeine Daten, die über Geräte wie GELLO erfasst werden (ein kostengünstiges Teleoperationssystem, das von den XDOF-Mitbegründern Philippe Wu und Fred Shentu entwickelt wurde). Die letzte Ebene umfasst „egozentrische“ Daten, bei denen Menschen alltägliche Aufgaben ausführen, während sie die proprietären Sensoren von XDOF tragen, um physische Bewegungen aus der Ich-Perspektive zu erfassen.

Outscaling the Frontier Labs

A critical question for investors is why major AI labs aren't simply building these data factories themselves. According to CEO Philippe Wu, the operational complexity is immense. Running a data collection operation requires hundreds of thousands of square feet of warehouse space, hundreds of calibrated robots, and a massive, trained workforce of teleoperators.

By specializing in this "unglamorous" work—including data cleaning and hardware-specific calibration—XDOF allows AI labs to focus on model architecture while XDOF manages the massive logistical burden of physical data production. The company's name, a play on "degrees of freedom," reflects its goal to provide data for any arbitrary complexity of motion, from a human arm's seven degrees of freedom to a humanoid's 30.

Key Takeaways

Infrastructure over Models: XDOF is addressing the "physical AI" bottleneck by providing the specialized data pipelines and annotation tools that LLM-centric labs lack.
High-Fidelity Datasets: The release of the ABC dataset provides the industry with unprecedented scale, featuring 130,000 manipulation trajectories.
Operational Outsourcing: XDOF enables frontier labs to bypass the massive capital and logistical requirements of managing large-scale physical data warehouses and teleoperation fleets.

XDOF tritt an, um den kritischen Datenengpass in der physischen KI zu lösen

XDOF erscheint, um den kritischen Datenengpass in der Physical AI zu lösen

Die Datenlücke: Warum LLMs die Robotik nicht lösen werden

Aufbau des ABC-Datensatzes und der Datenpyramide

Outscaling the Frontier Labs

Key Takeaways

Continue reading

Wie KI-Flexibilität den weltweiten Stromengpass in Rechenzentren lösen könnte

AI Gateway: Das zentrale Nervensystem für Enterprise-LLMs

𝗧𝗵𝗲 𝗔𝗜 𝗗𝗮𝘁𝗮 𝗥𝗲𝗮𝗱𝗶𝗻𝗲𝘀𝘀 𝗚𝗮𝗽

Die KI-Infrastrukturlücke: Hyperscaler stehen vor Cashflow-Krisen

Pramaana Labs Secures $27M to Solve AI Reliability with Formal Verification