XDOF、フィジカルAIにおける重大なデータボトルネックを解決するために登場

OpenAIがロボティクス・プログラムを再始動させ、フィジカル・インテリジェンスの競争が激化する中、新たな課題が浮上しています。それは、高精度な学習データの不足です。大規模言語モデル(LLM)がインターネット上の膨大な公開データによって発展してきた一方で、ロボティクスには、現在のデータセットでは到底提供できない、精密な物理的インタラクション・データが必要とされています。

データギャップ:なぜLLMではロボティクスを解決できないのか

有能なロボットを開発する上での主な障害は、単なる計算資源やモデル・アーキテクチャの問題ではありません。GPTモデルで使用されるテキストに匹敵するような「データの堀(data moat)」が存在しないことです。YouTubeの動画やギグワーカーによって撮影された低精度の映像といった現在の代替手段では、ロボットの動きという複雑な物理的現実と整合性を取ることが困難です。モデルを訓練するためにデータが必要だが、効率的なデータを収集するためにはモデルが必要であるという、この「鶏と卵」の問題が、業界における主要なボトルネックとなっています。

ステルス状態から登場したスタートアップであるXDOFは、この問題を解決するためのインフラストラクチャ層としての地位を確立しようとしています。Thrive Capital、Spark Capital、a16z、Lux、WndrCoといった有力な投資家から7,000万ドルを調達した同社は、最先端のAI研究所が自社での構築に苦慮しているパイプライン、収集ツール、およびアノテーション・システムを構築しています。

ABCデータセットとデータピラミッドの構築

エコシステムを活性化させるため、XDOFはUCバークレーのAIリサーチ・ラボと提携し、高品質なロボット学習データの膨大なコレクションである「ABC」をリリースします。このデータセットには以下が含まれます:

このデータを使用することで、チームはすでに、Tシャツを畳む、箱を平らにする、AirPodsをケースに収納するといった繊細な操作など、きめ細かなタスクにおいてロボットの訓練に成功しています。

XDOFの戦略は、包括的な学習を確実にするために、3層の「データピラミッド」に従っています。最も価値の高い層は、対象となるロボット上で直接収集されるテレオペレーション(遠隔操作)データです。次に、GELLO(XDOFの共同創設者であるPhilippe WuとFred Shentuが開発した低コストのテレオペレーション・システム)などのデバイスを通じて収集される汎用データが続きます。最後の層は「エゴセントリック(自己中心視)」データで、人間がXDOF独自のセンサーを装着して日常的なタスクを行い、一人称視点の物理的な動きをキャプチャするものです。

フロンティア・ラボを凌駕するスケール

投資家にとっての重要な疑問は、なぜ主要なAIラボが自らこれらのデータファクトリーを構築しないのかという点です。CEOのPhilippe Wu氏によれば、その運用の複雑さは計り知れません。データ収集業務を運営するには、数十万平方フィートの倉庫スペース、数百台の校正済みロボット、そして訓練を受けた膨大な数のテレオペレーター(遠隔操作者)が必要となります。

データクリーニングやハードウェア固有の校正といった、いわゆる「地味な」作業に特化することで、XDOFはAIラボがモデルアーキテクチャに集中できるようにし、一方で物理的なデータ生産に伴う膨大なロジスティクスの負担を管理します。社名は「自由度(degrees of freedom)」にかけたもので、人間の腕の7自由度からヒューマノイドの30自由度まで、あらゆる任意の複雑な動きに対応するデータを提供することを目指しています。

主なポイント