General Intuition、ビデオゲームのデータを現実世界のAIへと転換するため3億2,000万ドルを調達

General Intuitionは、物理的な知能(physical intelligence)の鍵は、プレイヤーによって記録された数百万時間ものビデオゲーム映像の中に隠されていると考えている。ゲーミングから得られる高精度なアクションデータを活用することで、同スタートアップは、Fortniteのような仮想環境から物理的な四足歩行ロボットへとシームレスに移行できるエージェントモデルの構築を目指している。

単なる映像を超えた「アクションラベル」の力

単に映像を観察することでAIエージェントを訓練しようとする多くの競合他社とは異なり、General Intuitionは、前身であるMedalから引き継いだ独自の強みを活用している。ほとんどのモデルがピクセルのみから動きを推論しようとするのに対し、General Intuitionは「アクションラベル」——ゲームプレイのクリップと共に記録された正確なボタン入力とタイムスタンプ——を利用する。

この違いは、時空間推論(spatial-temporal reasoning)を開発する上で極めて重要である。人間の入力が3D空間における特定の動きにどのように結びつくかを正確に把握することで、モデルは「因果関係」、つまりあるアクションが環境にどのような影響を与えるかを学習する。CEOのPim de Witte氏は、これによりモデルが「自己」と「環境」を区別できるようになると主張している。これは、物理世界で動作することを目的としたあらゆるエージェントにとって不可欠な要件である。

Fortniteのシミュレーションからロボットの実装へ

同社の技術アーキテクチャは、内部的なトレーニングジムとして機能する「ワールドモデル(world model)」に基づいている。従来のゲームエンジンに頼るのではなく、モデルがフレームごとに環境を生成することで、エージェントは壁の固さや影の動きといった物理ベースの現実を、単純な反復学習を通じて習得することができる。

このトレーニングの実用的な応用は、すでにハードウェアのデモで確認されている。同社は、仮想の風景をナビゲートするために使用されたものと同じ「脳」を、大型の四足歩行ロボットへの実装に成功した。驚くべきことに、チームの報告によれば、公道で収集されたわずか8分間の現実世界のロボティクスデータだけで、ロボットの物理的なナビゲーションに合わせてモデルを微調整(fine-tune)できたという。これは、知能構築における主要なプロセスがシミュレーション内で行われていることを示唆しており、現実世界への展開を大幅に高速化かつ低コスト化している。

23億ドルの巨額評価額

この野心的な取り組みの規模は、同社の最近の資金調達に反映されている。General IntuitionはKhosla Venturesが主導するラウンドで3億2,000万ドルを調達し、企業価値は計23億ドルに達した。投資家グループは、Jeff Bezos、Eric Schmidt、そしてGoogle DeepMindやMITの研究者を含む、テクノロジー界の重鎮たちで構成されている。

調達した資金は、主に以下の2つの目的に割り当てられる:

  • コンピューティングのスケールアップ: CoreWeaveとの提携を通じて、次世代モデルの事前学習(pre-training)に注力する。
  • APIのアクセシビリティ: 資金の一部は、より広範なAPIの立ち上げに使用され、夏以降には開発者が同社のエージェントモデルを利用できるようになる可能性がある。

業界がテキスト中心の大規模言語モデル(LLM)の時代を超えて進む中、General Intuitionは「ワールドモデル」の最前線に位置づけようとしている。それは、単に世界について語るだけでなく、世界の中をどのように移動するかを理解するAIである。

主なポイント

  • アクション主導のトレーニング: 単なる映像ではなく、人間のゲームプレイによる「アクションラベル」を使用することで、モデルは映像のみのアプローチよりもはるかに効果的に因果関係と空間推論を学習する。
  • スケーラブルなシミュレーション: 同スタートアップはビデオゲームをエージェント訓練の「ジム」として活用しており、物理ロボットを制御するために必要な高価な現実世界のデータを劇的に削減している。
  • 戦略的なバックアップ: 23億ドルの評価額と、Khosla VenturesやJeff Bezosといった有力者からの支援を受け、同社は汎用AIエージェントの基盤レイヤーとなるポジションを確立している。