General Intuitionがいかにビデオゲームを活用して現実世界のAIを構築しているか

General Intuitionは、膨大なビデオゲームのデータセットを使用して、物理世界のためのエージェント型モデルを訓練することで、ロボティクスにおける大規模なパラダイムシフトを試みています。新たに3億2,000万ドルの資金調達を実施した同スタートアップは、ゲームに見られる「アクションデータ」こそが、人工知能における欠けていたミッシングリンクであると賭けています。

アクションラベルと時空間推論の力

多くのAI研究者が単にビデオ映像を観察することでモデルを訓練しようとする一方で、General IntuitionのCEOであるPim de Witteは、ビデオだけでは不十分だと主張しています。同社の競争優位性は、ユーザーがビデオゲームのクリップを共有するプラットフォームであるMedalから、独自のデータにアクセスできる点にあります。

標準的なビデオとは異なり、これらのクリップには「アクションラベル」が埋め込まれています。これは、プレイヤーがどのボタンをいつ押したかという正確な記録です。これにより、モデルは単なるパターン認識を超え、時空間推論を学習することができます。特定の入力(アクション)と、その結果として生じる環境の変化(リアクション)との直接的な結びつきを理解することで、AIは因果関係を把握し始めます。これにより、モデルは自律型エージェントにとって不可欠な要件である「自己」と「環境」を区別できるようになります。

Fortniteから四足歩行ロボットへ

同社の技術的な野心は、ゲームプレイ、シミュレーション、そして物理的な実体化(physical embodiment)という異なるドメイン間で汎用性を持つ単一のモデルを構築することです。最近のデモンストレーションでは、ゲームプレイで訓練されたAIエージェントが、壁は固形物であり、影は太陽の動きに合わせて変化するということを理解し、複雑な仮想環境をナビゲートすることができました。

極めて重要なのは、この「脳」がハードウェアに直接移植されている点です。同社は、ゲームエージェントを動かしているものと同じモデルを利用した四足歩行ロボットを披露しました。特筆すべきは、実際の街路で収集されたわずか8分間の現実世界のロボティクスデータだけで、ロボットのナビゲーション用にモデルを微調整(fine-tune)できたとチームが報告していることです。これは、物理学や空間認識の学習という重労働がビデオゲームという「ジム」で行われており、現実世界への導入を大幅に効率化していることを示唆しています。

汎用エージェントへの23億ドルの賭け

この野心の規模は、企業の評価額に反映されています。General Intuitionは最近、23億ドルの評価額で3億2,000万ドルを調達し、公表されている累計調達額は4億5,400万ドルに達しました。このラウンドはKhosla Venturesが主導し、General Catalyst、Jeff Bezos、Eric Schmidt、そしてGoogle DeepMindやMITの研究者らが多額の出資を行いました。

調達した資金は、主に2つの目標に充てられます。一つはCoreWeaveとの提携を通じた計算能力の拡張、もう一つは夏末までにAPIをより広く利用可能にすることです。Vinod Khoslaのような投資家にとって、目標は単なる自動化の向上ではなく、「AI直感(AI intuition)」の出現です。これは、単にプログラムされた指示に従うのではなく、理解を通じて世界をナビゲートするという、人間のような能力を指します。

主なポイント

  • アクション主導の訓練: General Intuitionは、ゲームクリップのボタン押下による「アクションラベル」を使用してAIに因果関係を教え、ビデオのみの訓練の限界を超えています。
  • スケーラブルなシミュレーション: ビデオゲームを「ジム」として活用することで、現実世界のロボットデータを収集するという膨大なコストをかけることなく、複雑な時空間推論を訓練することができます。
  • 強力な機関投資家の支援: 23億ドルの評価額と、Jeff BezosやEric Schmidtといった人物からの支援を受け、同社はワールドモデル時代の基盤となるプレーヤーとしての地位を確立しようとしています。