Nvidiaの研究者、AIコーディングエージェントを用いてロボットの自己学習を実現
ロボティクスにおける手動のデータ収集と絶え間ない人的介入というボトルネックがついに解消されようとしています。AIコーディングエージェントを活用することで、研究者たちは、ロボットが自律的にトレーニングコードを記述し、現実世界の環境で器用さを向上させることができるシステムを開発しました。
ENPIREによる手動プロセスのボトルネック解消
従来、器用な把握(grasping)のような複雑なタスクをロボットに教えるには、人間のエンジニアがシーンをリセットし、データセットを収集し、アルゴリズムを手動で微調整する必要がありました。この労働集約的なプロセスは、ロボットの知能をスケールアップさせる際の大きな摩擦点となっています。これを解決するため、Nvidia、カーネギーメロン大学、およびUCバークレーの研究者たちは、トレーニングプロセスを自己持続的なフィードバックループへと変貌させるフレームワーク「ENPIRE」を発表しました。
ENPIREシステムは、人間の指示を待つのではなく、AIコーディングエージェントを使用して、ワークスペースのリセット、動作戦略の実行、結果の評価、そしてパフォーマンス向上のための即座なコードの反復といった、ライフサイクル全体を管理します。これにより、ロボティクスは「human-in-the-loop(人間が介在する仕組み)」から「agent-in-the-loop(エージェントが介在する仕組み)」へと移行します。
自律型コーディングエージェントがいかにして器用さを向上させるか
ENPIREフレームワークは、2つの異なるフェーズで動作します。第1フェーズでは、エージェントは最小限の人間によるガイダンス(多くの場合、成功例と失敗例を示す数分間のビデオのみ)を使用してワークスペースを構築します。極めて重要なのは、エージェントが独自の報酬関数を記述することです。例えば、ピン挿入タスクにおいて、エージェントは視覚的な位置合わせ、グリッパーの高さ、および推定された力を組み合わせたカスタムチェックを開発し、成功を判断しました。
第2フェーズでは、エージェントは完全に自律して動作します。彼らは研究論文を読み、仮説を立て、トレーニングコードを直接編集します。また、どちらのアプローチがより優れた現実世界の信号を得られるかに基づいて、行動クローニング(人間の動きを模倣する)や強化学習(試行錯誤)といった手法を選択できます。テスト中、研究者たちはCodex (GPT-5.5搭載)、Claude Code (Opus 4.7搭載)、Kimi Code (Kimi K2.6搭載)を含む高性能モデルを利用し、その中でCodexが最高のパフォーマンスを示しました。
Git対応のロボットフリートによるスケーリング
この研究の最も革新的な側面の一つは、8台のデュアルアームYAMロボットステーションからなるフリートの連携にあります。これらのステーションは、個別に動作するのではなく、分散型の研究チームとして機能します。ソフトウェアエンジニアリングで標準的に使用されるバージョン管理ツールであるGitを使用して、研究結果や成功した「レシピ」、失敗した仮説を共有します。
このフリートベースのアプローチにより、大幅な時間の短縮が実現しました:
- Push-Tテスト: エージェントを1台から8台にスケールアップすることで、完了時間を5時間からわずか2時間に短縮しました。
- ピン挿入: タスク完了時間が90分以上から約40分に減少しました。
- 成功率: フリートは、ピンの仕分けや結束バンドの切断といった困難なタスクにおいて、最大99%の成功率を達成しました。
現実とのギャップ:シミュレーション vs ハードウェア
これらの画期的な成果にもかかわらず、本研究は「sim-to-real(シミュレーションから実機へ)」のギャップを浮き彫りにしています。テストされた3つのエージェントすべてがシミュレーション上でPush-Tテストを解決しましたが、物理的なハードウェアに移行すると、摩擦やロボットの力学といった予測不可能な変数により、3台中2台が失敗しました。しかし、ENPIREはRoboCasaシミュレーションにおいて、GR00Tのような既存のモデルと比較して優れた性能を示しました。
業界が汎用ロボティクスへと移行する中で、コードを通じて機械が「自己研究」できる能力は、限定的な事前プログラムによる動作を超え、真に適応可能な知能へと進化するための鍵となるでしょう。
主な要点
- 自律的な反復: ENPIREは、ロボットが独自の報酬関数やトレーニングコードを記述することを可能にし、人間のエンジニアがシーンをリセットしたりアルゴリズムを微調整したりする必要性を大幅に軽減します。
- 協調学習: Gitを使用してデータを共有することで、8台のロボットフリートが互いの成功と失敗から集団的に学習することができ、トレーニングのタイムラインを劇的に加速させます。
- 現実世界の複雑さ: システムは特定のタスクで最大99%の成功率を達成していますが、シミュレーションによるトレーニングと比較すると、物理的な環境の予測不可能な性質は依然として大きな課題として残っています。