NVIDIA Cosmos 3: Physical AIへの新たなアプローチ

ロボットのトレーニングは、かつて困難なものでした。 多くの個別のモデルを使用する必要がありました。 視覚用、プランニング用、そして動作用。 これらのモデル間でデータを渡す際に、ミスが発生していました。

NVIDIA Cosmos 3は、この問題を解決します。 すべてを一つのモデルでこなします。 推論とアクションを同時に処理します。

このシステムは、2つのタワーを使用しています。

Reasoner(推論)タワーは、シーンを理解します。 画像やビデオを解析します。 物体の位置や動きを特定します。

Generator(生成)タワーは、出力を生成します。 ビデオやロボットの動作を作成します。 動作にはReasonerのコンテキストが必要です。

両方のタワーは、3Dエンコーディング・システムを共有しています。 これにより、モデルが物理法則に従うことが可能になります。 重さや摩擦についても把握しています。

3つのサイズがあります:

  • Nano: ワークステーション向け。
  • Super: データセンター向け。
  • Edge: 車両やドローン向け。

ユースケース:

  • 積み上げられたブロックが崩れるかどうかを予測する。
  • 合成トレーニングデータを作成する。
  • ロボットのモーターコマンドを生成する。

重み(Weights)とコードは、GitHubとHugging Faceで公開されています。

限界もあります。 多大な電力を必要とします。 リアルタイムでの速度維持は、まだ困難です。

複雑なパイプラインを、クリーンな基盤へと置き換えます。

Source: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f Optional learning community: https://t.me/GyaanSetuAi