NVIDIA Cosmos 3: Physical AIへの新たなアプローチ
ロボットのトレーニングは、かつて困難なものでした。 多くの個別のモデルを使用する必要がありました。 視覚用、プランニング用、そして動作用。 これらのモデル間でデータを渡す際に、ミスが発生していました。
NVIDIA Cosmos 3は、この問題を解決します。 すべてを一つのモデルでこなします。 推論とアクションを同時に処理します。
このシステムは、2つのタワーを使用しています。
Reasoner(推論)タワーは、シーンを理解します。 画像やビデオを解析します。 物体の位置や動きを特定します。
Generator(生成)タワーは、出力を生成します。 ビデオやロボットの動作を作成します。 動作にはReasonerのコンテキストが必要です。
両方のタワーは、3Dエンコーディング・システムを共有しています。 これにより、モデルが物理法則に従うことが可能になります。 重さや摩擦についても把握しています。
3つのサイズがあります:
- Nano: ワークステーション向け。
- Super: データセンター向け。
- Edge: 車両やドローン向け。
ユースケース:
- 積み上げられたブロックが崩れるかどうかを予測する。
- 合成トレーニングデータを作成する。
- ロボットのモーターコマンドを生成する。
重み(Weights)とコードは、GitHubとHugging Faceで公開されています。
限界もあります。 多大な電力を必要とします。 リアルタイムでの速度維持は、まだ困難です。
複雑なパイプラインを、クリーンな基盤へと置き換えます。
Source: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f Optional learning community: https://t.me/GyaanSetuAi