𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗳𝗼𝗿 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜

Translated for your language. 原文を読む.

AI-assisted draft.

2 週間前1分で読めます

NVIDIA Cosmos 3: Physical AIへの新たなアプローチ

ロボットのトレーニングは、かつて困難なものでした。多くの個別のモデルを使用する必要がありました。視覚用、プランニング用、そして動作用。これらのモデル間でデータを渡す際に、ミスが発生していました。

NVIDIA Cosmos 3は、この問題を解決します。すべてを一つのモデルでこなします。推論とアクションを同時に処理します。

このシステムは、2つのタワーを使用しています。

Reasoner（推論）タワーは、シーンを理解します。画像やビデオを解析します。物体の位置や動きを特定します。

Generator（生成）タワーは、出力を生成します。ビデオやロボットの動作を作成します。動作にはReasonerのコンテキストが必要です。

両方のタワーは、3Dエンコーディング・システムを共有しています。これにより、モデルが物理法則に従うことが可能になります。重さや摩擦についても把握しています。

3つのサイズがあります：

ユースケース：

重み（Weights）とコードは、GitHubとHugging Faceで公開されています。

限界もあります。多大な電力を必要とします。リアルタイムでの速度維持は、まだ困難です。

複雑なパイプラインを、クリーンな基盤へと置き換えます。

続きを読む