NVIDIA Cosmos 3:物理AI推論とアクションのための初のオープンオムニモデル
NVIDIAは、物理AIの推論とアクションのための画期的なオープンオムニモデル「NVIDIA Cosmos 3」を発表しました。このモデルは、ビジョン、言語、ロボティクスを統合し、物理世界の理解と対話においてAIの能力を飛躍的に向上させることを目指しています。以前のCosmosリリースでは個別のモデルで行われていた世界生成、物理的理解、アクション生成といった機能が、Cosmos 3では単一の統一されたモデル内で実現されています。
Cosmos 3のアーキテクチャとユニファイド機能
Cosmos 3の核心は、Mixture-of-Transformers (MoT) アーキテクチャにあります。このアーキテクチャは、推論タワーと専門家生成タワーの2つの主要なコンポーネントで構成されており、以前は別々のモデルであった機能(Cosmos Predict、Cosmos Transfer、Cosmos Reason、Cosmos Policyなど)を単一システムに統合します。推論タワーは、画像、動画、テキストなどのマルチモーダルな観察を解釈するビジョン言語モデル(VLM)として機能し、動き、オブジェクトの相互作用、その他の物理的コンテキストを理解します。
このモデルは、テキスト、画像、動画、環境音、アクションといったすべてのモダリティを単一の統一されたアーキテクチャ内で処理します。各モダリティは専用のエンコーダによってエンコードされ、共有表現空間に投影されます。入力シーケンスは、次トークン予測を介して推論と理解を処理する自己回帰(AR)サブシーケンスと、反復的なノイズ除去を介して生成を処理する拡散(DM)サブシーケンスに分割されます。この設計により、単一モデルで推論タスクと生成タスクの両方を実行でき、複数のモデル間での調整が不要になり、開発が大幅に簡素化されます。
物理AI開発を加速するモデルバリアントとオープンエコシステム
NVIDIA Cosmos 3は、異なるデプロイシナリオに最適化された2つのモデルサイズで提供されます。一つは、160億パラメータ(推論器80億、生成器80億)を持つ「Cosmos 3 Nano」で、NVIDIA RTX PRO 6000 GPUなどのワークステーション級の計算環境での効率的な推論に最適化されています。もう一つは、640億パラメータ(推論器320億、生成器320億)を持つ「Cosmos 3 Super」で、最高の品質と機能を提供し、大規模な合成データ生成や高度な物理推論ワークロード向けにNVIDIA HopperおよびNVIDIA Blackwell GPU上でのデータセンターデプロイメントをターゲットとしています。
NVIDIAは、Cosmos 3モデル、トレーニングスクリプト、デプロイツール、および6つの合成データ生成(SDG)データセットをHugging Face上でオープンソース化しており、物理AI開発のオープン性と再現性を高めています。これらのデータセットは、ロボティクス、物理シミュレーション、空間推論、人間の動き、自動運転、倉庫環境をカバーしており、Cosmos 3や他のモデルの追加学習に利用できます。
さらに、Cosmos 3はHugging Face Diffusersライブラリと統合されており、Cosmos NIMマイクロサービスを通じてNVIDIA GPU上でのデプロイが容易かつ最適化されています。BF16、FP8、NVFP4などの量子化オプションをサポートし、NVFP4量子化を使用することで最大2倍の推論速度向上を実現します。vLLMのようなオープンソースの推論エンジンとの組み合わせにより、連続バッチ処理、ページド・アテンション、テンソル並列処理などの技術を活用して、LLMを効率的に提供できます。
物理AIの応用と可能性
Cosmos 3は、物理AIシステムが実世界を理解し、その中で行動することを可能にするために設計されています。ロボット、自動運転車、スマートスペースは、周囲で何が起こっているかを理解し、次に何が起こるかを予測し、特定の環境、具体化、タスクに対するアクションを生成する必要があります。Cosmos 3は、このようなシナリオで知覚、予測、およびアクションを強化します。
例えば、ピッキング&プレースタスクのためのロボットの訓練、自動運転シミュレーションの構築、倉庫安全シナリオのための合成トレーニングデータの生成など、多岐にわたるユースケースに対応します。特に、実世界で収集が困難な稀なシナリオやロングテールなケースの物理的に妥当な動画シーケンスを生成する能力は、ロボットや自動運転システムの堅牢性を高める上で非常に重要です。
NVIDIAは、主要なAIラボやロボティクスリーダーと協力して「NVIDIA Cosmos Coalition」を発足させ、次世代の世界モデルの進歩を推進しています。 Cosmos 3は、AIトレーニングと評価のサイクルを数ヶ月から数日に短縮し、物理AI開発に大きな変革をもたらすと期待されています。
開発者・エンジニア視点での考察
-
統一モデルによる開発効率の向上: Cosmos 3は、世界生成、物理推論、アクション生成といった複数の機能を単一のMoTアーキテクチャに統合しているため、開発者は複数の異なるモデルや推論パイプラインを調整する複雑さから解放されます。これにより、特にロボットアームの制御や自動運転シミュレーションといったタスクにおいて、開発ワークフローが大幅に簡素化され、プロトタイピングからデプロイまでの時間を短縮できるでしょう。
-
多様なデプロイ環境への対応と最適化: Cosmos 3 Nano (16B) と Cosmos 3 Super (64B) という2つのモデルサイズが提供され、ワークステーションからデータセンターまで、様々な計算リソースに対応しています。さらに、BF16, FP8, NVFP4といった量子化オプションやvLLMとの統合は、開発者が特定のハードウェアとパフォーマンス要件に合わせてモデルを最適化できる柔軟性を提供し、エッジデバイスでのリアルタイム物理AIアプリケーションの実装を現実的なものにします。
-
オープンソースと合成データ活用によるイノベーション加速: モデル、トレーニングスクリプト、デプロイツール、そして6種類の合成データセットがオープンソースとして公開されていることは、物理AI分野におけるイノベーションを強力に推進します。開発者は、既存のCosmos 3モデルを自身の特定のドメインデータで追加学習(post-training)させることが容易になり、これにより、特定のロボット、環境、タスクに特化した高性能な物理AIエージェントを迅速に構築することが可能になります。
Source / 元記事
この記事について
この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。
元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。
重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。


