NVIDIA Cosmos 3:物理AI推論、世界モデル、行動モデルを統合する基盤モデル
NVIDIAは、物理AIのフロンティア基盤モデル「NVIDIA Cosmos 3」を発表しました。この画期的なモデルは、物理的推論、世界生成、および行動生成を単一のオープンモデルとして統合し、ロボティクス、自動運転車、スマートスペースなどの自律システム開発に大きな進歩をもたらします。Cosmos 3は、現実世界を理解し、次に起こることを予測し、特定の環境、具体化、タスクに応じた行動を生成する能力を向上させることを目的としています。NVIDIAは、Cosmos 3のモデル、トレーニングスクリプト、デプロイツール、およびデータセットをオープンソース化し、物理AI開発の再現性とアクセス性を高めています。
物理AIの統合的理解と生成:Cosmos 3のアーキテクチャ革新
従来の物理AI開発では、世界生成、物理的理解、制御されたシーン生成といった異なる機能が個別のモデルやワークフローに分散していました。NVIDIA Cosmos 3は、これらの能力を単一の「オムニモデル」に統合するという点で革新的です。 この統合は、Mixture-of-Transformers (MoT) アーキテクチャに基づいて構築されており、推論タワーと生成タワーの2つの主要なコンポーネントで構成されます。
推論タワーは、画像、ビデオ、テキストといったマルチモーダルな観測を解釈するビジョン-言語モデル (VLM) として機能します。 これは、入力された情報を自己回帰的に処理し、動き、オブジェクト間の相互作用、その他の物理的コンテキストを理解する「脳」の役割を担います。 一方、生成タワーは、推論タワーが導き出した中間表現を条件として受け取り、将来の観測や行動シーケンスを生成します。 この「理解」と「生成」の間の共有された潜在表現による接続が、Cosmos 3が単一のフォワードパスで多様なモダリティを推論し、生成できる鍵となります。
Cosmos 3は、テキスト、画像、ビデオ、環境音、アクションといったあらゆるモダリティを単一の統一されたアーキテクチャ内で処理するMoTバックボーン上に構築されています。 各モダリティは専用のエンコーダによってエンコードされ、共有表現空間に投影されます。入力シーケンスは、推論と理解を担う自己回帰 (AR) サブシーケンスと、反復的なノイズ除去を通じて生成を担う拡散 (DM) サブシーケンスに分割されます。 この設計により、Cosmos 3は物理的な因果関係、動き、空間関係を理解した上で、物理的に妥当なビデオワールドやアクションシーケンスを生成することが可能になります。
現在、Cosmos 3には、効率的な推論に最適化された160億パラメータの「Cosmos 3 Nano」と、最高品質と機能を提供する640億パラメータの「Cosmos 3 Super」の2つのモデルサイズが提供されています。 NanoはNVIDIA RTX PRO 6000 GPUなどのワークステーション級コンピューティングでリアルタイムロボティクス推論を可能にし、SuperはNVIDIA HopperおよびBlackwell GPUでのデータセンター展開をターゲットとしています。
世界モデルと行動モデルによる自律システムの加速
NVIDIA Cosmos 3は、ロボット、自動運転、スマートスペースが現実世界を理解し、予測し、行動するための「世界モデル」の基盤として機能します。 このモデルは、物理法則、空間特性、因果関係を理解することで、単にピクセルやトークンを処理するだけでなく、物理世界の動きや相互作用を深く理解することができます。
Cosmos 3は、アクションに合わせた事後学習を可能にし、順ダイナミクス、逆ダイナミクス、ポリシー生成を含むアクション対応の物理AIアプリケーション向けに適応できます。 開発者は、アクションラベル付きデータでCosmos 3を事後学習させることで、ロボットの将来の観測を生成したり、観測されたデモンストレーションからアクションを推論したり、現在の観測とタスクプロンプトからアクションシーケンスを予測したりすることが可能です。 これは、世界行動モデル (WAM) およびポリシー学習の強力な基盤となります。
さらに、Cosmos 3は、テキスト、画像、ビデオ、環境音、アクション入力から無限に起こりうる未来を生成することで、大規模な合成ビデオデータ生成を可能にします。 これは、ロボットが洗濯物を畳むタスクの学習、自動運転シミュレーションの構築、倉庫の安全性シナリオのための合成トレーニングデータの生成といった、実世界で収集が困難または危険なシナリオのデータ拡張に特に有効です。 NVIDIAは、ロボティクス、物理シミュレーション、空間推論、人間モーション、自動運転、倉庫環境をカバーする6つの合成データ生成 (SDG) データセットをオープンソース化し、Cosmos 3および他のモデルの事後学習に活用できるようにしています。
開発者・エンジニア視点での考察
-
リアルタイム推論とデータセンター展開の柔軟性: Cosmos 3 Nano (16Bパラメータ) はNVIDIA RTX PRO 6000 GPU上でリアルタイム推論を可能にし、Cosmos 3 Super (64Bパラメータ) はNVIDIA HopperやBlackwell GPU上でデータセンターでの大規模な合成データ生成と高度な物理推論を対象としています。このサイズバリエーションは、エッジデバイスでの自律エージェントから、研究や大規模シミュレーションといった計算集約的なタスクまで、多様な物理AIアプリケーションに対するスケーラブルなソリューションを提供します。開発者は、プロジェクトの要件に応じて最適なモデルサイズを選択し、リソースを効率的に活用できるため、開発コストと時間を削減しながら高性能な物理AIシステムを構築できます。
-
世界生成と行動学習の統合による開発ワークフローの簡素化: 従来の複数のモデルや推論パイプラインをオーケストレーションする必要があったプロセスから、Cosmos 3のMixture-of-Transformers (MoT) アーキテクチャによる単一オムニモデルへの統合は、物理AI開発ワークフローを大幅に簡素化します。 これにより、開発者は世界の状態理解、将来予測、そして行動生成という一連のプロセスを、よりシームレスかつ効率的に実行できるようになります。特に、シミュレーションから実世界への転移 (Sim-to-Real) の精度向上と、ロボットのポリシー学習の加速において、この統合は開発者が直面する複雑さを軽減し、より迅速なプロトタイピングとデプロイメントを可能にします。
-
オープンソースエコシステムとNIMマイクロサービスによるアクセシビリティと展開加速: NVIDIAがCosmos 3のモデル、トレーニングスクリプト、デプロイツール、および6つの合成データセットをオープンソース化したことは、物理AI研究開発コミュニティにとって非常に重要です。 これにより、開発者は既存のフレームワーク (Hugging Face Diffusersなど) と統合し、モデルをカスタマイズして独自のデータで事後学習を行うことができます。さらに、NVIDIA NIMマイクロサービスとして提供されることで、最適化された推論ランタイムが利用可能となり、手動でのインフラチューニングなしで高パフォーマンスな本番環境への展開が容易になります。 このアプローチは、物理AI技術の民主化を促進し、より広範な開発者がこのフロンティア領域に参入する障壁を低減するでしょう。
Source / 元記事
この記事について
この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。
元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。
重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。


