NVIDIA、物理AI向けオープンフロンティア基盤モデル「Cosmos 3」発表
Cosmos 3の核心:物理AI向けオムニモデルと革新的アーキテクチャ
NVIDIAは、物理AI向けオープンフロンティア基盤モデル「NVIDIA Cosmos 3」を発表しました。このモデルは、視覚による推論、ワールド生成、およびアクション予測を単一システムに統合した画期的な「mixture-of-transformers (MoT)」アーキテクチャを基盤としています。Cosmos 3は、テキスト、画像、ビデオ、環境音、そして物理的に正確なアクションをネイティブに理解し生成できる、世界初の完全オープンな「オムニモデル」と位置づけられています。これにより、物理AIのトレーニングおよび評価サイクルが数ヶ月から数日に短縮されるとされています。
MoTアーキテクチャは、推論トランスフォーマーとエキスパート生成トランスフォーマーを組み合わせることで、ビデオやアクション軌道を生成する前に、オブジェクトの相互作用、動き、時空間的関係を理解することを可能にします。 具体的には、「Reasoner tower」と呼ばれるVision-Language Model (VLM) が、画像、ビデオ、テキストなどのマルチモーダルな観測を解釈し、オートレグレッシブなアーキテクチャを用いて動き、オブジェクトの相互作用、その他の物理的コンテキストを理解します。 その後、「Generator tower」がこのコンテキストを利用して、合成ビデオからロボットタスクデータに至るまで、物理的に根拠のある出力を生成します。 このモデルは、テキスト、画像、ビデオ、音響、アクション軌道を含む数十億のサンプルからなる、最大規模のマルチモーダル物理AIデータセットの1つ(20兆トークンのマルチモーダルデータ)で訓練されています。
多岐にわたる機能とベンチマーク性能
Cosmos 3は、ロボット、自律走行車、ビジョンAIが物理世界で知覚し、推論し、計画し、行動する能力を飛躍的に向上させると期待されています。 特に、限られた訓練データと断片化されたシミュレーションスタックで実世界に汎化するという物理AIの根本的な課題に取り組んでいます。 Cosmos 3は、ロボットがタスクを完了するためにどのように動くべきかを記述する、関節角度、グリッパー位置、軌道点などの数値アクションデータを生成できる「ネイティブアクション生成」機能を備えたオムニモデルです。 さらに、ロボットの衝突や異常な道路イベントなど、実世界で取得が困難、高価、または危険な希少なシナリオを生成する能力も有しています。
Cosmos 3は、物理AIのベンチマークにおいて優れた結果を報告しています。オープンモデルの中で、ワールド生成精度ではArtificial Analysis、Physics-IQ、PAI-Bench、R-Benchで首位を獲得しています。アクションポリシーではRoboLabとRoboArenaで、視覚理解ではVANTAGE-BenchとTARのリーダーボードでそれぞれ1位にランクされています。 モデルサイズに関しては、効率的な推論に最適化された160億パラメータの「Cosmos 3 Nano」と、最高の品質と機能を提供する640億パラメータの「Cosmos 3 Super」の2種類が提供されており、それぞれNVIDIA RTX PRO 6000 GPUやNVIDIA Hopper、Blackwell GPUでの展開に最適化されています。
オープンエコシステム戦略と開発者支援
NVIDIAはCosmos 3を「完全オープンなオムニモデル」として提供し、物理AI開発の透明性と再現性を高めるために、モデル、トレーニングスクリプト、デプロイツール、およびデータセットをオープンソース化しています。 具体的には、Hugging FaceとGitHub上で、ロボティクス、物理シミュレーション、空間推論、人間の動き、自動運転、倉庫環境をカバーする6つの合成データ生成(SDG)データセットが公開されています。 また、Cosmos 3はHugging Face Diffusersライブラリと統合されており、Cosmos3OmniPipelineを介してワールド生成パイプラインを数行のコードで簡単に利用できるようになっています。
さらにNVIDIAは、Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AIなどの主要なAIラボやロボティクスリーダーと協力し、「NVIDIA Cosmos Coalition」を立ち上げました。 これは、世界モデルビルダーとAI開発者のグローバルなコラボレーションを促進し、物理AIシステムの開発を加速することを目的としています。 Cosmos 3は、NVIDIAの物理AIスタックの一部として、NVIDIA Omniverse、Isaac、Metropolis、Alpamayo、Jetsonプラットフォームなどの既存のツールやフレームワークと連携し、エージェント対応の物理AI開発ツールを提供します。
応用分野と将来展望
Cosmos 3の登場により、ロボティクス、自動運転車(AV)、ビジョンAI、スマートスペース、産業用デジタルツインなど、多岐にわたる分野での物理AI開発が大きく加速すると見込まれています。 例えば、自律走行車はリアルタイムでセンサーデータを処理し、周囲を認識・理解し、高速道路から都市環境まで様々な状況で情報に基づいた意思決定を行うことができます。 ロボットは、これまで見たことのないオブジェクト構成に遭遇しても、物理AIによってシームレスに環境と相互作用し、適応することが可能になります。
また、Cosmos 3は、ライブカメラストリームの分析、空間的コンテキストの理解、貴重な洞察の抽出、数千のフィードにわたる根本原因分析など、ビジョンAIエージェントの能力を向上させます。 これにより、産業およびインフラ環境における理解、予測、アラートを連携させ、リアルタイムの状況に応じたアラートの提供、ビデオからの洞察抽出、合成訓練データの生成などが可能になります。 NVIDIAの創業者兼CEOであるジェンスン・フアン氏は、「マルチモーダル推論言語、ビジョン、世界モデルのブレークスルーにより、物理AIのビッグバンは間近に迫っている」と述べており、Cosmos 3がこの進化の最前線に立つモデルであることを強調しています。
開発者・エンジニア視点での考察
-
物理シミュレーションと実世界データ生成の加速: Cosmos 3の「アクション生成」能力と、希少・危険なシナリオの合成データ生成能力は、ロボティクスや自動運転におけるトレーニングデータのボトルネックを劇的に解消します。従来、実世界でのデータ収集はコストと安全性の課題がありましたが、Cosmos 3を用いることで、高忠実度の物理シミュレーション環境での仮想データ生成が容易になり、開発者はより多様でロバストなAIモデルを迅速に訓練できるようになります。
-
マルチモーダルエージェントシステムの統合基盤: テキスト、画像、ビデオ、音響、アクションを単一のオムニモデルで処理できるCosmos 3は、自律エージェントの構築において極めて強力な基盤となります。これにより、個別のモダリティモデルを組み合わせる際の複雑さが軽減され、エージェントが「知覚」「推論」「行動」を一貫して実行できる、より高度な物理AIシステムの設計が加速されるでしょう。特に、推論と生成を分離したMoTアーキテクチャは、エージェントが行動する前に物理世界を「理解」し、計画する能力を高めます。
-
オープンソース化によるコミュニティ駆動型イノベーションの促進: モデルチェックポイント、トレーニングスクリプト、デプロイツール、および物理AIに特化したデータセットのオープンソース化は、研究者や開発者がCosmos 3を容易に採用し、特定のドメインに適応させ、さらには独自の拡張機能を開発する道を拓きます。これは、物理AI分野におけるオープンイノベーションを強力に推進し、業界全体の技術進歩を加速させる重要な要因となります。Hugging Face Diffusersライブラリとの統合は、既存の機械学習ワークフローへの組み込みをさらに容易にします。
Source / 元記事
この記事について
この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。
元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。
重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。


