NVIDIA Nemotron-3 Nano Omni:統合型マルチモーダルAIエージェントによる次世代知覚と推論
Nemotron-3 Nano Omni:統合型マルチモーダルアーキテクチャの革新
NVIDIAは、単一の効率的なオープンモデル内でマルチモーダルな知覚と推論を統合するAIエージェント向けの新モデル「Nemotron-3 Nano Omni」を発表しました。このモデルは、これまで断片化されていたビジョン、音声、言語モデルのスタックを置き換えることを目的としており、エージェントシステム内のマルチモーダル知覚およびコンテキストサブエージェントとして機能します。これにより、エージェントは単一の共有された知覚からアクションへのループ内で、視覚、聴覚、テキスト入力全体を認識し、推論できるようになり、収束の改善、オーケストレーションの複雑さの軽減、および推論コストの削減に貢献します。
Nemotron-3 Nano Omniの核となるのは、300億パラメータ(30B-A3B)のハイブリッドMoE(Mixture-of-Experts)アーキテクチャです。この設計は、シーケンス処理とメモリ効率のためのMambaレイヤーと、正確な推論のためのTransformerレイヤーを組み合わせることで、サブエージェントの役割に適した最大4倍のメモリおよび計算効率の向上と高いスループットを実現します。 モデルの基盤となる言語バックボーンはNemotron 3 Nano 30B-A3Bであり、これにC-RADIOv4-HビジョンエンコーダとNVIDIA Parakeetエンコーダ(Parakeet-TDT-0.6B-v2)オーディオエンコーダが統合されています。これらのモダリティ固有のエンコーダは、軽量なプロジェクターを介してLLMバックボーンに接続され、統一されたエンコーダ-プロジェクター-デコーダ設計を形成します。 特に、音声統合はNVIDIA Parakeetエンコーダと、単なる書き起こしを超えた特殊なデータセットに基づいて構築されており、高解像度画像と動的ビデオに対応するためには、階層的な圧縮戦略が用いられています。
エージェントAIの効率と精度を飛躍させる技術詳細
Nemotron-3 Nano Omniは、マルチモーダルなユースケースにおいて、代替モデルと比較して最大9倍の高いスループットと2.9倍のシングルストリーム推論速度を実現し、その効率性において新たな基準を打ち立てています。 また、複雑なドキュメントインテリジェンス(MMlongbench-Doc、OCRBenchV2など)およびビデオ・オーディオ理解(WorldSense、DailyOmniなど)の6つの主要なリーダーボードで最高の精度を達成しています。 特に、ビデオ理解モデルを評価するオープンな業界ベンチマークであるMediaPerfでは、すべてのタスクで最高のスループットとビデオレベルのタグ付けにおける最低の推論コストを達成しています。
技術的な最適化としては、FP8、NVFP4、BF16量子化をサポートし、効率的なビデオサンプリングとNVIDIA最適化カーネルを組み合わせることで、予測可能で低レイテンシの推論を提供します。 さらに、3D畳み込みベースの時間空間処理により、ワークステーションからデータセンター、クラウド展開に至るまで、GPU全体でより低い計算コストで持続的なマルチモーダル知覚を可能にします。 256Kトークンの長尺コンテキストウィンドウを備えており、同規模のオープンオムニモデルの中で最も強力かつ高効率なマルチモーダルモデルとされています。 このモデルは、エージェント的なコンピュータ利用シナリオのために特に訓練されており、スクリーンショットの解釈、ユーザーインターフェースの状態監視、画面上の視覚情報に基づく推論、アクション選択、ワークフロー自動化を支援する能力を有しています。
広範な応用領域と開発エコシステム
Nemotron-3 Nano Omniは、現実世界のドキュメント分析、複数の画像推論、自動音声認識、長尺オーディオ・ビデオ理解、エージェント的なコンピュータ利用、および一般的な推論のために構築されています。 例えば、顧客サポートエージェントが画面録画を処理しながら、アップロードされた通話音声を分析し、データログを確認するといった複雑なタスクや、金融エージェントがPDF、スプレッドシート、チャート、音声メモを解析するといった用途に活用できます。 H社の最新のコンピュータ利用エージェントでは、Nemotron-3 Nano Omniによって1920x1080ピクセルのネイティブ入力解像度で高精度な視覚推論を実現し、OSWorldベンチマークにおける複雑なグラフィカルインターフェースのナビゲーションにおいて顕著な進歩を示しました。
NVIDIAは、Nemotron-3 Nano Omniをオープンモデルとして提供しており、モデルのウェイト、1380億のマルチモーダル事前学習トークン、2億6800万の事後学習サンプル、およびエンドツーエンドのレシピを公開しています。 また、テキスト、オーディオ、画像、ビデオにわたるオープンなデータセット(アダプタおよびエンコーダのトレーニング用に約1270億トークン、実世界のタスク向けに約1億2400万のキュレートされた例)も提供しています。 本モデルは現在、Hugging Face、OpenRouter、build.nvidia.com、および25以上のパートナープラットフォームで利用可能です。 ローカルランタイムとしてOllama、llama.cpp、Inference Snaps、LM Studio、UnslothなどがGGUFチェックポイントの実行をサポートしており、主要なクラウドサービスプロバイダ(Amazon Web Services、Oracle Cloud Infrastructure)でも利用可能です。 さらに、UnslothはNemotron 3 Nano Omniのファインチューニングをサポートしており、オーディオ、ビジョン、またはテキストのデータセットでトレーニングが可能です(現時点ではビデオ入力のファインチューニングは非対応)。
開発者・エンジニア視点での考察
-
細分化されたモデルスタックからの脱却とオーケストレーションの簡素化: Nemotron-3 Nano Omniは、テキスト、画像、ビデオ、オーディオといった異なるモダリティを単一のアーキテクチャで処理するため、これまで必要だった各モダリティに対応する個別のモデルスタックを統合できます。これにより、エージェントシステムの設計における複雑なオーケストレーションや、モダリティ間のコンテキストの一貫性の問題が大幅に軽減され、開発者はより堅牢で効率的なエージェントロジックに集中できるようになります。
-
エッジからクラウドまでをカバーする推論最適化と柔軟な展開: FP8/NVFP4/BF16量子化、効率的なビデオサンプリング、NVIDIA最適化カーネルのサポートにより、Nemotron-3 Nano Omniは高い効率と低レイテンシの推論を実現します。この最適化は、25GB(4-bit)から36GB(8-bit)のRAM要件と合わせて、ワークステーション、データセンター、クラウドといった多様な環境での展開を可能にします。特に、GPUリソースが限られるエッジデバイスでの実行にも現実的な選択肢を提供し、エージェントAIの普及を加速させるでしょう。
-
高解像度入力と長尺コンテキストを活用した次世代エージェント開発: Nemotron-3 Nano OmniのC-RADIOv4-Hビジョンエンコーダによる高解像度画像処理能力(例:1920x1080ピクセル)と、256Kトークンという非常に長いコンテキストウィンドウは、特に「コンピュータ利用エージェント」や「ドキュメントインテリジェンス」の分野で大きな可能性を秘めています。開発者は、複雑なGUIのスクリーンショット解析、詳細なドキュメントの長期的なコンテキスト理解、または長尺のマルチモーダルログの横断的な推論を、これまで以上に高い精度と効率で実装できるようになり、人間が行うような複雑なタスクを自動化する新しいエージェントアプリケーションの創出が期待されます。
Source / 元記事
この記事について
この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。
元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。
重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。


