Together AI、NVIDIA Nemotron 3 Nano Omniを開発者へ即日提供開始:マルチモーダルAIエージェントの新境地


ADVERTISEMENT

NVIDIA Nemotron 3 Nano Omniの革新的アーキテクチャと性能

NVIDIAは、本日「Nemotron 3 Nano Omni」を発表しました。これは、ビジョン、オーディオ、イメージ、テキストの理解を単一の効率的なアーキテクチャに統合したオープンなオムニモーダル推論モデルであり、AIエージェントシステムの新たな効率のフロンティアを確立します。このモデルは、総パラメータ数300億、アクティブパラメータ数30億(30B-A3B)のハイブリッドMixture-of-Experts(MoE)アーキテクチャを特徴としています。Mambaレイヤーによる効率的なシーケンス処理と、Transformerレイヤーによる正確な推論を組み合わせることで、高いスループットと計算効率を実現しています。

Nemotron 3 Nano Omniは、CRADIO v4-Hをビジョンエンコーダ、NVIDIA Parakeetエンコーダを音声エンコーダとして組み込むことで、動画、画像、音声、テキストといった多様なモダリティからの入力をネイティブに処理し、テキスト形式で出力を生成します。これにより、別々の知覚モデルを組み合わせる必要がなくなり、大規模な推論効率が向上します。特に、動画処理においては、Conv3Dベースの時空間処理とEfficient Video Sampling(EVS)を統合し、低計算コストでの持続的なマルチモーダル知覚を可能にしています。また、256Kトークンのコンテキスト長をサポートし、複雑なマルチモーダル推論タスクに対応します。FP8およびNVFP4量子化もサポートされ、エンタープライズワークロードにおける精度と効率の最適なバランスを提供します。

Nemotron 3 Nano Omniは、複雑なドキュメントインテリジェンス、動画、音声理解に関する6つのリーダーボードでトップの成績を収めており、同様のインタラクティブ性を持つ他のオープンオムニモデルと比較して最大9倍高いスループットを達成しています。これにより、コストを削減し、応答性や品質を犠牲にすることなくスケーラビリティを向上させることができます。

マルチモーダル統合によるAIエージェント開発の変革

従来のAIエージェントシステムでは、ビジョン、音声、言語といった異なるモダリティを処理するために個別のモデルを使用し、データの受け渡しによって時間とコンテキストが失われるという課題がありました。Nemotron 3 Nano Omniは、これらの機能を単一のシステムに統合することで、動画、音声、画像、テキストにわたる高度な推論を可能にし、より高速でスマートな応答を実現します。

このモデルは、エージェントシステムの「目と耳」として機能し、Nemotron 3 SuperやUltraのような他のNVIDIA Nemotronオープンモデル、または他社のプロプライエタリモデルと連携して動作することができます。これにより、GUI操作、ドキュメントインテリジェンス、オーディオ・ビデオ推論などのエージェントワークフローにおけるサブエージェントを強化します。例えば、コンピューター使用エージェントにおいては、GUIをナビゲートし、画面上のコンテンツを推論し、時間経過に伴うユーザーインターフェースの状態を理解するための知覚ループを強化します。また、顧客サービス、リサーチ、監視ワークフローでは、Nemotron 3 Nano Omniは継続的なオーディオとビデオのコンテキストを維持し、発言、表示、文書化された情報を単一の推論ストリームとして結合します。これは、会議記録分析、メディアおよびエンターテイメントアセット管理、ドライブスルー注文検証、顧客サービスビデオレビューといった広範なアプリケーションを可能にします。

Together AIによる開発者への提供とエコシステムへの影響

Together AIは、「Day 0」でNVIDIA Nemotron 3 Nano Omniを開発者に提供開始し、この革新的なマルチモーダルモデルへの即時アクセスを可能にしています。Together AIは「AI Native Cloud」として、専用の推論インフラストラクチャを通じてNemotron 3 Nano Omniのデプロイメントをサポートします。これにより、エンジニアリングチームは、高スループットの推論ワークロード向けに設計されたマネージドインフラストラクチャ上でこのオープンウェイトモデルをデプロイできます。

Together AIは、NVIDIA H200やH100 GPUなどの基盤となるインフラストラクチャを管理するため、開発者はGPUリソースを直接プロビジョニングすることなく、AIワークロードのデプロイとスケーリングに集中できます。Together AI Inference EngineとカスタムCUDAカーネルを通じてモデル実行が加速され、ライブ推論中のレイテンシー低減とスループット向上が実現されます。

Together AIは、OpenAI互換インターフェースを含む、開発者フレンドリーなAPIを提供しており、チームは最小限のコード変更でNemotron 3 Nano Omniを導入できます。これにより、マルチエージェントフレームワーク、プランニングシステム、ツール利用ワークフローへのスムーズな統合が促進され、生産規模の推論およびエージェントワークロードに理想的なプラットフォームとして機能します。

開発者・エンジニア視点での考察

  1. 複雑なエージェントシステム開発の加速: Nemotron 3 Nano Omniによるマルチモーダル知覚層の統合は、ビジョン、オーディオ、言語モデルを個別に連携させる手間を大幅に削減します。これにより、AIエージェントの推論ループが簡素化され、開発者はより複雑なエージェントロジックや高レベルのタスクオーケストレーションに注力できるようになります。これは、開発サイクルを短縮し、より高度なエージェント機能を迅速に市場に投入することを可能にします。

  2. コスト効率とスケーラビリティの最適化: 30B-A3BハイブリッドMoEアーキテクチャとFP8/NVFP4量子化の採用により、Nemotron 3 Nano Omniは高スループットと低レイテンシーで動作します。Together AIのようなマネージドプラットフォームで利用することで、開発者はGPUインフラの管理負荷から解放され、コストを抑えながら本番環境でのマルチモーダルAIエージェントを大規模に展開できます。特に、9倍高いスループットは、エージェントごとの運用コストを劇的に削減し、大規模な展開を現実的にします。

  3. 新たなユースケースの開拓とプロトタイピングの迅速化: 単一モデルで多様なモダリティ(テキスト、画像、動画、音声)を処理できる能力は、これまで別々のモデルを複雑に連携させる必要があったアプリケーションのプロトタイピングと開発を容易にします。GUI操作を伴うコンピューター利用エージェント、複数の形式のドキュメントを解析するインテリジェンスシステム、リアルタイムのビデオ/オーディオ分析を要するカスタマーサービスなど、幅広い業界で革新的なAIエージェントソリューションが生まれる可能性を広げ、開発者はより創造的なアプローチを試せるようになります。

Source / 元記事

この記事について

著者
AIBloom AI編集部
初回公開
最終更新

この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。

元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。

重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。

About AIBloom

ADVERTISEMENT