NVIDIA Vera Rubinプラットフォーム:エージェンティックAIのスケールアップ課題を解決する次世代アーキテクチャ


ADVERTISEMENT

エージェンティックAIが直面するスケーリングの課題

エージェンティックAIは、自律的な推論、計画、および行動を通じて、従来の自動化システムを凌駕する強力な能力を提供する一方で、その実運用におけるスケーリングは複雑な課題を伴います。特に、非決定論的な実行経路、膨大なトークン消費、長大なコンテキスト長、そして厳しい低レイテンシ要件が、従来の推論サービングモデルでは経済的に成り立たない状況を生み出しています。

エージェントは、ツール呼び出し、サブエージェントの生成、メモリへの情報保持、コンテキストウィンドウの管理、そしてタスク完了の自己決定を行うため、セッションあたり数百回の推論リクエストにわたるエンドツーエンドのレイテンシが複合的に増加します。これにより、オーケストレーションの複雑性が飛躍的に増大し、システムの観測可能性、コスト管理、評価、そしてガバナンスが重大な障壁となります。例えば、従来のAPIとは異なり、エージェントシステムは可変的な実行パスを持つため、コスト予測が困難であり、異常なエッジケースが通常の50倍のコストを発生させる可能性もあります。NVIDIA Vera Rubinプラットフォームは、これらの根本的なボトルネックに対処するために設計されました。

NVIDIA Vera Rubinプラットフォームの極限的共同設計アーキテクチャ

NVIDIA Vera Rubinプラットフォームは、「極限的共同設計 (extreme co-design)」アプローチを採用し、エージェンティックAIおよびMixture-of-Experts (MoE) モデルのスケーリングボトルネックを解消するために、複数の専用チップを単一のコヒーレントなスーパーコンピュータとして機能させるように設計されています。このプラットフォームは、以下の7つの主要チップで構成されます。

  1. Rubin GPU: TSMC 3nmプロセスで製造されるこのデュアルダイGPUは、3360億個のトランジスタを搭載し、288GBのHBM4メモリ(帯域幅22 TB/s)を備えています。NVFP4推論性能は50 PFLOPS(Blackwellの5倍)、トレーニング性能は35 PFLOPS(Blackwellの3.5倍)に達し、第3世代Transformer Engineによるハードウェアアクセラレーション適応圧縮により精度を維持しながら性能を向上させます。特に推論ワークロードと大規模な推論に最適化されています。

  2. Vera CPU: NVIDIA初のスタンドアロンデータセンターCPUであり、88個のカスタムArmベースOlympusコア(Armv9.2)、176スレッドを備えています。最大1.5 TBのSOCAMM LPDDR5Xメモリ(帯域幅1.2 TB/s)と、1.8 TB/sのNVLink-C2Cコヒーレント帯域幅(PCIe Gen 6の7倍)を通じてGPUと接続されます。その役割は、オーケストレーション、ワークロードスケジューリング、KVキャッシュルーティング、およびエージェンティックワークフローのコントロールプレーンであり、データ移動、オーケストレーション、エージェンティック推論に特化して構築されています。

  3. NVLink 6 Switch: NVIDIAの高速GPUインターコネクトファブリックの主要な飛躍であり、Rubin GPUあたり3.6 TB/sの双方向帯域幅(Blackwellの2倍)を提供し、NVL72ラックあたり260 TB/sの集約スケールアップ帯域幅を実現します。インネットワーク演算により、MoEルーティングのオールツーオール集合演算を高速化します。

  4. ConnectX-9 SuperNIC: 400Gb/sから800Gb/sのネットワーク速度を提供し、システム全体のネットワーク速度は28.8 TB/sに達します(前世代の2倍の性能向上)。

  5. BlueField-4 DPU: データ処理とストレージアクセラレーションを担い、BlueField-3と比較して演算能力が最大6倍向上しています。AI推論に特化したストレージサーバーのコントローラとしても機能します。

  6. Spectrum-6 Ethernet Switch: AIファクトリ向けにイーサネットネットワーキングを提供します。

  7. Groq 3 LPU (LPX): Vera Rubin向けの低レイテンシ推論アクセラレータで、128GBのオンチップSRAM、40 PB/sのメモリ帯域幅、およびラックあたり640 TB/sのスケールアップ帯域幅を特徴とします。

これらのコンポーネントは、特にVera Rubin NVL72ラック構成において統合され、72基のRubin GPUと36基のVera CPUがNVLink 6で接続され、ConnectX-9 SuperNICおよびBlueField-4 DPUが組み込まれています。このシステムは、総計20.7 TBのHBM4メモリ(帯域幅1.6 PB/s)と54 TBのLPDDR5Xメモリを搭載し、100%液冷により、約190kW(Max Q)/約230kW(Max P)の電力消費で動作します。

圧倒的なパフォーマンスと効率性、そして革新的なソフトウェアスタック

NVIDIA Vera Rubinプラットフォームは、エージェンティックAIの経済的課題を劇的に解決します。Blackwellアーキテクチャと比較して、推論トークンあたりのコストを10分の1に削減し、ワットあたりの推論スループットを10倍向上させます。Groq 3 LPXと組み合わせることで、メガワットあたり35倍のトークン/秒を実現します。

このプラットフォームは、400kの長大なコンテキストを持つ数兆パラメータのMoEモデルに対して、ユーザーあたり400トークン/秒以上の性能を提供し、従来のAIシステムにおける品質と速度のトレードオフを解消します。また、数兆パラメータモデルのトレーニングを4分の1のGPU数で可能にし、設備投資と運用コストを大幅に削減します。2026年までに、Vera Rubinは8 EFLOPSの演算能力を提供するとされ、これは世界のTOP500スーパーコンピュータの合計性能に匹敵します。

ハードウェアだけでなく、ソフトウェアスタックもエージェンティックAIに最適化されています。NVIDIAのDynamoとAttention-FFN Disaggregation (AFD) は、最適なプロセッサ間で作業を分割し、実行を調整することで、一貫したサービングパスを構築します。これにより、リソース競合とレイテンシが低減され、Dynamoはエージェントハーネスにキャッシュのプログラマビリティを公開します。さらに、NVIDIA TensorRT-LLMなどのソフトウェアソリューションは、GH200と組み合わされ、RAGアプリケーションにおける大規模なバッチサイズ、複雑なクエリ、および新規データの効率的な処理を可能にします。

開発者・エンジニア視点での考察

  1. エージェンティックAI開発とデプロイメントの劇的な簡素化: Vera Rubinプラットフォームは、Vera CPUによるオーケストレーションとRubin GPUによる高速推論が密接に統合されており、従来の分散システムで必要とされた複雑なメモリ管理や通信の最適化を抽象化します。これにより、開発者は基盤となるインフラストラクチャの複雑さに煩わされることなく、エージェントのロジックと機能の開発に集中でき、プロトタイプから本番環境への移行が大幅に加速されるでしょう。

  2. 大規模・長コンテキストエージェントの経済的実行可能性の確保: 従来のアーキテクチャでは法外なコストがかかっていた数兆パラメータ規模のMoEモデルや、長大なコンテキストを必要とするエージェンティックAIワークロードが、Vera Rubinプラットフォームのトークンあたりコスト10分の1、ワットあたりスループット10倍という経済性によって、初めて実運用可能なレベルに到達します。これにより、これまで技術的・経済的に困難であった、人間のように長時間にわたって推論し、学習し、行動する高度なエージェントの構築と展開が現実的になります。

  3. 革新的なエージェント能力を解き放つ新しいソフトウェアパラダイム: DynamoやAttention-FFN Disaggregation (AFD) といったNVIDIAのソフトウェアスタックは、エージェントの非決定論的な実行経路や高いトークン消費量に対して、効率的なリソース割り当てとレイテンシ最適化を可能にします。特にキャッシュのプログラマビリティの公開は、エージェントが自己のコンテキスト管理やメモリ戦略を最適化するための新たなフックを提供し、より自律的で効率的なエージェント設計を可能にする、新たなソフトウェア開発パラダイムを創出する可能性があります。

Source / 元記事

この記事について

著者
AIBloom AI編集部
初回公開
最終更新

この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。

元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。

重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。

About AIBloom

ADVERTISEMENT