NVIDIA GB200 NVL72におけるSlurmブロック・スケジューリング:AIワークロード効率の最大化


ADVERTISEMENT

NVIDIA GB200 NVL72の革新的アーキテクチャ

NVIDIA GB200 NVL72は、リアルタイムの兆パラメータ推論とトレーニングのために設計された、革新的なラック・スケール・アーキテクチャを備えたエクサスケールコンピューターです。このシステムは、72基のNVIDIA Blackwell GPUと36基のGrace CPUを液冷設計で統合しています。GB200 NVL72の中核をなすのは、史上最大のNVIDIA NVLinkドメインによって相互接続された72基のGPUが、単一の巨大なGPUとして機能する点です。これにより、AIおよびハイパフォーマンスコンピューティング(HPC)ワークロード向けに、130テラバイト/秒(TB/s)という低遅延のGPU間通信が実現されています。

この統合されたアーキテクチャは、兆パラメータ規模のLLM推論を最大30倍高速化し、Mixture-of-Experts(MoE)アーキテクチャでは10倍優れた性能を発揮します。 個々のBlackwell GPUは、TSMCのカスタムビルド4NPプロセスで製造された2080億個のトランジスタを搭載し、10 TB/sのチップ間リンクで接続された2つのダイで構成されています。 液冷システムは、データセンターの設置面積を削減し、コンピューティング密度を高め、エネルギー効率を向上させます。NVIDIA H100の空冷インフラと比較して、GB200は同じ電力で25倍以上の性能を提供し、水の使用量を削減します。 従来のGPUクラスターがノード間のネットワークに大きく依存していたのに対し、NVL72プラットフォームはGPUをより緊密に統合することで、根本的に異なるアプローチを提供します。

Slurmブロック・スケジューリングによる効率最適化のメカニズム

NVIDIA GB200 NVL72のようなラック・スケールAIスーパーコンピューターでは、ハードウェアトポロジーとスケジューラの抽象化の間のミスマッチが運用上の複雑さを引き起こします。 この課題に対処するため、Slurmワークロードマネージャーの「topology/block」プラグインが極めて重要な役割を果たします。SlurmはHPCおよびAI/MLクラスター向けの強力なワークロードマネージャーであり、ジョブのスケジューリングとリソース割り当てを最適化します。

「topology/block」プラグインは、厳密に強制された階層的なブロック構造内でジョブにリソースを割り当てるようにSlurmを構成します。これにより、クラスター全体でのフラグメンテーションを最小限に抑え、NVLinkコヒーレントなラック・トポロジーを尊重したジョブ配置が優先されます。 このトポロジー認識型のスケジューリングは、特に大規模なAIワークロードにおいて性能を最大化するために不可欠です。例えば、ジョブがトポロジー認識型でスケジューリングされない場合、つまり、ノードが2つの異なるGB200 NVL72システムにまたがって分割される場合、トークン/秒のスループットで10%以上の性能低下が観測されました。 topology.confファイルは、クラスターのネットワークトポロジーを記述し、最適化されたジョブリソース割り当てを可能にします。 このアプローチにより、NVLinkラック境界内でノードのコヒーレンシーを維持することが、NVIDIA GB200 NVL72プラットフォームの潜在能力を最大限に引き出すために不可欠であると実証されています。

大規模AIワークロードにおける実践的効果と課題

Slurmのブロック・スケジューリングは、NVIDIA GB200 NVL72のような大規模AIインフラストラクチャにおけるワークロード効率を大幅に向上させます。Llama 4 Scout 17B事前学習ジョブのテストでは、トポロジー認識型Slurmブロック・スケジューリングを利用することで、単一ラック(16ノード/64 GPU)から複数ラック(64ノード/256 GPU)へのスケーリングにおいて、非アライメント実行と比較してスループットが13%向上しました。 NVIDIA Quantum InfiniBandを介して接続された4ラック構成(64ノード/256 GPU)では97%のスケーリング効率を達成し、さらに8ラック構成(128ノード/512 GPU)に拡張しても、96%という高いスケーリング効率を維持しました。

この結果は、NVLinkラック境界内のノードコヒーレンシーを維持することが、大規模NVIDIA GB200 NVL72トレーニングのスループットを最大化する上で最も重要であることを裏付けています。 GB200 NVL72クラスターでは、ラック内はNVLink、ラック間はInfiniBandという2層トポロジーを意識することが不可欠です。 分散並列ワークロードは最も遅い構成要素の速度で実行されるため、最も通信帯域幅の要求が高い並列処理グループがNVIDIA GB200 NVL72ラック上に適切に配置され、NVLink接続を最大限に活用できない場合、エンドツーエンドのワークロード性能は著しく低下します。 したがって、AIワークロードをGB200 NVL72クラスターで実行するには、ワークロードを慎重に設計し、大規模NVLinkファブリックの恩恵を最大限に受けるための準備が必要です。 また、GB200 NVL72はラックあたり120〜132kWという高い電力負荷を必要とし、専用の三相電源回路と高度な液冷設計が不可欠となるため、データセンターインフラの綿密な計画が求められます。

開発者・エンジニア視点での考察

  1. Slurm topology/blockプラグインの積極的な活用: NVIDIA GB200 NVL72のようなNVLinkドメインに基づくラック・スケールAIシステムでは、SlurmのTopologyPlugin=topology/block設定を導入し、topology.confで詳細なネットワークトポロジーを定義することが必須です。これにより、SlurmがジョブをNVLinkコヒーレントなパーティション内に配置するよう最適化され、GPU間通信の遅延と帯域幅のオーバーヘッドを最小限に抑え、トレーニングや推論のパフォーマンスを10%以上向上させることが可能になります。

  2. AIワークロードのNVLinkアウェアな設計とチューニング: 大規模言語モデルのトレーニングなど、高帯域幅と低遅延のGPU間通信を要求するAIワークロードでは、NVLinkファブリックの特性を最大限に活用できるよう、並列化戦略(例:データ並列、モデル並列)や集団通信(NCCL collectives)のパターンを慎重に設計し、最適化する必要があります。特に、通信負荷の高い処理が単一のNVLinkドメイン内で完結するようにジョブを編成することで、性能劣化を防ぎ、システム全体の効率を最大化できます。

  3. 複数ラック構成におけるハイブリッド・ネットワーク最適化: 複数ラックにわたるGB200 NVL72クラスター環境では、ラック内はNVLink、ラック間はNVIDIA Quantum InfiniBandという2層トポロジーを常に意識したスケジューリングとネットワーク設計が重要です。Slurmの--segmentオプションなどを活用してワーカーノードの分散を均等に行い、InfiniBandの帯域幅がボトルネックにならないようネットワーク構成を最適化することで、大規模なAIワークロードでも95%以上の高いスケーリング効率を維持し、システム全体のパフォーマンスを最大限に引き出すことが可能になります。

Source / 元記事

この記事について

著者
AIBloom AI編集部
初回公開
最終更新

この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。

元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。

重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。

About AIBloom

ADVERTISEMENT