BroadcomとMeta、マルチギガワット級AIインフラを支えるMTIAカスタムシリコン戦略的提携を拡大 - 次世代AIデータセンターの実現へ
BroadcomとMeta、次世代AIインフラ構築に向けた戦略的提携を強化
BroadcomとMetaは、Metaの急速に拡大するAIコンピューティングインフラを支援するため、複数年にわたる多世代にわたる戦略的パートナーシップの拡大を発表しました。この提携は2029年まで継続される計画で、最先端のAIデータセンター展開の基盤を築くものです。初期段階では1ギガワット(GW)を超える規模でのコミットメントがなされており、その後は持続的なマルチギガワット規模の展開が見込まれています。これにより、WhatsApp、Instagram、ThreadsといったMetaのアプリケーション全体で、数十億人に対しリアルタイムの生成AI機能と「パーソナル・スーパーインテリジェンス」を提供するために必要なハードウェアの共同設計と拡張を強化します。
このパートナーシップは、業界初の2nm AIコンピューティングアクセラレーターの展開を核としており、MetaのAIインフラストラクチャを複数のシリコン世代にわたって最適化し、深く共同開発するためにBroadcomの業界をリードするXPUプラットフォームが活用されます。これにより、MetaはAIモデルの進化に伴うコンピューティング需要の増大に対応し、電力効率と性能を向上させることを目指しています。
MTIAカスタムシリコンの技術的深化とBroadcom XPUプラットフォームの役割
Metaは、AIワークロードの効率化のために独自に設計したカスタムシリコンであるMeta Training and Inference Accelerator(MTIA)を推進しています。MTIAは、推論と大規模なレコメンデーションに特化して最適化されており、MetaのAIシリコンに対する「ポートフォリオアプローチ」の重要な柱となっています。これにより、特定のワークロードに対して最適なアクセラレーターを組み合わせ、最高のパフォーマンスと総所有コスト(TCO)を実現しています。
初代MTIA ASICは、TSMCの7nmプロセスで製造され、800MHzで動作し、INT8精度で102.4 TOPS、16ビット浮動小数点精度で51.2 TFLOPSの性能を提供しました。また、25Wの熱設計電力(TDP)を持ち、128MBのSRAMとLPDDR5-5500メモリを搭載していました。Metaは今後2年間でさらに4世代のMTIAチップを展開する予定であり、これらはランキング、レコメンデーション、および生成AIワークロードをサポートします。最新世代のMTIAチップは、アーキテクチャの改善、高密度な演算性能、メモリ容量と帯域幅の増加を特徴とし、主要モデルにおいて初代チップと比較して最大3倍の性能向上を実現しており、PyTorch 2.0との統合も図られています。BroadcomのXPUプラットフォームは、ロジック、メモリ、高速I/Oを密接に結合させることで、MTIAの現在の展開だけでなく、将来のイテレーションに対応する適応性の高い多世代設計図を確立し、チップ設計や高度なパッケージングにおける共同開発を可能にしています。
マルチギガワット級AIデータセンターを支える先進イーサネットと光接続技術
大規模なAIデータセンターの構築において、ネットワーキングインフラストラクチャは極めて重要な役割を果たします。Broadcomは、MetaのAIコンピューティングクラスター全体でボトルネックを排除し、シームレスな高帯域幅のスケールアップ、スケールアウト、スケールアクロスなネットワーキングを可能にする先進的なイーサネット技術を提供しています。
具体的には、Broadcomは、高ラディックスイーサネットスイッチ、光接続製品、PCIeスイッチ、および高速SerDes機能を含む業界をリードするイーサネットネットワーキングソリューションを提供し、標準ベースの低遅延ファブリックを構築しています。その中核をなすのがTomahawk 5スイッチシステムであり、51.2 Tbpsのスイッチング容量を実現し、代替ソリューションと比較して48%の電力消費削減という優れた電力効率を提供します。Tomahawk 5は、AI/MLワークロード向けに、リンク利用率を最適化し、ジョブ完了時間を短縮するコグニティブルーティングなどの機能を搭載しています。
さらに、Broadcomのコパッケージドオプティクス(CPO)技術は、次世代AIインフラストラクチャにおいて不可欠な役割を担います。CPOは、光コンポーネントをスイッチASICやAIアクセラレーターなどの処理チップに直接統合することで、従来のプラグ式光モジュールと比較して、帯域幅密度を大幅に向上させ、65%もの電力削減を実現し、信号損失を最小限に抑え、データ速度を加速します。MTIAが推論と低精度処理に最適化され、ほぼゼロに近い遅延を必要とすることを考えると、CPOは現在のMTIAグリッドと将来の拡張において、持続的な利用を保証し、進化するメモリ階層を優雅に処理しながら、総所有コスト(TCO)を劇的に削減する上で極めて重要です。これにより、Broadcomは「200T AI時代」への道を切り拓き、スケーラブルで電力効率の高いギガワット級AIクラスターを可能にしています。
AI開発者・研究者への洞察:スケーラブルなAIインフラ設計への示唆
-
カスタムシリコンとコデザインの重要性の高まり: MetaとBroadcomのパートナーシップは、単なるサプライヤー関係を超え、チップ設計、高度なパッケージング、ネットワーキングを含む深い共同設計(コデザイン)に注力しています。これは、特定のAIワークロードに最適化されたカスタムシリコン(MTIA)が、汎用GPUと比較して性能とTCOの両面で優位性を持つことを示唆しています。開発者や研究者は、利用するAIモデルの特性を深く理解し、それに最も適したハードウェアアーキテクチャや、ハードウェアとソフトウェアの協調設計(コデザイン)が可能なプラットフォームを選択することが、今後のAI開発のボトルネック解消と効率化の鍵となります。
-
超低遅延イーサネットと光接続技術への注目: MTIAが推論と低精度処理に焦点を当て、ほぼゼロに近い遅延を要求するという事実は、AIデータセンターのネットワークファブリックにおける低遅延と高帯域幅の極めて重要な役割を浮き彫りにしています。Tomahawk 5のような高機能イーサネットスイッチや、CPO技術による光接続の進化は、AIクラスターのスケーラビリティと効率を決定づける要素です。AIアプリケーション開発者は、モデルの計算要件だけでなく、データ転送のパターンやネットワークトポロジーが全体のパフォーマンスに与える影響を考慮し、最先端のネットワーク技術を最大限に活用できるような分散処理戦略を検討する必要があります。
-
マルチギガワット級インフラにおけるTCO削減への視点: 1GWを超える初期コミットメントとマルチギガワット級への拡張計画は、AIインフラにおける電力効率とTCO削減が最優先事項であることを明確に示しています。BroadcomのTomahawk 5の電力効率やCPOの省電力性は、この課題に対する具体的なソリューションを提供しています。AIインフラを設計する開発者やデータセンター運用者は、初期導入コストだけでなく、長期的な運用コスト、特に電力消費を最小限に抑えるためのハードウェア選択とシステム最適化に重点を置くべきです。これにより、持続可能で経済的なAIインフラの実現が可能となります。


