Metaにおけるキャパシティ効率の最適化:ハイパースケールを支える統合AIエージェント


ADVERTISEMENT

統合AIエージェントプラットフォームによる効率化の推進

Metaは、ハイパースケール環境におけるパフォーマンス問題の特定と修正を自動化するため、「キャパシティ効率プログラム」の一環として統合AIエージェントプラットフォームを構築しました。このプラットフォームは、経験豊富な効率エンジニアのドメイン専門知識を再利用可能で組み合わせ可能なスキルとしてエンコードし、標準化されたツールインターフェースを通じて提供します。これにより、AIエージェントはシステムの効率性を「攻め」(最適化機会の事前特定)と「守り」(本番環境でのリグレッションの検出と緩和)の両面から向上させます。

具体的には、「守り」の側面では、Meta社内で開発されたリグレッション検出ツール「FBDetect」が毎週数千のリグレッションを捕捉し、自動化された迅速な解決によってフリート全体で無駄になる電力量を削減しています。一方、「攻め」の側面では、AIを活用した最適化機会の解決がより多くの製品領域に拡大されており、手動では対応しきれない多数の改善を処理しています。このシステムは、手動でのリグレッション調査に要する時間を数時間から数分に短縮し、結果として数百万ワットの電力を節約することに成功しました。これにより、プログラムは人員を比例的に増やすことなく、より多くの製品領域でMW(メガワット)の節約を実現するスケーラビリティを獲得しています。

ハイパースケールAIインフラストラクチャの最適化戦略

MetaのAIワークロードを支えるハイパースケールインフラストラクチャは、ネットワーク、カスタムシリコン、GPU展開、ソフトウェア最適化といった多岐にわたる戦略を通じて継続的に最適化されています。AIワークロードの爆発的な成長に対応するため、Metaのネットワークエンジニアリングチームは、バックボーンネットワークのスケーリング計画を2028年から2024-2025年に前倒しし、10倍の容量増加を必要としました。これに対し、メトロ圏内での光ファイバーリングトポロジーによるスケーラブルなデータセンターアーキテクチャの事前構築、ベンダー依存の改善(大型シャーシ、高速インターフェース)と内部革新(バックボーンプレーンの追加、プレーンあたりの複数デバイス)を通じたプラットフォームスケーリング、そしてコヒーレントトランシーバー技術を用いたIP-光統合により、消費電力を80-90%削減しつつスペース効率を劇的に向上させています。

また、MetaはカスタムAIチップの開発にも注力しており、Broadcomとのパートナーシップを拡大して、複数の世代のカスタムAIチップ「MTIA (Meta Training and Inference Accelerator)」を共同開発しています。これは、推論効率とEthernetスケーリングインフラストラクチャをターゲットにしており、特にレコメンデーションシステムや生成AIワークロード向けに、特定のワークロードに異なるアクセラレータを組み合わせる「ポートフォリオアプローチ」を強調しています。GPUに関しては、NVIDIAとの多年度にわたる戦略的パートナーシップにより、NVIDIA Grace CPUの大規模導入に加え、数百万個のNVIDIA BlackwellおよびRubin GPUを展開し、データセンターのワットあたりパフォーマンスを大幅に向上させています。ソフトウェア面では、PyTorch 2.0のようなフレームワークがGPUレベルでのモデルパフォーマンスを向上させ、トレーニング時間を短縮するなど、キャパシティ利用あたりの出力を高めることに貢献しています。

成果とエンジニアリング文化への影響

Metaのキャパシティ効率プログラムは、運用効率において顕著な成果を上げています。統合AIエージェントプラットフォームによって、数百万ワットの電力を削減し、手動でのリグレッション調査に要する時間を大幅に短縮しました。これにより、エンジニアはパフォーマンス問題の対処から解放され、新製品の革新に時間を費やすことができるようになっています。最終目標は、AIが効率化の「ロングテール」を処理する自己持続可能な効率エンジンを構築することです。

このアプローチは、Metaのエンジニアリング文化にも深く根ざしています。同社は「完璧ではなく失敗を前提とした設計」を重視し、ワークロードから始めて現実をストレステストし、グローバル規模でインフラの混沌を自動化する進化する戦略を採用しています。また、迅速なイテレーション、共通のインフラストラクチャ、テクノロジーのオープン性を特徴とし、すべてのプロジェクトのコードを単一のリポジトリに保存する「モノレポ」アプローチを採用することで、コードの発見と再利用、チーム間の貢献を促進しています。これにより、AIモデルの急速な進化とインフラストラクチャへの要求増大に対し、迅速かつ堅牢に対応できる体制を構築しています。

開発者・エンジニア視点での考察

  1. エージェントベースの自動化が開発者のイノベーションを加速する可能性: MetaのAIエージェントは、パフォーマンス監視や最適化といった定型的なインフラタスクを自動化することで、エンジニアが新機能開発やより複雑な問題解決に集中できる時間を作り出しています。これは、単なるタスクオフロードに留まらず、開発チーム全体の生産性とイノベーション速度を根本的に向上させるモデルとして注目に値します。特に、シニアエンジニアの専門知識を「スキル」としてエージェントにエンコードするアプローチは、組織全体の知識共有とスケーラビリティの向上に貢献します。

  2. ハイパースケールにおける「攻め」と「守り」のAI活用戦略: キャパシティ効率プログラムが「攻め」(最適化機会のプロアクティブな発見)と「守り」(リグレッションの緩和)の両面でAIを活用している点は、大規模システム開発において重要なパラダイムを示唆しています。開発者は、自身のアプリケーションやサービスのライフサイクル全体を通じて、AIをどのように組み込み、継続的な改善と安定性を両立させるかを検討するべきです。特に、本番環境での予期せぬパフォーマンス劣化をAIが自動検出し、原因特定を支援するFBDetectのようなシステムは、開発者のデバッグ負荷を劇的に軽減するでしょう。

  3. 多様なAIワークロードに対応するインフラストラクチャ設計の重要性: Metaが異なるハードウェア(H100を基盤モデルトレーニングに、A100をファインチューニングに)を特定のワークロードに合わせて最適化するアプローチ(ハードウェア・ワークロードマッチング)は、リソースの効率的利用の鍵となります。開発者は、自身のAIモデルがどのような計算リソース特性(例:レイテンシ重視のLLM、スループット重視の推薦エンジン)を持つかを深く理解し、その特性に最適なインフラストラクチャ設計やデプロイ戦略を要求・検討していくことが、ハイパースケールAI時代における必須スキルとなるでしょう。

ADVERTISEMENT