データセンター瞬時停電耐性検証:Metaの「Instantaneous PowerLoss Storm」と「Power Loss Siren」


ADVERTISEMENT

「Instantaneous PowerLoss Storm」:ゼロ通知停電への新たな検証パラダイム

データセンターインフラの規模と多様性が増大するにつれて、Metaは予兆なく発生する「ゼロ通知災害」、特に瞬時停電に対する耐性の向上を強く求めています。この課題に対応するため、Metaは既存の災害対策(DR)プログラム「Storm」に新たなテストパラダイムである「Instantaneous PowerLoss Storm」を導入しました。これは、既知、新興、および未知のリスクに起因する瞬時停電やゼロ通知停電に対処し、その影響を軽減するための最終防衛線、究極のセーフティネットとして機能します。このパラダイムは、データセンター全体の可用性への影響を最小限に抑えることを目的としています。

この耐障害性は、機械的・電気的設備からサーバラック、ストレージ、計算リソース、さらにはコアのTwineコンテナオーケストレーターに至るまで、データセンタースタックの基盤から構築されています。この多層防御戦略(defense-in-depth strategies)により、既存の各アーキテクチャが電力損失耐性を不可欠なコンポーネントとして開発されています。例えば、ラックが電力供給を失った際に、インメモリデータをバッテリーとPower Loss Siren (PLS) を使用して永続化する機能はその一つです。

多層防御戦略の中核:Power Loss Siren (PLS) の技術的詳細

Metaの瞬時停電耐性戦略の中核をなすのが、ラックレベルで低遅延な分散型電力損失検出および警告システムである「Power Loss Siren (PLS)」です。 PLSは、既存のラック内バッテリーを活用し、追加のハードウェアを必要とせずに、差し迫った電力損失についてサービスに通知する仕組みを提供します。

PLSの動作メカニズムは以下の通りです。

  1. 電力損失検出: PLSリレーは、電源からの電力損失信号を継続的にポーリングします。

  2. 事前警告: 信号が検出されると、PLSリレーは、ラック内のすべてのサーバーに対して、少なくとも45秒前に迫る電力損失イベントを、リンクローカルなUDPマルチキャストを介して通知します。この45秒という待機時間は、電源装置のメンテナンスやユーティリティ電源からバックアップジェネレーターへの切り替えといった電力移行を考慮したものです。

  3. 緩和ハンドラの実行: 各サーバー上で実行されるリスナーデーモンであるPLSハンドラは、ラックがバッテリー電力で動作している間に、PLSリレーからの警告を受信します。その後、PLSハンドラは、サービスによって事前に設定された緩和ハンドラを起動し、サーバーの停止を未然に防ぎます。 具体的な緩和策としては、プライマリデータベースが停電に陥った際にリモートのセカンダリデータベースに昇格させたり、電力喪失中のホストからリクエストをルーティングし直したり、メモリ内容をディスクにフラッシュしたりすることが挙げられます。

  4. 最終的な電力喪失: ラックのAC電力損失から約90秒後、バッテリーが枯渇し、ラック内のすべてのサーバーが電力供給を失います。

このシステムにより、サービスはサーバーがダウンした後に受動的にフェイルオーバーするのではなく、電力損失が完全に発生する前に能動的にフェイルオーバーすることが可能になります。 PLSはまた、物理インフラ管理を簡素化し、クリティカルなサービスに追加の電源冗長性を必要としないという利点も提供します。

AIインフラにおける瞬時停電耐性の意義と課題

Metaが取り組むデータセンターの瞬時停電耐性向上は、特にAIインフラストラクチャにとって極めて重要な意味を持ちます。AIモデルのトレーニング、推論、大規模なデータ処理は、膨大な計算リソースとストレージを必要とし、わずかなサービス中断でも多大な損失や遅延を引き起こす可能性があります。瞬時停電は、学習中のモデルの状態、推論キャッシュ、または分散データストアの整合性に直接的な脅威を与えます。

PLSのようなシステムは、これらのAIワークロードが予期せぬ停電イベントに直面した際に、重要なデータを安全に永続化し、可能な限り迅速にサービスを復旧させるための基盤を提供します。例えば、大規模言語モデル(LLM)のトレーニングにおいて、数日または数週間かかるチェックポイント作成期間中に停電が発生した場合、PLSが提供する事前警告と緩和策は、現在の学習状態を保存し、再開に必要な時間を大幅に短縮することに貢献します。

しかし、AIワークロードの複雑さと多様性は、緩和策の設計に新たな課題をもたらします。例えば、リアルタイム推論サービスでは、45秒間の猶予期間中にどれだけの処理を完了し、いかにしてシームレスなサービス移行を実現するかが問われます。また、GPUクラスターのような高密度な計算環境では、バッテリーバックアップの電力供給能力と持続時間も重要な設計因子となります。AIインフラの進化に伴い、このような瞬時停電への対応能力は、システムの信頼性と運用効率を決定する上で不可欠な要素となりつつあります。

開発者・エンジニア視点での考察

  1. マイクロサービスアーキテクチャにおける電力喪失ハンドラの設計の重要性: PLSが提供する事前警告APIを活用し、各マイクロサービスがその責任範囲内で最適なシャットダウンまたはデータ永続化ロジックを実装することは、システム全体の耐障害性を高める上で不可欠です。サービス開発者は、自身のサービスが保持するインメモリデータや処理中のタスクについて、45秒程度の猶予期間内でどのように安全な状態に移行させるかを、設計段階から考慮する必要があります。

  2. データ永続化と整合性維持のための非同期処理とバッテリーバックアップの活用: 大規模なAIワークロードでは、インメモリデータの量が多く、ディスクへのフラッシュには時間がかかる場合があります。PLSのようなシステムは、ラックレベルのバッテリーバックアップにより短時間の電力供給を保証しますが、この間にすべてのデータを同期的に永続化することは困難な場合があります。開発者は、非同期I/O、分散トランザクション、およびフォールトトレラントなデータ構造を組み合わせることで、電力喪失時においてもデータの整合性を損なわずに、最小限のデータ損失で復旧できるような戦略を構築することが求められます。

  3. インフラレベルのイベント検知システムとアプリケーション層の連携による耐障害性向上: PLSはインフラレベルで電力損失を検知し、アプリケーション層に通知する重要な役割を果たします。AI開発者は、この低レイテンシな通知を活用し、アプリケーション内のスケジューラー、オーケストレーター、およびロードバランサーが、影響を受けるリソースを事前に除外し、健全なリソースにワークロードを再分配するような自動化されたプロセスを構築することを検討すべきです。これにより、単一障害点のリスクを軽減し、サービスの中断時間を最小限に抑えることが可能になります。

Source / 元記事

この記事について

著者
AIBloom AI編集部
初回公開
最終更新

この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。

元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。

重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。

About AIBloom

ADVERTISEMENT