Hedgehog、OCPにAIトレーニング/推論向けリファレンスアーキテクチャを提供:オープンAIインフラの新基準


ADVERTISEMENT

HedgehogによるOCPへのAIリファレンスアーキテクチャ提供の概要

AIネットワーク企業であるHedgehogは、Open Compute Project (OCP) に対して、AIトレーニングファブリックおよびAI推論ファブリックのデザインをリファレンスアーキテクチャとして提供したことを発表しました。これらのデザインはOCP Accepted™の認定を受け、OCP Marketplaceを通じて即座に利用可能となります。この貢献は、2026年OCP EMEAサミットで発表され、オペレーター、システムビルダー、インテグレーターに対し、分離されたハードウェアとHedgehog AIネットワークソフトウェアを活用したオープンなEthernetベースのAIネットワークを導入するための、検証済みの本番環境対応の設計図を提供することを目的としています。

HedgehogのCEOであるMarc Austin氏は、「AIネットワークを現実世界でより簡単に展開し、運用できるようにすることが常に目標だった」と述べており、これらの実績あるデザインを共有することで、ハードウェアやシリコンの選択肢を維持しながらコミュニティがより迅速に動けるようになることを強調しています。このリファレンスアーキテクチャは、シリコンベンダー間の相互運用性を重視し、ハードウェアのロックインを防ぎます。また、InfiniBandや独自の垂直統合型AIネットワーキングスタックに代わる、実行可能で実績のある代替手段を提供し、OCPスイッチ、OCP NIC、SONiC NOS、およびHedgehogのオープンソースソフトウェアを組み込んでいます。

AIトレーニングファブリック:大規模GPUクラスタの性能を最大化

Hedgehogが提供するAIトレーニングファブリックは、大規模なGPUクラスタ向けに特別に設計されており、予測可能なパフォーマンスを実現します。主な技術的特徴としては、輻輳を認識したルーティング、ロスレスEthernet、および自動化されたネットワークライフサイクル管理が挙げられます。AIトレーニングジョブは帯域幅を大量に消費し、同期ポイントではレイテンシに非常に敏感です。そのため、ネットワークは高スループットで、最小限のジッターでオールツーオール通信をサポートする必要があります。

Hedgehogのデータプレーンは、バックエンドGPUファブリックにおける輻輳を管理し、RoCEv2、ECN(Explicit Congestion Notification)、PFC(Priority Flow Control)を活用してルーティングを最適化することで、最適なAIネットワーク性能を保証します。これは、何千ものxPU間で大量の東西方向の帯域幅を最適化し、GPU投資の無駄を最小限に抑えることを目的としています。

AI推論ファブリック:効率性と低遅延を実現する設計思想

一方、AI推論ファブリックは、効率性と低遅延を追求して最適化されています。このデザインは、マルチテナントセキュリティ、ハイブリッドマルチクラウドルーティング、簡素化された運用、および大規模での一貫したパフォーマンスを提供します。推論ワークロードは、トレーニングワークロードとは異なり、南北方向のスループット、マルチテナントの分離、ゲートウェイサービス、および運用上の簡素化を重視します。

Hedgehogのリファレンスアーキテクチャは、64から1,024 xPU規模のクラスタをターゲットとし、KubernetesネイティブなコントロールプレーンとしてのHedgehog AI Networkと、OCP準拠スイッチ上のネットワークオペレーティングシステムとしてのSONiCを使用しています。推論ファブリックには2つのプロファイルが定義されています。一つは「Minimal Inference」で、バックエンドネットワークを持たない統合型スケールアウト・ストレージファブリックであり、すべてのトラフィックはゲートウェイ経由で南北に流れます。もう一つは「Distributed Inference」で、バックエンドネットワークを追加することで、より広範な推論ワークロードに対応します。

オープンネットワーキングとKubernetesによる運用自動化

Hedgehogの貢献の中心にあるのは、オープンなネットワーキングソフトウェアとKubernetesを活用した運用自動化の原則です。Hedgehog AI Networkは完全にオープンソース(Apache 2.0)であり、Linux FoundationのオープンネットワークオペレーティングシステムであるSONiCの上に構築されています。すべてのトポロジーとオーバーレイ定義はKubernetesのCustom Resource Definitions (CRD) として表現され、GitOps互換モデルを通じて配線、テナントオーバーレイ、外部接続がバージョン管理され、レビュー可能なインテントとして扱われます。

このアプローチにより、Day-0のゼロタッチプロビジョニング、Day-1のトポロジーとオーバーレイのオンボーディング、そしてDay-2の継続的な調整と可観測性を含む、ファブリックのライフサイクル全体が自動化されます。これにより、組織は最新のデータセンターおよびAIインフラストラクチャの設計、展開、運用を簡素化し、ベンダーロックインなしでスケーラブルな高性能Ethernetファブリックを実現できます。

開発者・エンジニア視点での考察

  1. Kubernetes Custom Resource Definitions (CRDs) を用いてネットワークトポロジーを定義するアプローチは、GitOps互換のプラクティスを可能にします。これにより、ネットワーク構成をアプリケーションコードと同様にバージョン管理、レビュー、デプロイできるため、AIワークロードのネットワークライフサイクル管理が大幅に効率化され、Infrastructure-as-Codeの実現を加速します。

  2. シリコンベンダー間の相互運用性と、InfiniBandではなくEthernetのようなオープンスタンダードへの移行が強調されている点は、ハードウェアのロックインという重要な課題に対処しています。開発者はハードウェア調達においてより高い柔軟性を享受し、単一ベンダーのエコシステムに縛られることなくAIシステムを設計できるため、イノベーションとコスト効率の向上に貢献します。

  3. AIトレーニングファブリックと推論ファブリックが異なる最適化(トレーニングには輻輳認識ルーティング、推論にはマルチテナントセキュリティなど)を持っているという区別は、ワークロードに特化したネットワーク設計の重要性を示しています。これにより、開発者はネットワークインフラをアプリケーション要件に正確に適合させ、ボトルネックを防ぎ、開発環境と本番環境の両方でGPU利用率を最大化することができます。


Source / 元記事

この記事について

著者
AIBloom AI編集部
初回公開
最終更新

この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。

元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。

重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。

About AIBloom

ADVERTISEMENT