Google、AI学習と推論の次世代を担う第8世代TPU「8t」と「8i」を発表


ADVERTISEMENT

Google 第8世代TPU、AI学習用「8t」と推論用「8i」を発表

Google LLCは、Google Cloud Next 2026において、人工知能向けに設計された2種類のカスタムシリコンチップ、第8世代Tensor Processing Unit(TPU)8tとTPU 8iを発表しました。これらのチップは、AIエージェントの台頭により進化するAIワークロードの多様な要求に対応するため、大規模なモデル学習と高並行推論という異なる目的に特化して設計されています。従来の「Ironwood TPU」が推論時代における単一の巨大なフラッグシッププラットフォームとして位置づけられていたのに対し、今回は「エージェント時代」を支えるべく、大規模学習と高並行推論のためのアーキテクチャを分離したのが大きな特徴です。これにより、AIモデルの構築と実行という2つの主要なタスクそれぞれにおいて、大幅な性能向上と効率化が実現されます。両チップは、前世代と比較して2倍のワットあたり性能向上を達成しているとGoogleは述べています。これらの新しいTPUシステムは、今年後半に提供が開始される予定です。

TPU 8t:大規模AIモデル学習を加速する革新的アーキテクチャ

TPU 8tは、大規模な事前学習や埋め込み処理が多用されるワークロード向けに最適化された学習特化型チップです。その核となる技術的特徴は以下の通りです。

  • 3Dトーラスネットワークトポロジー: 大規模チップネットワーキングにおいて高いスケーラビリティを発揮することが実証されている3Dトーラスネットワークトポロジーを採用しています。これにより、単一ポッド内で9,600個のチップをネットワーク接続可能となり、前世代のIronwoodの9,216チップから拡張されました。また、前世代と比較してチップ間帯域幅が2倍になっています。
  • SparseCore: 大規模言語モデルのルックアップに頻繁に発生する不規則なメモリアクセスを処理するために設計された専用アクセラレータです。
  • ネイティブ4ビット浮動小数点: メモリ帯域幅の最適化問題を克服するために、ネイティブ4ビット浮動小数点をサポートしています。これにより、スループットを2倍にしながらも精度を維持し、より小さなメモリフットプリントでのトレーニングを可能にします。
  • 量子化によるモデル圧縮: パラメータあたりのビット数を削減する量子化プロセスにより、より小規模なシステムで大規模モデルを実行可能にし、エネルギー消費を抑え、ローカルハードウェアへの適合性を高め、ピーク利用率を達成します。
  • 高性能: Ironwood TPUと比較して最大2.8倍の学習速度を実現するとGoogleは主張しています。
  • RAS機能と「Goodput」: 信頼性、可用性、保守性(RAS)の向上により、学習に費やされる実効時間である「goodput」を97%まで高められるとされています。フロンティアスケールの学習では、わずかなパーセンテージの違いが数日間の学習時間差に繋がるため、この点は極めて重要です。
  • 共有HBM容量: 単一のTPU 8tスーパーポッドは、2ペタバイトの共有高帯域幅メモリ(HBM)に拡張されます。

TPU 8i:エージェントAI時代の低遅延・高並行推論を最適化

TPU 8iは、AIモデルが学習後に実際のタスクを実行する「推論」に特化しており、特にポストトレーニング処理と高並行推論の最適化に優れています。エージェントAI時代において、複雑なワークフローを多段階に分割する「推論」タスクの重要性が高まっており、Googleはこの動向に対応したチップとして8iを位置づけています。その主要な技術的特徴は以下の通りです。

  • 強化されたSRAMとHBM: Ironwoodと比較して3倍のSRAM(スタティックランダムアクセスメモリ)を搭載し、より大きなキーバリューキャッシュを推論時に保持することで、LLMのテキスト生成速度を大幅に向上させます。また、ポッドあたりのHBM容量は、前世代の49.2TBから331.8TBへと大幅に増加しています。TPU 8iは、8.6TB/sの帯域幅を持つ288GBのHBMと、384MBのオンチップSRAMを搭載し、10.1PFLOPSのFP4演算能力を提供します。
  • 低遅延とコスト効率: 特に低遅延が求められるシナリオにおいて、Ironwoodと比較して約80%の性能対ドル改善を目標としており、超大規模なMixture-of-Experts(MoE)フロンティアモデルの提供時に特に有効です。
  • ネットワーク最適化: MoE LLMや推論モデルに必要なall-to-all通信のホップ数を最大50%削減し、効率的なデータ転送を実現します。
  • エージェントの相互作用: 大規模なエージェント間の相互作用において、小さな非効率性が増幅されるため、TPU 8iの低遅延推論最適化は極めて重要です。

両チップともに、Google DeepMindとの協力によって設計されており、最も要求の厳しいAIワークロードに対応し、進化するモデルアーキテクチャに大規模で適応できるようになっています。さらに、GoogleはTPUホストのx86プロセッサを自社製ArmベースのAxion CPUに置き換え、システム全体の効率化を図っています。単一データセンターの制約を超える学習能力を必要とするモデルのために、複数のデータセンタードメインを統合するVirgo Networkも導入されています。

開発者・研究者への影響とGoogleのAI戦略

Googleの第8世代TPUの発表は、AI開発者および研究者にとって、これまでにない機会と課題をもたらします。

  1. 複雑なモデル開発と実験サイクルの劇的な短縮: TPU 8tのSparseCoreとネイティブ4ビット浮動小数点サポートは、大規模言語モデル(LLM)における埋め込み処理のボトルネックやメモリ帯域幅の問題を根本的に解決します。これにより、開発者は以前よりも効率的に大規模モデルのアーキテクチャを設計・実験できるようになり、モデル圧縮と高速なトレーニングスループットは、新たな革新的なAIモデルの探索を促進し、実験サイクルを大幅に短縮するでしょう。特に、97%という高い「goodput」は、フロンティアスケールの学習において、開発者がより多くの時間をモデルの最適化とイノベーションに費やすことを可能にします。

  2. エージェントAIの構築とデプロイメントの加速、およびコスト効率の向上: TPU 8iは、強化されたSRAMとHBM容量、そして低遅延推論に特化した最適化により、複雑なマルチステップ推論ワークフローを持つAIエージェントの開発とデプロイメントを大幅に加速します。MoEモデルのような大規模なフロンティアモデルにおける性能対ドルが80%改善されるという点は、開発者がより大規模で洗練されたエージェントAIシステムを、より費用対効果の高い方法で構築・運用できることを意味します。これは、エンタープライズ領域における自律型AIエージェントの実装を強力に後押しするでしょう。

  3. 異種計算環境における統合的AI開発の推進: TPUホストのArmベースAxion CPUへの移行や、複数データセンターを統合するVirgo Networkの導入は、開発者にとって、より柔軟でスケーラブルなAIインフラストラクチャを提供します。これにより、単一データセンターの物理的制約を超えた超大規模モデルの開発が可能になり、CPUとTPUを組み合わせたハイブリッドワークロードの最適化が新たな研究領域となる可能性があります。Googleが推進する「AIフルスタック」アプローチは、ハードウェアからモデル、サービス、セキュリティに至るまで一貫した開発環境を提供し、開発者がAIエージェント時代における複雑な課題に対応するための強力な基盤となるでしょう。

ADVERTISEMENT