Google、エージェント時代を牽引する特化型TPU「8t」および「8i」を発表


ADVERTISEMENT

エージェント時代を加速するGoogleの第8世代TPUアーキテクチャ

Googleは、Google Cloud Next ‘26において、自律型AIエージェントの要求に対応するために特別に設計された第8世代Tensor Processing Unit(TPU)、「TPU 8t」と「TPU 8i」を発表しました。AIが受動的なアシスタントから、推論、計画、および複雑な多段階ワークフローの実行が可能なプロアクティブな存在へと進化する中で、既存のハードウェアではその計算要求を満たせないという課題がありました。これらの新しいチップは、ユーザーに代わってタスクを迅速かつ効率的に実行するシステムへのニーズに応えることを目的としています。

TPU 8tと8iは、AIの能力を再定義し、最も高性能なAIモデルの構築から、完全にオーケストレーションされたエージェントの群れ、最も複雑な推論タスクの管理まで、あらゆるものを推進するために設計された、Googleのカスタムスーパーコンピューターの中核をなします。これらのTPUは、長年にわたり、例えばGeminiを含む主要な基盤モデルの駆動に貢献してきました。この発表は、単にコンテンツを生成するだけでなく、それに基づいて行動するハードウェアへの戦略的転換を強調しています。

TPU 8t: 大規模モデルトレーニングとスケーラビリティの進化

TPU 8tは、特に大規模モデルのトレーニングに最適化された性能強化版です。このチップは、単一のスーパーポッド内で最大9,600個のTPUと2ペタバイト(PB)の共有高帯域幅メモリにまでスケールアップする能力を持っています。これにより、分散メモリの断片化の必要なしに、最も複雑なAIモデルさえも単一の大規模メモリプール上で実行できるとされています。

TPU 8tは、以前の”Ironwood”と比較して3倍の処理能力を実現し、ワットあたり最大2倍のパフォーマンス向上を提供します。この高いスケーラビリティと効率性は、開発者がこれまで以上に大規模で洗練されたAIモデルを、より短時間で、かつ電力消費を抑えながら訓練することを可能にします。これにより、AI研究と開発の新たなフロンティアが開かれることが期待されます。

TPU 8i: エージェントAIのリアルタイム推論を最適化

一方、TPU 8iは、AIエージェントが必要とする推論タスクを加速するために特別に設計されています。その主な目的は、エージェントの意思決定とアクションにおけるレイテンシを最小限に抑え、エージェントAIを現実世界のアプリケーションで実用的なものにすることです。

TPU 8iは、単一のポッド内で1,152個のTPUを接続し、レイテンシを劇的に削減します。さらに、オンチップSRAMが3倍に増加しており、これにより大規模なスループットと低レイテンシを実現し、数百万のエージェントを同時に費用対効果高く実行できる能力を提供します。これは、エージェントが推論、計画、実行、学習の連続的なループで動作する「エージェント時代」の要求を満たすために不可欠な要素です。

エージェント指向AI実現に向けた統合インフラ戦略

Googleは、TPU 8tと8iの導入を、単なるハードウェアのアップグレードではなく、より広範なフルスタックインフラ戦略の一環として位置づけています。これには、高速ネットワークからエネルギー効率の高いデータセンターに至るまで、目的に合わせて構築されたシステムが含まれます。この統合されたアプローチは、高度に応答性の高いエージェントAIを広く普及させるために必要な基盤となるエンジンを構築することを意図しています。

このような専門ハードウェアと最適化された運用が組み合わさることで、現代のAIワークロードが抱える増大する計算需要に対処します。Googleは、これらの新しいTPUが人工知能のランドスケープをどのように再構築し、高度なエージェントベースのテクノロジーをよりアクセスしやすく、高性能にすることで、開発者や研究者が探求することを奨励しています。

エージェント・エンジニアリング視点での考察

  1. リアルタイムエージェント挙動のための低レイテンシ推論の最大化: TPU 8iのオンチップSRAMの3倍増と、1,152TPU接続による低レイテンシ設計は、マルチステップの意思決定とアクションを伴う自律型AIエージェントにとって極めて重要です。開発者は、このハードウェア特性を最大限に活用し、エージェントの推論パスを最適化し、キャッシュ戦略を見直すことで、これまでの常識を覆すリアルタイム応答性を備えたエージェントアプリケーションを構築できるでしょう。これにより、エージェントが物理世界で迅速に反応したり、複雑なデジタル環境で瞬時に判断を下したりする際のボトルネックが大幅に解消される可能性があります。

  2. 大規模モデルの「単一デバイス」トレーニングによる開発ワークフローの簡素化: TPU 8tが「単一の大規模メモリプール」上で複雑なモデルを実行できる能力は、分散メモリの断片化といった複雑な課題から開発者を解放します。これは、特に大規模な基盤モデルの微調整や新しいアーキテクチャの実験において、データ並列化やモデル並列化のための煩雑なエンジニアリング作業を大幅に削減し、開発ライフサイクルを加速させる可能性を秘めています。研究者はより迅速にアイデアをプロトタイプ化し、モデルのイテレーションを加速できるようになるため、画期的なAIモデルの出現を促すでしょう。

  3. フルスタックインフラストラクチャとの統合による運用効率の向上: GoogleがTPUを「フルスタックインフラ戦略」の一部として位置づけている点は、開発者がAIエージェントのライフサイクル全体(トレーニング、デプロイ、管理、スケーリング)をシームレスに扱うための重要な示唆を与えます。高速ネットワーク、エネルギー効率の高いデータセンターといった基盤が整備されることで、エージェントの開発者はインフラの複雑性に悩まされることなく、エージェントのロジックと機能の開発に集中できます。既存のMLOpsパイプラインとこれらの新しいTPUインフラとの連携を深く検討することで、AIエージェントの運用コスト削減と信頼性向上が実現可能になります。

ADVERTISEMENT