OpenAIが大規模低遅延音声AIを実現する技術深掘り


ADVERTISEMENT

リアルタイム音声AIの課題とWebRTCの選択

OpenAIは、9億人以上の週間アクティブユーザーに対し、自然な会話速度での音声AI体験を提供するために、根本的な技術課題に直面していました。音声AIが自然に感じられるためには、会話が人間の話す速度で進行する必要があり、ネットワーク遅延はぎこちない一時停止、途切れ、遅延した割り込みとして即座に認識されます。これは、ChatGPTの音声機能、Realtime APIを利用する開発者、およびインタラクティブなワークフローで動作するエージェントにとって特に重要です。

OpenAIは、こうした要件を満たすために、低遅延のオーディオ、ビデオ、データ転送のためのオープン標準であるWebRTCを採用しました。WebRTCの利用は、ユーザーが話している最中でも、音声エージェントが文字起こし、推論、ツール呼び出し、または音声生成を開始できるようにすることを可能にし、完全なアップロードを待つ必要がありません。これにより、会話のようなシステムと、プッシュ・ツー・トークのようなシステムとの間に大きな違いが生まれます。

大規模展開を支えるWebRTCスタックの再構築

OpenAIの規模において、グローバルな到達性、高速な接続確立、低く安定したメディアの往復時間(低ジッター、低パケットロス)は、クリアな会話ターンを実現するために不可欠な要件でした。しかし、従来のWebRTCスタックでは、「セッションあたり1ポート」のメディア終端がOpenAIのインフラストラクチャに適合しない、ステートフルなICE(Interactive Connectivity Establishment)およびDTLS(Datagram Transport Layer Security)セッションに安定した所有権が必要、グローバルルーティングが最初のホップ遅延を低く保つ必要がある、という3つの制約が大規模環境で衝突し始めました。

これらの課題に対処するため、OpenAIはWebRTCスタックを再構築し、スプリットリレー・プラス・トランシーバーアーキテクチャを導入しました。このアーキテクチャは、クライアントには標準のWebRTC動作を維持しつつ、OpenAIのインフラストラクチャ内部でのパケットルーティング方法を変更します。これにより、数千のUDPポートを公開することなくKubernetesでWebRTCメディアを実行できるようになり、UDPの公開面が小さく固定されることで、セキュリティとロードバランシングが向上し、大規模なパブリックポート範囲を予約せずにインフラストラクチャをスケーリングできます。

OpenAIのワークロードのほとんどが「ユーザーとモデル」または「アプリケーションとリアルタイムエージェント」間の1対1セッションであり、ターンごとの遅延感度が重要であるため、一般的な多人数通話で利用されるSFU(Selective Forwarding Unit)を使用しない設計が適切であると判断されました。このSFUレス設計は、オーディオコーデック、RTCPメッセージ、データチャネル、録音、およびストリームごとのポリシーを1か所に集約することで、効率的な管理を実現しています。

会話型AI実現のための低遅延アーキテクチャ

OpenAIが目指すのは、単なる音声認識と合成の連鎖ではなく、オーディオが連続的なストリームとして到着し、人間のような自然な会話が可能なAI製品です。これを実現するために、同社は従来の「音声認識(STT)→言語モデル(LLM)→音声合成(TTS)」というパイプラインではなく、より低遅延で自然な対話を可能にする「音声から音声へ」のアプローチに注力しています。

このアプローチでは、ユーザーが話し続けている間にもエージェントが音声を処理し、同時に応答を生成し始めることができます。Realtime APIは、永続的なWebSocket接続を利用し、双方向ストリーミングを可能にすることで、オーディオチャンクを送信しながら同時に応答オーディオを受け取ることができます。これにより、リアルタイム性が大幅に向上し、会話のテンポや割り込み処理が自然に感じられるようになります。このようなアーキテクチャは、エージェントがツールを呼び出したり、推論を実行したりする際にも、全体の遅延を最小限に抑え、エンドユーザー体験を最適化するために不可欠です。

開発者・エンジニア視点での考察

  1. WebRTCとKubernetesの融合によるリアルタイムメディア処理の再考: OpenAIのスプリットリレー・プラス・トランシーバーアーキテクチャは、WebRTCの複雑なメディアパス管理をKubernetes環境に適合させるための画期的なソリューションを提供しています。数千のUDPポート公開を回避し、セキュリティとスケーラビリティを向上させるこの手法は、リアルタイムコラボレーションツールやインタラクティブなIoTアプリケーションなど、他のメディア集中型AIサービスの開発において、WebRTCとコンテナオーケストレーションを組み合わせる際の設計パターンとして強力な示唆を与えます。

  2. SFUレス設計の戦略的選択とその影響: 大多数のセッションが1対1であるOpenAIのワークロードに対して、SFUレス設計が選ばれたことは、システム設計における「ワークロード特性に応じた最適なアーキテクチャ」の重要性を示しています。多人数会議システムではSFUが有効ですが、1対1の低遅延・会話型AIにおいては、集中型でシンプルなメディア処理がメリットをもたらします。これにより、開発者は自身のアプリケーションが本当にSFUを必要とするのか、あるいはよりシンプルなメディア処理で要件を満たし、複雑性を低減できるのかを再評価するきっかけを得られます。

  3. ストリーミング型オーディオ処理が実現する新しい対話モデル: 従来のSTT/LLM/TTSの逐次処理から、ユーザーの発話中にAIが並行して処理・応答生成を開始できるストリーミング型アーキテクチャへの移行は、会話型AIのUXを根本的に変革します。開発者は、単に最終的なテキスト出力を待つのではなく、音声のチャンク単位でのリアルタイム処理を前提としたエージェントロジックやツール呼び出しの設計を検討することで、より没入感のある、人間らしい対話体験を構築する機会が生まれます。これは、エージェントの割り込み耐性や、ユーザーの意図を早期に汲み取る能力の向上にも繋がります。

Source / 元記事

この記事について

著者
AIBloom AI編集部
初回公開
最終更新

この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。

元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。

重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。

About AIBloom

ADVERTISEMENT