Krisp VIVA 2.0発表:音声AIエージェント向け次世代リアルタイム音声インフラの革新
VIVA 2.0の技術的革新:リアルタイム音声処理の再定義
Krispは、音声AIエージェント、IVR、および対話型AI向けの音声インフラストラクチャ層であるKrisp VIVA 2.0を発表しました。このリリースは、実際の環境における音声エージェントの根本的な課題に対処する、新世代の小型リアルタイムモデルを導入します。従来の音声AIシステムがSTT(Speech-to-Text)、LLM(Large Language Models)、TTS(Text-to-Speech)に依存する一方で、VIVA 2.0はこれらのシステムが連携する前の「オーディオ層」で機能し、現実世界の音声や会話のダイナミクスを処理するためのこれまで欠けていたレイヤーを埋めます。
VIVA 2.0の中核となるのは、ターン予測(Turn Prediction v3)と割り込み予測(Interrupt Prediction v1)です。Turn Prediction v3は、音声のみからユーザーの発話終了を予測する新しい多言語モデルであり、書き起こしは不要です。これにより、ユーザーが途中で一時停止しても応答を遅らせることなく、低遅延で迅速に反応し、エージェントがユーザーの会話を遮ってしまうことを防ぎます。 この機能により、会話のターンテイキング精度が3.5倍向上したと報告されています。 また、Interrupt Prediction v1は、ユーザーがエージェントに割り込もうとしている意図(発話開始の予測)を検出する初のオーディオオンリーの分類器です。 これらのモデルは、標準的なCPU上またはデバイス上でローカルに動作するほど小型かつ軽量に設計されており、リアルタイム処理の効率性を大幅に向上させます。 この事前処理により、背景ノイズや音声を原因とするSTTの単語誤り率(WER)が5%から30%以上に上昇するといった問題を解決し、音声エージェントの信頼性を高めます。
知覚信号検出とマルチリンガル対応による音声エージェント能力の拡張
VIVA 2.0のもう一つの重要な側面は、音声AIに人間が意識せずに利用する知覚的キューを提供する「Signal Detectors」という新しいカテゴリのリアルタイムオーディオモデルです。 最初にリリースされるのは、以下の3つの検出器です。
- TTS Detector(合成音声検出器): リアルタイムで合成音声を検出します。これにより、発信側の音声AIエージェントが、着信側の音声AIエージェントやIVRが応答した際にそれを認識し、適切な処理を行うことが可能になります。
- Accent Detector(アクセント検出器): 話者のアクセントを特定し、そのアクセントに最適化されたSTTモデルにオーディオをルーティングすることで、文字起こしの品質を向上させます。
これらの検出器は、音声AIエージェントが「汚れた」現実世界の環境で機能するために不可欠な要素です。人間は会話の中でノイズや微妙な手がかり(笑い、ためらい、発話の停止など)を自然に解釈しますが、従来のAIシステムはこれらに苦慮していました。 VIVA 2.0は、このような背景音、アクセントの摩擦、言語の壁を、音声が人間エージェント、AIモデル、またはダウンストリームシステムに到達する前にオーディオ層で解決します。 VIVA SDKは、顧客のオーディオパイプラインに直接、STTの前にサーバーサイドで実行されるため、スタック全体の信頼性が向上します。
パフォーマンスと実運用への影響:大規模展開と効率性
Krisp VIVA 2.0の導入は、対話型AIシステムの実運用におけるパフォーマンスに大きな影響を与えます。プラットフォームは、ターンテイキング精度の3.5倍の向上に加え、通話切断が50%減少、顧客満足度(CSAT)が30%向上したと報告しています。 これは、VIVAがオーディオを20ミリ秒未満で処理する高速性と、人間の会話フローを模倣する能力に起因します。
Krispは、8年以上にわたる実世界の音声処理の経験に基づいてVIVAを開発しており、その訓練データと実地検証された信頼性は市場において比類のないものです。 現在、Krisp VIVA SDKは年間120億分以上の音声AIエージェントトラフィックを処理し、Daily、Vapi、LiveKit、Ultravox、Telnyx、および世界有数のAIラボや大手エンタープライズコンタクトセンターを含む130以上の音声AI製品に組み込まれています。 Krisp全体のプラットフォームでは、毎月800億分以上の音声会話を処理しており、これは大規模な展開と高いスループット、低遅延環境向けに設計された堅牢なインフラストラクチャであることを示しています。 VIVA 2.0は、現代の音声AIエージェントに不可欠な、予測可能で、多言語対応で、現実世界の生産オーディオに構築されたリアルタイム音声インフラストラクチャを提供します。
開発者・エンジニア視点での考察
-
事前処理レイヤーとしてのVIVA SDKの活用: VIVA 2.0は、STT、LLM、TTSといった従来のAIパイプラインの前段に位置する「オーディオ層」として機能します。開発者は、ノイズ除去、ターンテイキング、割り込み検出、アクセントルーティングといった複雑な音声前処理をVIVA SDKにオフロードすることで、低品質な入力音声への対処ではなく、コアとなるAIロジックやビジネスインテリジェンスの構築に集中できます。これにより、下流のAIモデルの入力品質と応答性を飛躍的に向上させる設計原則が確立されます。
-
マルチモーダル/マルチリンガルエージェント開発への示唆: Turn Prediction v3の多言語対応とAccent Detectorの組み合わせは、グローバル市場向けの音声AIエージェント開発において極めて重要です。これにより、開発者は、地域固有の音声特性(アクセントなど)を動的に認識し、それに応じたSTTモデルや言語モデルを連携させることで、より自然で包括的な対話体験をユーザーに提供するための強力な基盤を構築できます。これは、多言語対応のコールセンターや国際的な顧客対応システムにおいて特に価値を発揮します。
-
オンデバイス・エッジAIでの展開可能性: VIVA 2.0のモデルが標準的なCPU上やデバイス上でローカルに動作するほど小型かつ効率的であるという特性は、リソース制約のあるエッジコンピューティング環境におけるリアルタイム音声AIエージェントの展開に大きな可能性をもたらします。ロボティクス、IoTデバイス、組み込みシステムなどにおいて、クラウドへの依存を減らし、低遅延を実現しながら、プライバシー保護と堅牢なオフライン動作を両立させる新たなアーキテクチャ設計が可能になります。
Source / 元記事
この記事について
この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。
元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。
重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。


