Amazon Nova 2 LiteとClaude Sonnet 4.6によるコスト最適化されたドキュメント処理

マルチモーダルAI連携によるドキュメント処理の革新

Amazon Web Services（AWS）は、スキャンされたドキュメントの効率的かつコスト最適化された処理を実現するため、Amazon Nova 2 LiteとAnthropicのClaude Sonnet 4.6を組み合わせた革新的なパイプラインを提案しています。特に、大量の物理ドキュメントをデジタル化する必要があるシナリオにおいて、この二段階モデルアプローチは顕著な効果を発揮します。このソリューションは、スキャンされた年鑑ページのような構造化されていないドキュメントから情報を抽出し、関連付けるという複雑なタスクを対象としています。

パイプラインの最初の段階では、Amazon Nova 2 Liteがマルチモーダル抽出を担当します。これは、写真の検出、可視名の座標付き抽出、およびページレベルのメタデータの返却を単一のAPIコールで処理します。 Nova 2 Liteは、テキスト、画像、ビデオ、ドキュメントなど多様な入力形式をサポートし、100万トークンのコンテキストウィンドウを備えているため、広範な推論と豊富なインコンテキスト学習が可能です。続く第二段階では、Claude Sonnet 4.6が空間推論を実行し、ページレイアウトに基づいて名前を顔に関連付けます。この連携により、336ページのスキャンされた年鑑から3,122件の名前と顔の関連付けが生成され、そのうち93%が0.95以上の高い信頼度を達成しました。

コスト効率と性能を両立するアーキテクチャ

この二段階モデルアプローチの最大の利点は、コスト最適化にあります。単一のビジョン言語モデルにすべてのタスクを任せる代替案と比較して、このパイプラインは1ページあたりのコストを約3分の2削減できます。コスト効率は、各モデルをその特定のタスクに最適化された形で利用することで達成されます。Nova 2 Liteは、その固定された画像ごとの料金設定により、初期の抽出段階のコストを予測可能にし、入力解像度に依存しません。

Claude Sonnet 4.6は推論ステップでのコストを支配しますが、Nova 2 Liteが名前のみを抽出し、ページ上のすべてのOCRトークンではないため、初段のコストは低く抑えられます。下流の空間推論ステップでは、完全なテキストは必要なく、写真の近くに現れる名前のみが必要なため、Novaの出力は名前のみに制限され、出力トークンコストが大幅に削減されます。さらに、高ボリュームまたは非リアルタイムのワークロード向けに、Amazon Bedrockのバッチ推論を利用することで、Nova 2 LiteとClaudeの呼び出しコストを50%削減できます。また、何千ページにもわたって同じプロンプトを使用する場合、プロンプトキャッシングにより、キャッシュされたプロンプトトークンのコストを最大90%削減することが可能です。

Amazon Nova 2 LiteとClaude Sonnet 4.6の技術的特徴