グラナイト・エンベディング・マルチリンガルR2:32Kコンテキストと最高水準のリトリーバル品質を持つApache 2.0多言語埋め込みモデル
IBM Researchは、Apache 2.0ライセンスの下で公開された「Granite Embedding Multilingual R2」モデルを発表しました。この埋め込みモデル群は、32,768トークンという画期的なコンテキストウィンドウと、100M未満のパラメータを持つモデルクラスで最高水準のリトリーバル品質を誇り、多言語およびコード検索における新たな基準を打ち立てています。本レポートでは、その技術的な詳細、性能、および開発者にとっての意義を深く掘り下げます。
技術概要とアーキテクチャ革新
Granite Embedding Multilingual R2モデルは、エンタープライズ規模の密な情報検索のために特別に設計されたエンコーダベースの埋め込みモデルファミリーです。このリリースには、ModernBERTアーキテクチャに基づく2つのバイエンコーダモデルが含まれています。一つは311Mパラメータのフルサイズモデル(granite-embedding-311m-multilingual-r2)で、768次元の埋め込みベクトルを生成し、Matryoshka次元(768/512/384/256/128)をサポートします。もう一つは、97Mパラメータのコンパクトモデル(granite-embedding-97m-multilingual-r2)で、384次元の埋め込みベクトルを生成します。
特筆すべき技術革新は、32,768トークンという大幅に拡張されたコンテキストウィンドウにあります。これはR1モデルと比較して64倍の拡張であり、長文ドキュメントの検索能力を飛躍的に向上させます。この拡張は、交互アテンション機構、ロータリー位置埋め込み、そしてFlash Attention 2.0のサポートといったModernBERTアーキテクチャの主要な強化によって実現されています。コンパクトモデルである97Mバージョンは、大規模モデルからのレイヤー剪定(22層から12層へ)と語彙選択(262Kから180Kトークンへ)を通じて構築されており、GPT-OSS語彙に基づく剪定された多言語トークナイザーを使用し、200以上の言語をカバーしつつモデルサイズを約3分の1に削減しています。トレーニングには、対照学習によるファインチューニング、知識蒸留、モデルマージが採用され、検索品質を最大限に引き出すよう最適化されています。
卓越した多言語リトリーバル性能
Granite Embedding Multilingual R2モデルは、多様なドメイン、言語、ドキュメント長、およびテキストオブジェクトにわたる様々なリトリーバルタスクで卓越した性能を発揮します。特に、97Mパラメータのコンパクトモデルは、MTEB-v2 Retrieval Avgベンチマークで60.3というスコアを記録し、100Mパラメータ未満のオープンな多言語埋め込みモデルの中で最高スコアを獲得しています。これは、次に優れたオープンモデルと比較して9ポイント以上の差をつけています。フルサイズの311Mモデルは、MTEB-v2 Retrieval Avgで65.2を達成し、500Mパラメータ未満のオープンな多言語埋め込みモデルの中でトップ3に位置しています。
評価は、MTEB-v2 Retrievalベンチマーク(多言語検索)、MTEB-Codeベンチマーク(COIRタスクを含むコード検索)、LongEmbed(長文ドキュメント検索)、RaR-b(推論ベース検索)、多ターン対話型IRデータ、テーブル検索など、広範なベンチマークで行われ、その汎用性の高さが示されています。また、97Mモデルは、R1の先行モデルと同等のスループット(NVIDIA H100 GPU上で毎秒約2,900ドキュメント)を維持しつつ、多言語検索で約10ポイントの性能向上を達成しており、効率と精度を両立させています。全体として、R2モデルは先行モデルR1と比較して19〜44%高速な推論速度を実現しています。
エンタープライズ対応の設計思想とデータ戦略
Granite Embedding Multilingual R2モデルは、エンタープライズ利用を強く意識して設計されています。全てのモデルはApache 2.0ライセンスで公開されており、研究目的だけでなく商用利用も完全に許可されています。これは、オープンかつ透明なイノベーションに対するIBM Researchのコミットメントを明確に示すものです。
トレーニングデータセットは、厳格なデータガバナンスプロセスを経て慎重にキュレーションされています。具体的には、以下の4種類のデータが使用されています。
-
ウェブから収集された教師なしのタイトル-本文ペアデータ。
-
商用利用可能なライセンスを持つ公開済みのペアデータ。
-
特定の技術ドメインを対象としたIBM製品ドキュメントのペアデータ。
-
多言語の長文・短文データや推論指向データを含む、IBMが生成した合成データ。 特に、非商用ライセンスを持つMS-MARCOデータセットは使用されていません。これにより、エンタープライズ環境での無制限な展開に適した、クリーンでビジネスフレンドリーなデータ基盤が保証されています。200以上の言語をサポートし、52の言語とプログラミングコード(Python, Go, Java, JavaScript, PHP, Ruby, SQL, C++, C)に強化されたサポートを提供することで、グローバルなビジネス要件に対応しています。
広範な適用分野と開発者向け最適化
Granite Embedding Multilingual R2モデルは、その高い柔軟性と性能により、多様なAIアプリケーションへの統合が可能です。セマンティック検索エンジン、レコメンデーションシステム、Retrieval-Augmented Generation (RAG) アプリケーション、多言語情報検索システムなど、幅広いユースケースでその価値を発揮します。Hugging Faceとwatsonx、およびOllamaやReplicateなどのプラットフォームで利用可能であり、vLLM、SGLang、llama.cppといったオープンソースの推論ランタイムにも最適化されているため、クラウド環境からローカル環境まで、柔軟なデプロイメントが可能です。
開発者・エンジニア視点での考察
-
Matryoshka Representation Learningを活用した柔軟な埋め込みサイズ選択: 311MモデルがMatryoshka次元サポートを提供することで、様々な性能要件や計算リソース制約に対応し、開発者がアプリケーションに応じて最適な埋め込みサイズ(768/512/384/256/128次元)を選択できる柔軟性を提供します。これにより、ストレージ効率と精度をトレードオフなく調整可能です。
-
32Kトークンコンテキストウィンドウによる複雑なRAG実装の可能性: 32,768トークンという大幅に拡張されたコンテキストウィンドウは、RAG (Retrieval-Augmented Generation) アプリケーションにおいて、非常に長いドキュメントや複数の関連文書からの情報抽出・合成を可能にします。これにより、より複雑な企業文書解析や高度なQAシステム構築が実現し、幻覚(Hallucination)のリスクを低減しながら、より信頼性の高い応答生成が期待できます。
-
ModernBERTアーキテクチャとFlash Attention 2.0による高速かつ効率的な推論: ModernBERTアーキテクチャに組み込まれた交互アテンション機構やFlash Attention 2.0のサポートは、高い精度を維持しつつ、推論速度を大幅に向上させます。特に、GPUリソースが限られている環境やリアルタイム処理が求められるアプリケーションにおいて、効率的な埋め込み生成と検索処理を実現し、運用コストの削減に貢献します。
Source / 元記事
この記事について
この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。
元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。
重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。


