グラナイト・エンベディング・マルチリンガルR2：32Kコンテキストと最高水準のリトリーバル品質を持つApache 2.0多言語埋め込みモデル

IBM Researchは、Apache 2.0ライセンスの下で公開された「Granite Embedding Multilingual R2」モデルを発表しました。この埋め込みモデル群は、32,768トークンという画期的なコンテキストウィンドウと、100M未満のパラメータを持つモデルクラスで最高水準のリトリーバル品質を誇り、多言語およびコード検索における新たな基準を打ち立てています。本レポートでは、その技術的な詳細、性能、および開発者にとっての意義を深く掘り下げます。

技術概要とアーキテクチャ革新

Granite Embedding Multilingual R2モデルは、エンタープライズ規模の密な情報検索のために特別に設計されたエンコーダベースの埋め込みモデルファミリーです。このリリースには、ModernBERTアーキテクチャに基づく2つのバイエンコーダモデルが含まれています。一つは311Mパラメータのフルサイズモデル（granite-embedding-311m-multilingual-r2）で、768次元の埋め込みベクトルを生成し、Matryoshka次元（768/512/384/256/128）をサポートします。もう一つは、97Mパラメータのコンパクトモデル（granite-embedding-97m-multilingual-r2）で、384次元の埋め込みベクトルを生成します。

特筆すべき技術革新は、32,768トークンという大幅に拡張されたコンテキストウィンドウにあります。これはR1モデルと比較して64倍の拡張であり、長文ドキュメントの検索能力を飛躍的に向上させます。この拡張は、交互アテンション機構、ロータリー位置埋め込み、そしてFlash Attention 2.0のサポートといったModernBERTアーキテクチャの主要な強化によって実現されています。コンパクトモデルである97Mバージョンは、大規模モデルからのレイヤー剪定（22層から12層へ）と語彙選択（262Kから180Kトークンへ）を通じて構築されており、GPT-OSS語彙に基づく剪定された多言語トークナイザーを使用し、200以上の言語をカバーしつつモデルサイズを約3分の1に削減しています。トレーニングには、対照学習によるファインチューニング、知識蒸留、モデルマージが採用され、検索品質を最大限に引き出すよう最適化されています。

卓越した多言語リトリーバル性能

Granite Embedding Multilingual R2モデルは、多様なドメイン、言語、ドキュメント長、およびテキストオブジェクトにわたる様々なリトリーバルタスクで卓越した性能を発揮します。特に、97Mパラメータのコンパクトモデルは、MTEB-v2 Retrieval Avgベンチマークで60.3というスコアを記録し、100Mパラメータ未満のオープンな多言語埋め込みモデルの中で最高スコアを獲得しています。これは、次に優れたオープンモデルと比較して9ポイント以上の差をつけています。フルサイズの311Mモデルは、MTEB-v2 Retrieval Avgで65.2を達成し、500Mパラメータ未満のオープンな多言語埋め込みモデルの中でトップ3に位置しています。

評価は、MTEB-v2 Retrievalベンチマーク（多言語検索）、MTEB-Codeベンチマーク（COIRタスクを含むコード検索）、LongEmbed（長文ドキュメント検索）、RaR-b（推論ベース検索）、多ターン対話型IRデータ、テーブル検索など、広範なベンチマークで行われ、その汎用性の高さが示されています。また、97Mモデルは、R1の先行モデルと同等のスループット（NVIDIA H100 GPU上で毎秒約2,900ドキュメント）を維持しつつ、多言語検索で約10ポイントの性能向上を達成しており、効率と精度を両立させています。全体として、R2モデルは先行モデルR1と比較して19〜44%高速な推論速度を実現しています。

エンタープライズ対応の設計思想とデータ戦略

Granite Embedding Multilingual R2モデルは、エンタープライズ利用を強く意識して設計されています。全てのモデルはApache 2.0ライセンスで公開されており、研究目的だけでなく商用利用も完全に許可されています。これは、オープンかつ透明なイノベーションに対するIBM Researchのコミットメントを明確に示すものです。

トレーニングデータセットは、厳格なデータガバナンスプロセスを経て慎重にキュレーションされています。具体的には、以下の4種類のデータが使用されています。

ウェブから収集された教師なしのタイトル-本文ペアデータ。
商用利用可能なライセンスを持つ公開済みのペアデータ。
特定の技術ドメインを対象としたIBM製品ドキュメントのペアデータ。
多言語の長文・短文データや推論指向データを含む、IBMが生成した合成データ。特に、非商用ライセンスを持つMS-MARCOデータセットは使用されていません。これにより、エンタープライズ環境での無制限な展開に適した、クリーンでビジネスフレンドリーなデータ基盤が保証されています。200以上の言語をサポートし、52の言語とプログラミングコード（Python, Go, Java, JavaScript, PHP, Ruby, SQL, C++, C）に強化されたサポートを提供することで、グローバルなビジネス要件に対応しています。

広範な適用分野と開発者向け最適化

Granite Embedding Multilingual R2モデルは、その高い柔軟性と性能により、多様なAIアプリケーションへの統合が可能です。セマンティック検索エンジン、レコメンデーションシステム、Retrieval-Augmented Generation (RAG) アプリケーション、多言語情報検索システムなど、幅広いユースケースでその価値を発揮します。Hugging Faceとwatsonx、およびOllamaやReplicateなどのプラットフォームで利用可能であり、vLLM、SGLang、llama.cppといったオープンソースの推論ランタイムにも最適化されているため、クラウド環境からローカル環境まで、柔軟なデプロイメントが可能です。

開発者・エンジニア視点での考察

Matryoshka Representation Learningを活用した柔軟な埋め込みサイズ選択: 311MモデルがMatryoshka次元サポートを提供することで、様々な性能要件や計算リソース制約に対応し、開発者がアプリケーションに応じて最適な埋め込みサイズ（768/512/384/256/128次元）を選択できる柔軟性を提供します。これにより、ストレージ効率と精度をトレードオフなく調整可能です。
32Kトークンコンテキストウィンドウによる複雑なRAG実装の可能性: 32,768トークンという大幅に拡張されたコンテキストウィンドウは、RAG (Retrieval-Augmented Generation) アプリケーションにおいて、非常に長いドキュメントや複数の関連文書からの情報抽出・合成を可能にします。これにより、より複雑な企業文書解析や高度なQAシステム構築が実現し、幻覚（Hallucination）のリスクを低減しながら、より信頼性の高い応答生成が期待できます。
ModernBERTアーキテクチャとFlash Attention 2.0による高速かつ効率的な推論: ModernBERTアーキテクチャに組み込まれた交互アテンション機構やFlash Attention 2.0のサポートは、高い精度を維持しつつ、推論速度を大幅に向上させます。特に、GPUリソースが限られている環境やリアルタイム処理が求められるアプリケーションにおいて、効率的な埋め込み生成と検索処理を実現し、運用コストの削減に貢献します。

Source / 元記事

huggingface.co https://huggingface.co/blog/ibm-granite/granite-embedding-multilingual-r2

この記事について

著者: AIBloom AI編集部
初回公開: May 14, 2026
最終更新: May 14, 2026

この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。

元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。

重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。

About AIBloom

グラナイト・エンベディング・マルチリンガルR2：32Kコンテキストと最高水準のリトリーバル品質を持つApache 2.0多言語埋め込みモデル

技術概要とアーキテクチャ革新

卓越した多言語リトリーバル性能

エンタープライズ対応の設計思想とデータ戦略

広範な適用分野と開発者向け最適化

開発者・エンジニア視点での考察

Source / 元記事

この記事について

Related Insights / 関連記事

Hugging FaceにおけるPP-OCRv6：150万から3450万パラメータへ進化した50言語対応OCR技術

Amazon SageMaker HyperPodで実現するエンタープライズ推論の高度化：データキャプチャ、Hugging Face、NVMe、Route 53統合による最適化

vLLMのネイティブ速度を実現するTransformersモデリングバックエンド：Hugging Faceモデル推論の最適化