JetBrains「Mellum2」発表:12B MoEモデルが高速・効率的なAIワークフローを実現
Mellum2の革新的なMoEアーキテクチャと卓越した推論性能
JetBrainsは、ソフトウェアエンジニアリング環境向けに設計された120億パラメータを持つMixture-of-Experts(MoE)モデル「Mellum2」をオープンソースとして公開しました。このモデルの最大の特徴は、総パラメータ数が12Bであるにもかかわらず、トークンあたりにアクティブになるパラメータがわずか2.5Bに限定されるMoEアーキテクチャを採用している点にあります。この設計により、Mellum2は同規模の密なモデルと比較して推論時間を半分以下に短縮し、計算コストを大幅に削減します。
Mellum2は、リアルタイムアプリケーションに求められる高いスループットと低レイテンシを実現するために、「スクラッチから」トレーニングされています。マルチモーダルではなく、自然言語とコードに特化してトレーニングされているため、その専門性と高速性が維持されています。ベンチマークテストでは、コード生成、数学、推論の各分野において、同サイズの他のモデルと同等の性能を発揮しつつ、推論速度で明確な優位性を示しています。この効率性は、本番環境でのデプロイメントにおいて具体的な利点をもたらします。Mellum2はApache 2.0ライセンスの下で提供されており、ローカルでの実行、自己ホスト、およびカスタムアプリケーションへのファインチューニングが可能です。
ソフトウェア開発AIワークフローにおけるMellum2の戦略的ポジショニング
JetBrainsはMellum2を「フォーカルモデル」と位置付けており、高頻度かつ低レイテンシが要求されるタスク向けの高速で専門的なコンポーネントとしての役割を強調しています。現代のAIシステムは、ルーティング、検索拡張生成(RAG)、要約、プランニング、検証、ツール利用など、複数のモデル呼び出しに依存する傾向にあります。これらの操作の多くはレイテンシに敏感であり、必ずしも最大規模のモデルを必要としません。Mellum2はまさにこのようなワークロードをターゲットとしています。
具体的な応用例としては、AIワークロードのルーティング、RAGパイプラインの構築、複雑なワークフローにおけるサブエージェントの制御、およびプロプライエタリなインフラストラクチャへのプライベートデプロイメントが挙げられます。JetBrainsは「未来は単一のモデルではなく、協調システムに属する」と考えており、Mellum2はそのような専門化されたコンポーネントの一つとして設計されています。これにより、AIプロダクションシステムにおけるボトルネックであるレイテンシ、スループット、コストの問題を解決することを目指しています。
Mellum2ファミリー:用途に応じた専門的バリアントの活用
Mellum2は単一のモデルとしてだけでなく、異なるユースケースに対応するための複数のバリアントで構成されるファミリーとして提供されています。主要なものとして、「Mellum2 Instruct」と「Mellum2 Thinking」があります。
Mellum2 Instructは、直接的で低レイテンシの回答を生成することに特化した後続学習済みアシスタントモデルです。これは、インタラクティブなチャット、コード支援、ツール使用、指示の遵守など、明示的な思考連鎖(Chain of Thought; CoT)を必要としないシナリオで有用です。このモデルは64のエキスパートを持ち、トークンあたり8のエキスパートがアクティブになります。131,072トークンのコンテキスト長を持ち、数学、実行可能なコーディング、ツール使用、指示遵守、推論、知識タスクに関する検証可能な報酬による強化学習(RLVR)によってファインチューニングされています。
一方、Mellum2 Thinkingは、明示的な思考連鎖を伴う推論強化型アシスタントモデルです。複雑なデバッグ、多段階の計画立案、エージェントワークフロー、数学的または推論に重きを置くタスクなど、最終的な回答の前に詳細な推論が必要な場合に適しています。このバリアントもMellum2 Instructと同様のMoEアーキテクチャ(64エキスパート、トークンあたり8アクティブエキスパート、131,072コンテキスト長)を採用していますが、長形式の数学を含むより困難なデータミックスでRLVRを適用してトレーニングされており、回答の前に<think>...</think>ブロック内に推論を出力します。これらの専門化されたバリアントは、特定のタスクに最適化された柔軟なAIソリューションの構築を可能にします。
開発者・エンジニア視点での考察
-
オンプレミスおよびプライベートAIデプロイメントの推進: Mellum2はApache 2.0ライセンスで提供され、ローカル実行や自己ホスト、ファインチューニングが可能なため、企業は機密性の高いコードやデータを扱うAIアプリケーションをセキュアな環境で構築・運用できます。これにより、データ主権とコンプライアンス要件を満たしつつ、カスタムAIソリューションの開発が加速されるでしょう。
-
モジュラー型AIシステムの実現とエージェントオーケストレーションの効率化: JetBrainsが提唱する「協調システム」の一部として、Mellum2はルーティング、要約、中間推論、サブエージェント制御といった特定のタスクに特化することで、大規模な単一モデルでは難しい高頻度・低遅延の要件に対応します。これは、複雑なAIエージェントやマルチモーダルワークフローにおいて、各モジュールが最適な速度とコストで機能するシステムの設計を可能にし、全体的なシステム効率を向上させます。
-
開発ツールにおけるリアルタイム対話と高度な思考プロセスの融合: Mellum2 Instructは直接的かつ低レイテンシな応答を、Mellum2 Thinkingは推論過程を明示するチェーン・オブ・ソートを提供するという特性を持っています。これにより、IDE内のコード補完やインタラクティブなチャットアシスタントのような即時性の高い機能と、複雑なデバッグ支援や多段階の計画立案のような深い思考を要する機能の両方を、異なるモデルバリアントで最適に実装し、開発者の生産性を飛躍的に向上させることが期待されます。
Source / 元記事
この記事について
この記事は、公開されているニュース、論文、公式発表、RSSフィードなどをもとに、AIが要約・補足調査・考察を行って作成しています。
元記事の完全な翻訳・逐語的な要約ではなく、AIによる背景説明や開発者向けの考察を含みます。
重要な技術仕様・価格・提供状況などは、必ず元記事または公式情報をご確認ください。


