概要

IBMは2026年4月29日、Granite 4.1モデルファミリーをApache 2.0ライセンスのオープンソースとして公開した。今回リリースされたのは言語モデル(LM)の3B・8B・30Bパラメータ版(ベースおよびインストラクション版)に加え、Granite Vision 4.1、Granite Speech 4.1(2B・2B Plus・2B NAR)、Granite Guardian 4.1、多言語対応のGranite Embedding Multilingual R2と、幅広いモダリティにわたるファミリーとなっている。特に注目されるのは8Bモデルで、前世代の32B Mixture-of-Experts(MoE)モデルに匹敵またはそれ以上の性能を実現しており、推論コスト効率の大幅な改善が見込まれる。

技術的な詳細

言語モデルはデンス型デコーダのみのアーキテクチャを採用しており、約15兆トークンを用いた多段階学習によって訓練されている。コンテキストウィンドウは最大512,000トークンに対応し、長文処理においても短文タスクの性能を損なわないよう設計されている。学習パイプラインには多段階の強化学習が組み込まれており、指示追従・会話品質・数学的推論といった能力ごとに個別最適化が施されている。ベンチマークでは指示追従とツール呼び出しの両面でGemmaやQwenと競争力のある結果を示している。

Granite Vision 4.1はDeepStackに着想を得たフィーチャー注入スキームを採用し、同サイズの競合モデルを上回るテーブル・チャート抽出性能を発揮する。Granite Speech 4.1の2BモデルはWord Error Rate 5.33%をOpenASRリーダーボード上位で達成している。さらに2B NARモデルは従来の自己回帰型とは異なり、シーケンス全体を一度に生成する非自己回帰(NAR)方式を採用することで、GPU使用率とスループットを大幅に改善している。Granite Embedding Multilingual R2は200言語超の意味検索をサポートし、97Mパラメータ版も提供される。

ユースケースと今後の展開

実用面では、請求書番号・日付抽出といった文書理解の自動化パイプライン、機内騒音環境下での医療従事者向け音声認識、有害出力をリアルタイムで監視するチャートボット安全性評価、多言語意味検索など、エンタープライズ向けの多様なシナリオが想定されている。IBMはNAR方式を今後さらに多くのモデルへ適用する方針も示しており、推論速度と品質のさらなる向上が期待される。Apache 2.0ライセンスによるオープンソース公開は、商用・非商用を問わず幅広いユーザーへの普及を後押しするものとなりそうだ。