Google、Gemini 3.1 Flash-Liteを正式リリース——業界最低水準のコストとサブ秒レイテンシを両立

概要

Googleは2026年5月7日、Gemini 3シリーズの最速・最低コストモデル「Gemini 3.1 Flash-Lite」の一般提供（GA）を開始した。入力トークンあたり$0.25/100万トークン、出力トークンあたり$1.50/100万トークンという業界最低水準の価格を実現しつつ、前世代のGemini 2.5 Flashと比べてTime to First Answer Tokenを2.5倍高速化し、出力速度も45%向上させている。大量推論・エージェント型ワークロードにおけるコスト効率を最優先に設計されたモデルだ。

Google AI StudioおよびVertex AI（Gemini Enterprise Agent Platform）経由で利用可能で、テキストと画像に対応するマルチモーダル機能も備える。開発者向けには推論の深さを調整できる「Thinkingレベル」が提供されており、タスクに応じて応答品質とレイテンシのバランスを柔軟にチューニングできる。

性能ベンチマーク

各種標準ベンチマークでも高い評価を得ている。Arena.aiリーダーボードのEloスコアは1432を記録し、GPQA Diamond（高度な科学的推論）では86.9%、MMMU Pro（マルチモーダル理解）では76.8%を達成した。これは過去世代のより大型なGeminiモデルを複数の指標で上回る結果であり、コスト効率重視のモデルとしては異例のインテリジェンスを持つ。

実運用では顧客サービスプラットフォーム「Gladly」が先行採用事例として紹介されている。SMS・WhatsApp・Instagram経由のチャット対応に活用した結果、シンキング層モデル比で約60%のコスト削減を達成。完全な返信生成のp95レイテンシは1.8秒、分類器やツール呼び出しでは1秒未満を実現し、高負荷な並行処理下でも成功率約99.6%を維持している。

主要ユースケースと採用事例

Gemini 3.1 Flash-Liteは特にエージェント型パイプラインや高ボリューム処理での活用が目立つ。JetBrainsはIDE向けAIアシスタントおよびJunieエージェントへ統合し、リアルタイムコード補完に活用している。ゲーム生成プラットフォームのAstrocadeは自然言語によるゲーム生成要求のほか、マルチモーダル安全性チェックやコメント自動翻訳にも適用した。クリエイティブプラットフォームのkrea.aiは「価格帯に対して異常な創造性を発揮する」と評価し、プロンプト拡張ツールに採用している。

金融分野でも導入が進んでいる。投資銀行向けAIエージェント「Archie」を開発するOffDealはZoomコール中のリアルタイム財務リサーチに、Rampは高ボリューム・低レイテンシの金融ワークフローのコアコンポーネントとして採用。Rampはコスト・レイテンシ・インテリジェンスの三軸でパレートフロントを達成したと評価している。

今後の展望

Gemini 3.1 Flash-LiteはGemini Pro・Flash・Flash-Liteという三層構成の最下層に位置付けられ、大量推論を必要とする場面での「エントリーポイント」としての役割が期待される。Googleはエージェント型AIの普及に伴い、高頻度かつ低コストな推論需要が急増すると見込んでおり、本モデルはその需要を担う主力モデルとして位置づけられている。今後は更なるマルチモーダル対応強化やエージェントオーケストレーション機能の拡充が予想される。

概要#

性能ベンチマーク#

主要ユースケースと採用事例#

今後の展望#

概要

性能ベンチマーク

主要ユースケースと採用事例

今後の展望