概要
Googleは2026年3月26日、リアルタイムのマルチモーダル音声・映像モデル「Gemini 3.1 Flash Live」を開発者向けに公開した。Google AI StudioのLive APIを通じてプレビュー利用が可能で、音声・映像・ツール呼び出しを低レイテンシで処理できるのが特徴だ。Googleはこれを同社の「最高品質のオーディオ・音声モデル」と位置付けており、Gemini Liveにとって「過去最大のアップグレード」としている。
このモデルは、リアルタイムの会話型AIエージェント構築を主なターゲットとしており、カスタマーサービス、アクセシビリティツール、インタラクティブなAI体験など、即時応答が求められるアプリケーションでの活用が想定されている。
音声処理と会話能力の向上
Gemini 3.1 Flash Liveは前世代の2.5 Flash Native Audioと比較して、複数の面で大幅な改善を実現している。音声処理においては、ピッチやペースといった音響的なニュアンスの認識が強化され、バックグラウンドノイズのフィルタリング性能が大幅に向上した。交通音やテレビの音声といった環境音から人間の発話をより正確に識別できるようになっている。
会話能力の面では、90以上の言語でのリアルタイムマルチモーダルインタラクションに対応し、「不自然な間」を減らしたより高速なレスポンスを実現した。会話のコンテキストを従来の2倍の長さにわたって追跡できるようになり、回答の長さやトーンを会話の文脈に応じて動的に調整する機能も備えている。
ツール統合とエージェント機能
開発者にとって特に注目すべきは、外部ツールとの統合能力の強化だ。ライブ会話中に外部ツールをトリガーして情報を取得・提供する能力が大幅に改善されており、AIエージェントがリアルタイムの対話の中でAPIを呼び出したり、外部データソースにアクセスしたりすることが容易になった。また、複雑なシステムインストラクションへの準拠性が向上し、予期しない会話の展開においても運用上のガードレールを維持する能力が改善されている。
展開と今後の見通し
Gemini 3.1 Flash Liveは現在、Google AI StudioのLive APIを通じてプレビューとして利用可能なほか、AndroidおよびiOS向けのGemini Liveアプリにも順次展開される。さらに、Search Liveが200以上の国と地域に対応言語・地域を拡大してグローバル展開される。リアルタイムAIエージェントの実用化が加速する兆しを見せている。