概要

Google DeepMindは2026年4月15日、次世代テキスト読み上げ(TTS)モデル「Gemini 3.1 Flash TTS」を正式リリースした。70以上の言語と30種類の音声、そして200以上の「音声タグ(Audio Tags)」に対応し、声のスタイル・テンポ・感情表現を細粒度で制御できる点が最大の特徴だ。Gemini API、Google AI Studio、Vertex AI、Google Vidsを通じて利用可能となっており、開発者から一般ユーザーまで幅広い層をターゲットとしている。

音声タグによる表現制御

従来のTTSモデルが機械的で単調な読み上げに留まりがちだったのに対し、Gemini 3.1 Flash TTSはテキスト入力に自然言語コマンドを埋め込む「Audio Tags」を導入した。[determination](決意)、[excitement](興奮)、[nervousness](緊張)、[whispers](ささやき)、[laughs](笑い)など200以上のタグが用意されており、感情のニュアンスや声のトーンを直感的に指定できる。

また地域別アクセントの指定(アメリカ南部、ブリティッシュRP、トランスアトランティックなど)や、ポッドキャスト・オーディオブックナレーター・語学チューター・ウェルネスガイド・ニュースキャスターといったフォーマットテンプレートも提供されている。ディレクターレベルの制御が可能で、最適なパラメータが決まればGemini APIコードとしてエクスポートし、一貫した音声体験を再現できる。さらに複数話者による自然なダイアログ生成(ネイティブマルチスピーカー)にも対応している。

ベンチマーク性能とSynthID透かし

Artificial Analysis TTSリーダーボードにおいて、Gemini 3.1 Flash TTSはEloスコア1,211を記録し、ElevenLabs v3を上回る結果を達成した。同ベンチマークは数千件の人間によるブラインド評価をもとに算出されており、実際のユーザー体験に即した指標となっている。

また、すべての生成音声にはGoogleの電子透かし技術「SynthID」が適用される。この透かしは人間の耳には感知できない形で音声に埋め込まれており、AI生成コンテンツの検出・追跡を可能にすることで、フェイクニュースや音声詐欺などの悪用を抑止する仕組みを備えている。

提供プラットフォームと今後の展望

開発者向けにはGemini APIおよびGoogle AI Studioで、エンタープライズ向けにはVertex AIで利用できる。一般ユーザー向けにはGoogle Vidsへの統合が行われており、動画コンテンツ制作でのAI音声活用が期待される。Googleは本モデルをGoogleプロダクト全体への展開を進めており、音声アシスタントや翻訳サービスとの連携強化も今後の焦点となりそうだ。高い表現力と制御性を兼ね備えた本モデルの登場により、AI音声合成市場での競争はさらに加速すると見られる。