概要

フランスのAIスタートアップMistral AIがオーディオ生成分野に初めて参入し、テキスト読み上げモデル「Voxtral TTS」をリリースした。40億パラメータを持つこのモデルは、同社の小型言語モデルMinistral 3Bをバックボーンとしたトランスフォーマーベースの自己回帰フローマッチング設計を採用している。人間による評価では、ElevenLabs Flash v2.5を上回る自然さを達成しつつ同等のTime-to-First-Audioを維持していると同社は主張しており、ElevenLabs v3との品質面での同等性も確認されたという。さらに感情制御(エモーションステアリング)機能も備えており、ElevenLabs、Deepgram、OpenAIなどの音声AI企業と直接競合する形となる。

アーキテクチャと技術仕様

Voxtral TTSの内部構造は3つの主要コンポーネントで構成される。34億パラメータのトランスフォーマーデコーダバックボーン、3.9億パラメータのフローマッチング音響トランスフォーマー、そして3億パラメータのニューラルオーディオコーデック(対称型エンコーダ・デコーダ)だ。処理は12.5Hzのフレームレートで行われ、独自開発のコーデックはセマンティックVQ(語彙数8192)とアコースティックFSQ(36次元、21レベル)を使用する。

一般的な入力(10秒の音声サンプル、500文字)に対するモデルレイテンシは70ミリ秒で、リアルタイムファクターは約9.7倍を実現している。ネイティブで最大2分の音声生成をサポートし、API経由ではスマートインターリービングによりさらに長いコンテンツにも対応する。

多言語対応と音声カスタマイズ

対応言語は英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語の9言語。最短3秒のリファレンス音声サンプルからカスタムボイスへの適応が可能で、微妙なアクセント、抑揚、イントネーション、さらには言いよどみまでを再現できるとされる。特筆すべきは、明示的な訓練なしにゼロショットで言語間の音声適応が可能な点だ。例えばフランス語のアクセント特性を持つ英語音声の生成など、クロスリンガルなボイスクローニングが実現できる。

ライセンスと市場への影響

モデルの重みはHugging FaceでCC BY-NC 4.0ライセンスのもと公開されており、複数のリファレンスボイスも同梱される。API利用料は1,000文字あたり0.016ドルに設定されている。Voxtral TTSはMistral AIの音声パイプラインにおける最後のピースでもあり、音声認識のVoxtral、推論を担う大規模言語モデル群と合わせて、音声AIのエンドツーエンドスタックが完成した形だ。オープンウェイトでの公開によって音声合成分野におけるオープンソースの選択肢が大きく広がり、セールスやカスタマーエンゲージメント向けのボイスエージェント構築への活用が期待される。