概要
東京を拠点とするSakana AIは、音声対話AIの新アーキテクチャ「KAME(Knowledge-Access Model Extension)」を発表した。KAMEは、リアルタイム音声対話における長年のジレンマ——応答速度と知識品質のトレードオフ——を解消することを目的に設計されたタンデム型システムだ。従来の直接型S2S(Speech-to-Speech)モデルは低遅延を実現できる一方で知識が限定的であり、カスケード型システムはLLMを経由することで高品質な応答を得られるものの、約2.1秒もの遅延が生じるという課題があった。KAMEはこの二択を超える第三の道を示している。
タンデム設計の仕組み
KAMEは非同期に動作する2つのコンポーネントで構成される。フロントエンドS2SモジュールはMoshiアーキテクチャをベースとし、80ミリ秒ごとに音声トークンを処理する。元々のMoshiが持つ3ストリーム設計に「oracle stream」と呼ばれる第4のストリームを追加したことが最大の改変点だ。
バックエンドLLMモジュールは、ユーザーの音声をリアルタイムで部分的にテキスト化し、複数の完成度レベルを持つ「oracle」候補を継続的に生成する。フロントエンドはこれらの候補を即座に統合し、より精度の高い情報が到着した時点で動的に応答を修正する仕組みだ。このアプローチにより、LLMの知識を活用しながらも音声対話の低遅延を維持することが可能になる。さらにKAMEは「back-end agnostic」な設計となっており、推論時に任意のLLMをバックエンドとして切り替えることができる。
学習手法とベンチマーク
訓練データの不足という実用上の課題には「Simulated Oracle Augmentation」で対処した。0から5の6段階のヒントレベルを定義し、MMLU-Pro、GSM8K、HSSBenchから合成された56,582件の対話データを用いてモデルを学習させた。
MT-Benchによる評価では、Moshi単体のスコア2.05に対し、KAMEはGPT-4.1をバックエンドとした場合に6.43、Claude Opus 4.1をバックエンドとした場合に6.23を記録した。カスケード型のUnmuteは7.70とKAMEを上回るが、2.1秒の遅延を伴う。KAMEはこの遅延なしに大幅なスコア改善を達成しており、速度と品質のバランスという観点で実用的な音声対話システムの新たな標準を示すものといえる。