概要
OpenAIは2026年5月7日、APIに複数の新しい音声インテリジェンス機能を追加すると発表した。中心となるのは「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」の3モデルで、いずれも開発者向けAPIを通じて提供される。コンシューマー向けの製品アップデートではなく、音声エージェントやカスタマーサポートなど企業向けアプリケーションの構築を支援するインフラ強化に位置付けられる。
GPT-Realtime-2の技術的な詳細
従来の音声モデルが「呼びかけに応答する」レベルに留まっていたのに対し、GPT-Realtime-2はGPT-5クラスの推論能力を搭載し、会話の文脈を保ちながら複雑なリクエストを処理できる点が大きな特徴だ。コンテキストウィンドウは従来の32Kトークンから128Kトークンへと拡張され、会話中にツールを呼び出したり、割り込みに対応したりする機能も備える。さらに、推論の深さを「最小」から「xhigh」まで段階的に調整できる設計で、用途に応じた最適化が可能だ。複数のツールを逐次的ではなく並列で実行できる仕組みも導入されており、応答の高速化が期待できる。
料金体系はトークン消費ベースで、入力トークンが100万件あたり32ドル、出力トークンが同64ドル、キャッシュ済み入力は同0.40ドルに設定されている。
GPT-Realtime-TranslateとGPT-Realtime-Whisper
GPT-Realtime-Translateは、話者のペースに追随しながら70以上の入力言語から13の出力言語へリアルタイムで翻訳するモデルで、料金は1分あたり0.034ドル。GPT-Realtime-Whisperはストリーミング音声認識モデルで、話者が発話しながら即座にテキストへ変換するライブ文字起こしに特化しており、料金は1分あたり0.017ドルとなっている。これら2モデルは分単位の課金体系を採用することで、短時間の利用や従量制のサービスへの組み込みを容易にしている。
活用事例と安全機能
早期の商用導入事例として、不動産検索のZillow、多言語サポートを提供するDeutsche Telekom、旅行サービスのPriceline、ライブ動画のローカライズに取り組むVimeoなどが挙げられている。適用分野はカスタマーサービスにとどまらず、教育・メディア・イベント・クリエイタープラットフォームへの展開も想定されている。一方、OpenAIはスパムや詐欺などのオンライン悪用を防ぐセーフガードも実装しており、有害コンテンツ違反が検出された場合に会話を自動停止できる仕組みを組み込んでいる。開発者はPlaygroundで新モデルをテストした後、既存アプリケーションへの統合を進めることができる。