概要

Googleは2026年のCloud Next ‘26において、AI時代の大規模ワークロードに対応するKubernetesインフラ基盤として、「GKE Agent Sandbox」と「GKE Hypercluster」という2つの新機能を発表した。マルチエージェントAIワークフローの利用が過去数ヶ月で327%急増し、組織の66%が生成AIアプリケーションにKubernetesを採用している現状を受け、GoogleはKubernetesをAIワークロードのオペレーティングシステムとして確立する戦略を鮮明にしている。

GKE Agent Sandbox:安全なエージェント実行環境

GKE Agent Sandboxは、信頼されていないエージェントコードを安全に実行するためのカーネルレベルの分離環境を提供する。gVisor技術を採用し、1秒あたり300のサンドボックスを生成できる高速なプロビジョニング性能を持ち、ウォームプールの活用によってコールドスタートを1秒未満に抑える。

KubernetesプリミティブとしてSandboxSandboxTemplateSandboxClaimという3つの新規リソースを導入しており、オープンソースの実装として任意のKubernetesクラスタへの導入も可能だ。GoogleはCloudflareやE2Bなど独自サービスを提供する競合とは異なり、標準的なKubernetesプリミティブとして展開する点を差別化要因として強調しており、主要ハイパースケーラーの中で唯一のネイティブエージェントサンドボックスオファリングと位置付けている。

GKE Hypercluster:大規模AI基盤の統合管理

GKE Hypercluster(プライベートGA)は、単一のコントロールプレーンから複数リージョンにまたがる最大100万個のアクセラレータチップと最大256,000ノードを管理できる。従来のアーキテクチャでは大規模なAI基盤の運用において分断が生じていたが、Hyperclusterはこの課題を解消し、超大規模な分散推論ワークロードの統合管理を実現する。

推論パフォーマンスの改善

今回の発表にはインフラ管理以外の推論性能改善も含まれている。「予測遅延ブースト」機能では最初のトークンまでの遅延を最大70%削減でき、「KVキャッシュストレージティアリング」では50,000トークンのプロンプトに対して約70%のスループット向上を実現する。また「インテントベースオートスケーリング」では、メトリクスを外部監視スタックではなくPodから直接取得することで、HPA(水平Pod自動スケーラー)の反応時間を25秒から5秒へ短縮できる。これらの機能を組み合わせることで、GKE上でのAI推論ワークロード全体のコストパフォーマンス向上を図っている。