概要
Cloudflareは、グローバルネットワーク上で大規模言語モデル(LLM)を効率的に実行するための新しいインフラを発表した。その中核となるのが、Rust製の独自AI推論エンジン「Infire」だ。Infireは複数のGPUにまたがってモデルを実行し、メモリ消費量の削減と起動時間の短縮を実現している。パイプライン並列化とテンソル並列化を組み合わせることで負荷分散を図りつつ、GPU間の通信オーバーヘッドを最小限に抑えている。
分離プリフィルアーキテクチャ
今回の技術的な核心となるのが「分離プリフィルアーキテクチャ(Disaggregated Prefill Architecture)」だ。このアプローチではLLMのリクエスト処理を2段階に分割し、それぞれ別のマシンで実行する。第1段階の「プリフィルステージ」では入力トークンを処理してKVキャッシュを構築する(コンピュート集約型)。第2段階の「デコードステージ」では出力トークンを生成する(メモリ集約型)。各ステージの特性に合わせて最適化することで、全体的な処理効率を向上させている。
超大規模モデルへの対応と最適化
現代のLLM推論が直面する課題の一つが、モデルの巨大化に伴うハードウェアリソースの膨大な要求だ。たとえばKimi K2.5(パラメータ数1兆以上、約560GB)はモデルのロードだけでH100 GPUが最低8枚必要で、処理オーバーヘッドを考慮するとさらに多くのリソースが求められる。一方でMeta社のLlama 4 ScoutはH200 GPU 2枚で動作可能であり、Cloudflareはモデルに応じた効率的な構成を実現している。
さらにCloudflareは「Unweight」と呼ぶ可逆圧縮の新手法を開発した。モデルの重みを精度の損失なく約15〜22%圧縮することで、推論時のGPU間データ転送量を削減し、全体のスループット向上に貢献している。
背景と業界への示唆
Cockroach LabsはAI時代の本番ワークロードについて、「従来のインフラはこの種の負荷に対応できる設計になっていない」と指摘しており、根本的なアーキテクチャの変革が必要だとしている。Cloudflareの取り組みは、エッジコンピューティングの強みを活かしてLLM推論をグローバルに分散させるモデルとして注目されており、高性能なAIサービスをより低コストで提供するための新たな方向性を示している。