概要
アムステルダムで開催されたKubeCon + CloudNativeCon Europe 2026(2026年3月24日)のDay 1において、NVIDIAはCloud Native Computing Foundation(CNCF)のプラチナメンバーとして正式に加入し、GPU向けDynamic Resource Allocation(DRA)ドライバーをCNCFへ寄贈すると発表した。このドライバーはベンダー中立なリファレンス実装としてKubernetesプロジェクト配下でコミュニティ管理へ移行する。CNCFのCTO Chris Aniszczyk氏は「NVIDIA DRAドライバーのアップストリーム化は、オープンソースのKubernetesとAIインフラにとって大きなマイルストーン」と評した。13,500人以上が100カ国から参加した同カンファレンスで発表されたこの取り組みは、AIインフラ標準化への業界的な期待の高さを示している。
GPU DRAドライバーの技術的な詳細
従来のKubernetesにおけるGPU管理では、nvidia.com/gpu:1 のような単純な整数リソースとして扱うモデルが主流であり、現代のAIワークロードが必要とする細粒度な要求を表現できなかった。新たに寄贈されるDRAドライバーはこの制約を大きく解消する。
主な機能は以下の通りだ。
- NVIDIA Multi-Process Service(MPS)とMulti-Instance GPU(MIG) によるスマートなGPU共有
- NVIDIA Multi-Node NVLink を活用したGrace Blackwellシステム上での大規模AIモデルのスケーラブルなトレーニング
- ComputeDomains という抽象化レイヤーにより、複数ノードにまたがるワークロードが単一の巨大なGPU上で動作しているかのように振る舞うマルチノードNVLink通信
- Container Device Interface(CDI) による標準化されたデバイス注入
- アプリケーション要求に応じたリアルタイムのハードウェア再設定
アーキテクチャとしては「GPUオペレーター」「DRAドライバー」「KAIスケジューラー」の3層構造で構成される。KAIスケジューラーはAI対応インテリジェンスを担い、フラクショナル割り当てや分散トレーニング向けのギャングスケジューリングなどを提供し、今回CNCFサンドボックスプロジェクトとして新たにオンボードされた。
追加発表とエコシステムへの影響
NVIDIAはDRAドライバーの寄贈に加え、以下の取り組みも発表した。
- Grove: GPUクラスター上でAIワークロードをオーケストレーションするためのオープンソースKubernetes API
- Kata Containers向けGPUサポート: 軽量仮想マシンを活用したセキュアなGPU利用
- NVSentinel および AI Cluster Runtime プロジェクトの公開
さらにNVIDIAは今後3年間でCNCFプロジェクトへ4百万ドルを投資し、高性能GPUコンピューティングリソースへのアクセスを提供することを約束した。Amazon Web Services、Broadcom、Canonical、Google Cloud、Microsoft、Nutanix、Red Hat、SUSEなど主要クラウド・インフラプロバイダーとの連携も進める予定だ。「KubernetesはモダンなAI時代ワークロードのデファクトコントロールプレーンに進化した」とされる中、今回の取り組みはGPU対応クラウドネイティブ基盤の標準化を加速し、AIインフラが独自サイロから共通ユーティリティへと移行する流れを決定づけるものとして注目される。