障害の概要と原因
2026年5月、AWSの米国東部(バージニア北部)リージョン「us-east-1」において、単一データセンターの冷却装置故障に起因する過熱障害が発生した。AWSは「データセンター内の温度上昇によりアベイラビリティゾーン内のインスタンスに支障が生じた」と公式に認めたものの、詳細な根本原因については調査中とした。障害の影響範囲はus-east-1内の6つのアベイラビリティゾーンのうち「use1-az4」に集中し、EC2インスタンスとEBSボリュームが電力供給を失う形で停止した。us-east-1は世界で最も利用されているAWSリージョンの一つであるため、障害の波及範囲は広く、150以上のクラウドサービスが影響を受けた。
影響を受けたサービスと企業
障害はAWS IoT Core、Amazon EKS、Elastic Load Balancing、Amazon Redshiftをはじめ多数のマネージドサービスに及んだ。これらの多くは復旧作業が進んだ一方、Amazon ElastiCache、Amazon Managed Streaming for Apache Kafka(MSK)、Amazon OpenSearch Service、Amazon SageMakerについては復旧に時間を要した。冷却システム容量の回復作業が予想を上回る難航を見せたため、完全復旧の目処が立てにくい状況が続いた。
企業への影響では、仮想通貨取引所のCoinbaseが最も注目を集めた。同社はマルチアベイラビリティゾーン構成を採用していたものの、取引エンジンはレイテンシ最小化のために単一ゾーンで運用されており、これがリージョンレベルの障害に対応できない盲点となった。結果として取引サービスと国際取引所が約7時間にわたって利用不可となった。スポーツベッティングのFanDuelはNBAの試合中にサービスがオフラインになるという最悪のタイミングで障害に直面し、CME Groupでも機関投資家向けトレーディングプラットフォームでのログイン障害や遅延が報告された。
クロスリージョン災害復旧戦略の重要性
今回の障害は、「高可用性(HA)」と「災害復旧(DR)」が解決する問題の本質的な違いを改めて浮き彫りにした。マルチAZ構成は同一リージョン内の単一障害点を排除するが、リージョン全体に影響が及ぶような事象には対応できない。AWSのサービスクレジットは月額コンピュート費用の約10%をカバーするにとどまり、失われた収益・規制リスク・顧客信頼への補償はない。
専門家が推奨する対策として、リージョン間レプリケーションの整備(目標RPO:10分以内)、セカンダリリージョンへの自動フェイルオーバー計画の策定、そして定期的なDR手順の検証が挙げられている。シングルリージョン依存のアーキテクチャを採用している組織は、今回の障害を機にクロスリージョン戦略の導入コストと事業継続リスクを再評価する必要がある。