Coinbase 5月のダウン事件を振り返る:AWSの連鎖障害がアーキテクチャのリスクを露呈
Coinbaseは2026年5月7日の大規模サービス中断事件に関する振り返り報告を発表しました。今回の障害は約8時間続き、完全な復旧には約12時間を要しました。この間、取引、入金、出金および多数のコアサービスが利用不可または深刻なダウングレードを経験しました。Coinbaseによると、障害の原因はAWS us-east-1リージョンのある可用性ゾーン(use1-az4)のデータセンターの冷却システムの複数の冷却機が同時に故障し、ラックの熱保護によるシャットダウンが発生したためで、EC2インスタンスとEBSボリュームがオフラインになり、複数のインターネットサービスに影響を及ぼしました。復旧プロセスでは、Coinbaseの取引マッチングエンジンが単一のAWSデータセンターにデプロイされたクラスターアーキテクチャの多数のノードを失ったため、quorumを喪失し、緊急にコード調整と新しいノードグループの再構築を通じて運用を復旧させる必要があり、復旧プロセス中に市場取引を段階的に再起動しました。さらに、AWSがホストするKafka(MSK)サービスに制御プレーンの障害が発生し、パーティションのマスターノードが自動的に再選出できなくなり、見積もり、手数料および一部の決済とデータフローシステムがさらに阻害され、全体的な影響範囲が拡大しました。CoinbaseはAWSエンジニアリングチームと協力して手動でパーティション移行を行った後、システムは徐々に正常に復旧しました。Coinbaseは、この事件が可用性ゾーン間の自動切り替え能力およびホスティングミドルウェアの災害復旧における不足を露呈したと述べています。会社は、地域間のホットバックアップアーキテクチャをアップグレードし、定期的な障害演習を強化し、Kafkaシステムを二つの可用性ゾーンから三つの可用性ゾーンに移行し、AWSと共に根本原因の修正と改善を進める予定です。