코인베이스, 5월 다운 사건 재조명: AWS 연쇄 장애로 드러난 아키텍처 위험
Coinbase는 2026년 5월 7일 대규모 서비스 중단 사건에 대한 복구 보고서를 발표했습니다.
이번 장애는 약 8시간 지속되었으며, 완전 복구에는 약 12시간이 소요되었습니다. 이 기간 동안 거래, 충전, 출금 및 대부분의 핵심 서비스가 사용 불가능하거나 심각하게 저하되었습니다. Coinbase는 장애의 원인이 AWS us-east-1 지역의 특정 가용 구역(use1-az4) 데이터 센터의 여러 냉각 시스템이 동시에 고장 나면서 발생한 기기 과열 보호로 인한 중단으로, EC2 인스턴스와 EBS 볼륨이 오프라인 상태가 되었고, 여러 인터넷 서비스에 영향을 미쳤다고 밝혔습니다.
복구 과정에서 Coinbase 거래 매칭 엔진은 단일 AWS 데이터 센터에 배치된 클러스터 구조로 인해 다수의 노드를 잃어 quorum을 상실하였고, 긴급하게 코드 조정과 새로운 노드 그룹을 통해 복구 작업을 재건해야 했으며, 복구 과정에서 점진적으로 시장 거래를 재시작했습니다.
또한, AWS가 호스팅하는 Kafka(MSK) 서비스에서 제어 평면 장애가 발생하여 파티션의 주 노드가 자동으로 재선출되지 못하게 되어, 가격 제시, 수수료 및 일부 정산 및 데이터 흐름 시스템이 차단되어 전체적인 영향 범위가 확대되었습니다.
Coinbase는 AWS 엔지니어링 팀과 협력하여 수동으로 파티션을 이전한 후 시스템이 점차 정상으로 복구되었습니다. Coinbase는 이번 사건이 가용 구역 간 자동 전환 능력 및 호스팅 미들웨어 재해 복구 측면에서의 부족함을 드러냈다고 밝혔습니다. 회사는 지역 간 핫 스탠바이 아키텍처를 업그레이드하고 정기적인 장애 훈련을 강화하며, Kafka 시스템을 이중 가용 구역에서 삼중 가용 구역으로 이전하고, AWS와 함께 근본 원인 수정 및 개선을 추진할 것입니다.







