심층 조사: 새로운 공용 블록체인들이 왜 자주 다운되는 사고가 발생하는가?

ChainCatcher 선정
2022-01-31 15:16:21
수집
트래픽 통제 실패는 최근 많은 퍼블릭 블록체인의 "정지"의 근본 원인이며, 프로젝트 측이 자주 사용하는 "기본 가스 요금 인상" 조치는 본질적으로 시스템이 지원할 수 있는 처리량을 낮추는 것입니다.

저자:Richard Lee

편집:龚荃宇

1월에 접어들면서 Solana, Harmony, Arbitrum 등 여러 공공 블록체인/Layer2에서 블록 생성 중단 현상이 발생했으며, 이더리움 사이드체인 Polygon에서는 심각한 혼잡 현상이 나타났고, 사용자들은 오랜 시간 동안 거래나 출금을 시도할 수 없다고 보고하고 있습니다.
위의 공공 블록체인들은 대부분 "고성능"을 주된 슬로건으로 내세우고 있지만, 비슷한 시기에 일제히 "파업"을 시작했습니다. 그 이전에도 Solana, Arbitrum, BSC, Fantom 등은 유사한 문제를 여러 차례 드러낸 바 있습니다.

새로운 공공 블록체인의 집단 정지는 광범위하게 존재하며, 깊은 영향을 미치는 인프라 위기를 반영합니다. 체인 캡처는 관련 당사자인 Harmony 팀과 Conflux 등 국내 공공 블록체인의 전문가들을 인터뷰하여 이 위기를 복원하고, 주목하고 깊이 생각해야 할 문제를 명확히 하려고 합니다.

1. 왜 "공공 블록체인 다운"이 주목받아야 할까요?

Web 3.0은 Web 1.0의 개방성과 Web 2.0의 경제적 효율성을 동시에 결합한 것으로 유명하며, 암호화圈에서 차세대 인터넷 물결을 지칭하는 용어입니다. 이 오래된 용어가 다시 핫이슈가 된 것은 암호 경제에 합법성을 부여하는 것 외에도, 블록체인과 암호 기술의 대규모 채택을 상징하기 때문입니다.

공공 블록체인 분야는 2021년에 폭발적인 발전을 맞이했으며, Solana의 등장은 그 이유 중 하나입니다: 초당 수만 TPS를 자랑하며 사용자에게 더 빠르고 저렴한 체인 사용 경험을 제공하기 위해 노력하고 있습니다. SBF, 미국 은행 등 여러 유명 인사나 기관은 Solana를 대규모 암호화 채택을 촉진하는 "포털"로 보고 있습니다.

체인 상의 애플리케이션이 더욱 확장될 것으로 기대되는 미래에, 공공 블록체인은 가장 기본적인 인프라로서 그 안전성과 안정성이 매우 중요합니다. Solana를 대표로 하는 새로운 공공 블록체인은 이더리움에 도전하고, 많은 신규 사용자가 암호화 산업에 진입하는 첫 번째 정거장이 되었지만, 잇따라 다운되는 등 곤란한 상황을 겪으면서 이러한 새로운 공공 블록체인이 빠른 발전 과정에서 점차적으로 자신의 단점을 드러내고 있음을 반영합니다.

위의 공공 블록체인 네트워크가 몇 시간씩 마비되는 현상이 즉시 해결되지 않는다면, 신규 진입하는 주류 사용자에게 나쁜 사용 경험과 인상을 줄 것이며, 이는 암호 경제의 대규모 발전을 제약하는 중요한 병목 현상이 될 것입니다. 결국, 공공 블록체인은 분산 노드 유지의 탈중앙화 네트워크로서, 만약 중앙화 서버 기반 플랫폼처럼 자주 다운되거나 지연된다면, 어떻게 주류 사람들을 신뢰시킬 수 있을까요?

2. 트래픽 통제: 새로운 공공 블록체인의 "정지" 근본 원인

"DDoS 공격"은 프로젝트 측이 네트워크 성능 저하를 설명할 때 가장 자주 사용하는 용어 중 하나입니다. DDoS 공격의 전체 이름은 "분산 서비스 거부 공격"으로, 여러 출처의 트래픽을 사용하여 시스템의 처리 범위를 초과하게 하여 실제 사용자가 필요한 네트워크 서비스나 자원을 제때에 받을 수 없도록 하는 것입니다. 공격자는 일반적으로 특정 네트워크에 네트워크 카드의 처리 능력을 초과하는 트래픽을 보내거나 특정 애플리케이션에 관리 능력을 초과하는 요청 수를 보내어 효과를 얻습니다.

블록체인 화이트 해커 조직 Halborn에 따르면, 전통적인 DDoS 방식은 시스템 내의 고정 단일 지점 고장을 유발하는 경우가 많습니다. 예를 들어, 하나의 웹 서버가 고장 나면 방문자는 해당 서버가 운영하는 웹사이트에 접근할 수 없게 됩니다. 따라서 DDoS 공격에 대한 저항력은 일반적으로 블록체인 기술의 주요 판매 포인트 중 하나입니다. ------ 블록체인 네트워크에는 필수적인 노드가 없으며, 단일 노드가 오프라인이 되어도 전체 네트워크가 마비되지 않기 때문입니다.

하지만 이것이 블록체인이 DDoS의 영향을 받지 않는다는 것을 의미하지는 않습니다. Halborn은 공격자가 대량의 스팸 거래를 보내 블록체인 네트워크를 가득 채워 "합법 사용자"의 사용 기회와 공간 자원을 줄일 수 있다고 지적했습니다. 실제 상황에서는 일반적으로 소위 "공격"이 실제로 계획된 "공격"이 아니라, 인기 있는 프로젝트의 IDO, GameFi 거래 또는 시장의 큰 흐름 속에서 실제 사용자가 컴퓨터 프로그램을 이용해 "부정행위"를 하는 경우입니다.

그렇다면, 노드 서버의 메모리 용량을 지속적으로 늘리는 것이 이 문제를 해결할 수 있을까요? 답은 부정적입니다. 이는 대부분의 블록체인 네트워크가 공유하는 특성에 의해 결정됩니다: 대부분의 블록체인은 고정 용량을 가지고 있으며, 정기적으로 특정 크기 제한을 가진 블록을 생성합니다. 노드는 블록을 패키징할 때 현재 블록에 적합하지 않은 모든 내용은 "메모리 풀"에 저장되어 다음 블록 패키징을 기다립니다.

따라서 이 근본적인 속성은 공공 블록체인 네트워크가 직면해야 하는 보편적인 문제를 결정합니다: 특수한 상황에서는 홍수처럼 넘치는 거래 요청이 발생할 수 있습니다.

이 난제를 어떻게 해결할 것인지, 그리고 대응 조치가 효과적인지는 각 대형 네트워크의 최근 성과를 평가하는 중요한 지표입니다.

Solana 사용자는 "거래 범람"의 경험에 가장 익숙할 것입니다. 지난해 9월 14일로 거슬러 올라가면, Solana는 17시간 동안 전체 네트워크가 중단되었고, 모든 체인 상 서비스가 사용 불가능했습니다. 공식 후속 보고서는 탈중앙화 소셜 네트워크 프로토콜 Grape Protocol의 Raydium 플랫폼에서의 IDO 활동이 활발해 많은 사용자가 작성한 머신 스크립트를 통해 대량의 거래를 보내면서 "메모리 오버플로우"가 발생하여 검증 노드가 붕괴되었고, 결국 전체 네트워크가 "합의"에 도달하지 못하고 오프라인(즉, 새로운 블록을 생성할 수 없음) 상태가 되었다고 밝혔습니다.

image

Solana Status 공지에 따르면, Solana 네트워크는 지난해 12월 초부터 현재까지 지속되고 있는 혼잡 현상도 "9·14" 다운 사건에서 드러난 문제와 관련이 있습니다. Solana Status는 Solana 재단이 운영하는 네트워크 성능 공지를 발표하는 트위터 계정입니다.

블록체인 회사 Laine의 분석에 따르면, 최근 시장의 변동성이 크고 DeFi 프로젝트의 많은 레버리지 포지션이 청산 기준에 도달했습니다. DeFi 청산을 수행하는 사람들은 보상을 받으며, 누구나 청산자로 신청할 수 있습니다. 따라서 이는 많은 사람들이 보상을 차지하기 위해 경쟁하는 시장을 창출했으며, 그 중 많은 사람들이 자가 개발한 자동화 프로그램(즉, 일반적으로 "로봇"이라고 불리는)을 사용하고 있습니다. 이들은 "경쟁에서 이기기" 위해 수십 번, 심지어 수백 번 동일한 거래 요청을 보냅니다.

"우리는 매초 거의 200만 건의 거래(거래 또는 기타 유형의 요청)가 동일한 노드에 도착하는 것을 보고 있으며, 그 중 90% 이상이 완전히 동일한 반복입니다." Solana 공동 창립자 Anatoly Yakovenko는 1월 27일 새벽 Twitter Space 활동에서 밝혔습니다.

다운 원인에 대해 경계 스마트 연구소 소장 후즈웨이는 체인 캡처에 대해 Solana가 합의 메시지를 특별한 거래 메시지로 검증 노드 간에 전달하기 때문에 대량의 메시지가 막혀 합의 메시지가 정상적으로 전달되지 못해 합의가 정상적으로 진행되지 못했다고 설명했습니다.

image

Solana TPS의 구조 구성 출처: solana beach

"동시에 Solana의 일부 특성이 타겟으로 활용되어 네트워크 다운을 초래했습니다. 예를 들어, 동시 처리 거래의 쓰기 잠금을 위해 많은 중요한 주소에서 잠금이 걸려 거래가 동시 실행이 아닌 순차 실행으로 바뀌어 메시지 처리 능력에 큰 영향을 미쳤습니다. 노드는 분기를 처리하기 위해 가능한 분기 정보를 계속 보유하여 메모리 오버플로우 등을 초래했습니다." 후즈웨이는 말했습니다.

국내 유명 공공 블록체인 Conflux의 CTO 우밍은 체인 캡처에 대해 Solana 네트워크에서 거래가 과도하게 발생해 네트워크가 혼잡해질 경우 블록의 전파(브로드캐스트) 지연이 증가하고, 장부가 쉽게 분기될 수 있다고 분석했습니다. 장부 분기 상황이 심각해지면 합의 알고리즘의 압력이 증가하고, 이를 잘 처리하지 못하면 결국 시스템이 완전히 붕괴될 수 있습니다.

"여기서 중요한 문제는, 노드가 비용이 매우 낮은 스팸 거래를 무제한으로 전파해서는 안 된다는 것입니다. Solana는 이 부분에서 유량 제어(트래픽 컨트롤)를 잘 하지 못한 것 같습니다." 우밍은 말했습니다.

Anatoly Yakovenko도 위의 Twitter Space 활동에서 이 문제를 인정했습니다. 그는 주요 문제는 원래 프로그램 설계에서 "중복 거래 검사"가 서명 검증 후에 이루어지기 때문에 모든 중복 데이터는 먼저 서명 검증을 거쳐야만 "스팸 거래"인지 여부가 검사된다고 밝혔습니다. 또한, 노드 클라이언트 업그레이드 전 Solana는 중복 데이터를 삭제하고 네트워크의 중복을 제거하는 프로그램이 매우 느리게 실행되어 수백 마이크로초가 소요되었습니다.

다음 대규모 시장 상황에서 "로봇" 거래가 다시 네트워크에 방해가 되지 않도록 하기 위해, Anatoly Yakovenko는 Solana 메인넷 베타의 1.9 버전에서 "실제 유량 제어(actual flow control)"를 도입할 것이라고 밝혔습니다.

또 다른 인기 공공 블록체인 Harmony도 유사한 문제에 직면하고 있습니다. 1월 15일, Harmony 네트워크는 몇 시간 동안 중단되었고, 팀은 공식적으로 기본 가스 요금을 30 gwei로 인상하여 스팸 거래의 진입 장벽을 높였습니다.

Harmony 커뮤니티가 발표한 사후 분석에 따르면, 네트워크의 리더 노드가 대량의 스팸 트래픽을 수신했으며, 검증 노드의 구버전 클라이언트가 높은 트래픽 상황을 잘 처리하지 못해 내부 및 외부 요인이 복합적으로 작용하여 이 "다운" 사고가 발생했습니다.

Harmony CTO 롱지안란은 체인 캡처에 대해 P2P 네트워크 데이터 패킷의 반복 전송이 P2P 네트워크의 혼잡을 초래하여 정상적인 합의 메시지가 원활하게 전송되지 못해 네트워크가 "합의"에 도달하지 못했다고 밝혔습니다. 내부 원인은 Harmony P2P 네트워크의 매개변수가 최적화되지 않고 잠재적인 버그가 존재하여 위와 같은 현상이 발생했습니다.

"새로운 Web3 인프라는 더 나은 트래픽 모니터링 및 트래픽 제한 메커니즘이 필요하여 네트워크 남용을 방지해야 합니다." 롱지안란은 Harmony가 P2P 네트워크 프로토콜 계층 매개변수를 최적화한 후 장기적인 시스템 개선 프로젝트를 진행할 것이라고 밝혔습니다. 합의, 네트워크 및 RPC 계층 모두 최적화할 것입니다.

또한, 이더리움 2층 확장 네트워크 Arbitrum One은 지난해 9월 14일과 올해 1월 9일에 각각 네트워크 중단 현상이 발생했지만, 공식 발표에 따르면 이는 트래픽 통제와 직접적인 관계가 없으며, 주로 해당 네트워크가 여전히 테스트 단계에 있어 의도적으로 높은 중앙화 정도를 유지하고 있기 때문입니다.

알려진 바에 따르면, Arbitrum One의 첫 번째 사고 원인은 Sequencer에 버그가 있었고, 최근의 다운은 주 Sequencer 노드에 하드웨어 고장이 발생하고 백업 Sequencer가 제때 작동하지 않아 네트워크가 몇 시간 동안 "파업"한 것입니다.

"우리는 일반적으로 중복성을 가지고 있어 백업 Sequencer가 원활하게 제어할 수 있지만, 소프트웨어 업그레이드가 진행 중이어서 이러한 기능이 작동하지 않았습니다. 결과적으로 Sequencer가 새로운 거래를 처리하지 못하게 되었습니다." Offchain Labs는 밝혔습니다.

알려진 바에 따르면, 시퀀서(Sequencer)는 Arbitrum 개발 팀 Offchain Labs가 운영하는 전체 노드입니다. 시퀀서는 특정 권한을 가지고 있으며, 수신함의 각 거래의 순서를 제어하여 사용자의 거래 결과가 즉시 확정될 수 있도록 합니다.

Offchain Labs는 위의 발표에서 Arbitrum이 완전히 탈중앙화되면 가장 강력한 보장이 올 것이라고 밝혔습니다.

3. "기본 가스 요금" 인상이 최종 해결책인가? 공공 블록체인 안정성의 미래는 어디에 있을까요?

사실, 일정한 동기 유인 하에 스크립트를 작성하고 "부정행위"를 하는 것은 인터넷 사용자들이 오랫동안 해온 자연스러운 행동이며, 체인 상의 상호작용이 증가함에 따라 "거래 범람"과 "로봇"의 문제는 불가피하게 블록체인 공간에 들어오게 됩니다.

동시에 네트워크 운영 상태에서 "악평"을 받은 Polygon 네트워크도 있습니다. 1월 초, Polygon의 P2E 게임 Sunflower Farmers가 인기를 끌면서 참여한 플레이어들이 대량의 거래 요청을 보냈고, 한때 해당 체인 게임의 스마트 계약 가스 소비가 전체 Polygon 네트워크의 41.8%를 차지하여 Polygon의 다른 유형의 거래가 일시적으로 중단되었고, 네트워크는 높은 혼잡 상태를 보였으며, 평균 가스 가격이 며칠 사이에 거의 7배 상승했습니다.

image

Polygon 최근 3개월 평균 가스 가격 추세 출처: Polygonscan

Polygon은 오랫동안 "거래 범람"에 시달려 왔으며, 네트워크 혼잡 현상이 가끔 발생하고 있습니다. 지난해 10월, Polygon은 이미 노드 클라이언트의 최소 가스 가격을 30배(1 Gwei에서 30 Gwei로) 인상하여 대량의 "스팸 거래"에 대응했습니다.

이 대응 방식은 Harmony가 취한 긴급 조치와 일치합니다. 그러나 기본 가스 가격을 인상하는 것은 한편으로는 사용자의 "부정행위" 비용을 높이고, 다른 한편으로는 사용자 경험에 영향을 미칠 수 있습니다.

프로젝트 측의 이러한 관행에 대해 우밍은 체인 캡처에 대해 기본 가스를 인상하는 것이 일종의 "유량 제어" 방식으로 확실히 효과적이라고 분석했습니다. 이 조치의 본질은 시스템이 지탱할 수 있는 처리량을 줄이는 것입니다.

그러나 그는 "더 나은 성과를 원한다면, 시스템 자체에 노력을 기울여 시스템이 지원할 수 있는 최대 처리량을 높여야 하며, 이는 합의 알고리즘, 네트워크 전파 알고리즘, 저장 및 실행 최적화 등 여러 측면의 개선을 포함합니다."라고 지적했습니다.

Solana 공동 창립자 Anatoly Yakovenko가 공개한 "유량 제어" 개선 사항에는 새로운 프로토콜 메커니즘 도입이 포함되어 있습니다. Anatoly Yakovenko는 새로운 업그레이드에서 스테이킹 가중치에 따른 qos 유량 제어 메커니즘을 도입할 것이라고 밝혔습니다. 이 메커니즘은 "Quic Protocol"에 의해 구현되며, 이 프로토콜은 구글이 개발한 것으로 5-6년의 역사를 가지고 있다고 합니다. 이 프로토콜을 통해 Solana는 발신자에게 "평가" 제한을 적용할 수 있습니다. 그 중, 다양한 블록 간 대역폭을 어떻게 분배할 것인지는 개발 팀이 가장 해결해야 할 과제입니다 ------ 이 과정은 검증자가 네트워크의 나머지 부분에서 메시지 흐름을 수신하고, 이러한 메시지의 출처 가중치에 따라 서비스 품질과 혼잡 제어의 우선 순위를 매기는 것입니다.

Anatoly Yakovenko는 트위터에서 위의 "유량 제어" 조치가 향후 4-5주 내에 출시될 것이라고 밝혔습니다.

후즈웨이는 유량 공격에 대해 공공 블록체인이 검증인을 위한 네트워크 트래픽 보호 조치를 취할 수 있다고 말했습니다. 예를 들어, 주 노드에 문제가 발생할 경우 일련의 메커니즘을 통해 주-종 전환을 구현하고 장애 전환을 수행하는 노드인 센티널 노드를 사용할 수 있습니다. TPS가 더 높은 솔루션에 대해서는 본 체인에서 최적화하는 것 외에도 크로스 체인 + 애플리케이션 전용 체인의 확장 처리 방식을 고려할 수 있습니다.

이것은 BSC가 탐색하고 있는 솔루션이기도 합니다. 최근 BSC 공식은 연례 요약에서 인정한 바에 따르면, 운영 메커니즘에 여러 도전이 존재하며, "네트워크 혼잡과 노드 운영자가 최신 블록과 동기화하기 위해 전체 노드를 관리하는 데 어려움을 겪고 있다"고 밝혔습니다. 이로 인해 BSC는 지난해 여러 차례 단기 다운 현상이 발생했습니다.

이에 대해 BSC는 대형 블록 설정으로 인해 검증 노드가 블록을 동기화하는 데 더 많은 저장 공간과 시간이 필요하다고 밝혔으며, 2022년에는 다중 체인 및 크로스 체인으로 발전하여 BSC 애플리케이션 사이드 체인(BAS) 및 BSC 파티션 체인(BPC)을 출시하여 메인 체인의 데이터 저장량을 줄일 것이라고 밝혔습니다.

image

BSC 올해의 기술 계획 출처: BSC 블로그

기술 개선과 탈중앙화 정도의 향상이 공공 블록체인 네트워크 운영의 안정성을 보장할 수 있을까요?

이 문제에 대해 일부 네티즌은 블록체인 "확장성"의 "불가능한 삼각형"을 모방하여 "거래 품질"의 선택 딜레마를 제기했습니다: 거래 범람(spam), 검열 저항성(censorship resistance) 및 낮은 비용(low fees) 세 가지 사이에서 두 가지를 달성하면 나머지 하나는 반드시 달성할 수 없습니다.

image

실제로 이러한 프로젝트 팀이 개선 조치를 시행하기 전까지는 아직 미지수입니다.

그러나 어쨌든 공공 블록체인 다운 현상은 시사하는 바가 있습니다: 앞으로 상당한 기간 동안 공공 블록체인은 기본 인프라로서 여전히 초기 단계에 있으며, 네트워크 안정성, 생태계 완전성 등 여러 측면에서 더 많은 시험을 받아야 하며, 특히 거래 급증 등의 특수 상황에 대응하기 위한 더 많은 조치를 취해야 하며, 일반 사용자의 사용 경험에 부정적인 영향을 미치지 않도록 해야 합니다.

(Loners Liu、Hunter He도 본문에 기여하였습니다)

체인캐처(ChainCatcher)는 독자들에게 블록체인을 이성적으로 바라보고, 리스크 인식을 실제로 향상시키며, 다양한 가상 토큰 발행 및 조작에 경계해야 함을 상기시킵니다. 사이트 내 모든 콘텐츠는 시장 정보나 관련 당사자의 의견일 뿐이며 어떠한 형태의 투자 조언도 제공하지 않습니다. 만약 사이트 내에서 민감한 정보를 발견하면 “신고하기”를 클릭하여 신속하게 처리할 것입니다.
banner
체인캐처 혁신가들과 함께하는 Web3 세상 구축