15개의 최고급 제로데이 취약점을 획득하다: 0G Lab이 신국립, 북대와 북우 팀과 함께 구축한 합의 프로토콜 디버그 인공지능 프레임워크

2026-06-11 14:24:48

수집

전문 다중 에이전트 테스트 프레임워크 Agora가 15개의 최상위 합의 프로토콜 심층 취약점을 강력하게 포착하여 초저비용으로 원주율 대모델의 차원 축소 타격을 실현하고, 자동화 보안 감사의 새로운 시대를 전면 개막합니다.

분산 시스템의 "성배"------ 합의 프로토콜(Consensus Protocols)은 오랫동안 최고의 인프라 엔지니어들의 "버그 지옥"이었습니다. 그 상태가 극히 복잡하고 다중 노드가 얽혀 있기 때문에, 전통적인 테스트와 단일 LLM은 하드코어 Deep Bug(심층 논리 결함)에 거의 무력합니다.

최근, 최신 ICML 2026 중간 논문에서 0G Labs와 싱가포르 국립대학교, 베이징 대학교, 베이징 우편통신대학교 등 최고의 학술 및 산업 팀의 연구자들이 분야 지식과 대모델 다중 Agent의 협동 깊은 융합을 최초로 시도한 자동화 테스트 프레임워크 ------ Agora를 제안했습니다.

이 프레임워크는 혁신적인 아키텍처를 통해 프로토콜의 고통점을 정통으로 타격하며, Raft, EPaxos, HotStuff, BullShark 등 산업 및 학계의 핵심 프로토콜에서 한 번에 15개의 전례 없는 프로토콜 수준 Deep Bug를 제거했습니다! 이에 비해, 강력한 GPT-5.2, Claude 4.5와 같은 원주율 대모델들은 모두 실패하며, 제로를 기록했습니다. 다중 에이전트(Multi-Agent) 시스템과 "지능형 안전 감사"(Agentic Quality Control)가 모두 2026년 가장 뜨거운 트렌드가 되고 있는 지금, Agora가 제시하는 것은 단순한 논문이 아니라, 실현 가능한 산업급 솔루션입니다.

15개의 최고급 제로데이 취약점을 획득하다: 0G Lab이 신국립, 북대와 북우 팀과 함께 구축한 합의 프로토콜 디버그 인공지능 프레임워크

논문 ：《Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents》

1. 배경: 0G와 NUS의 강력한 협력, 장기 시스템 지식 축적과 Multi-Agent 패러다임의 경계 간 융합

분산 합의 프로토콜의 진화는 천재의 혁신 역사이자 수많은 최고의 엔지니어들이 겪은 피의 역사입니다. 튜링 상 수상자인 Lamport가 말했듯이, 분산 프로토콜 구현의 정확성을 보장하는 것은 끊임없이 흔들리는 미로에서 눈을 가린 채로 지나가는 것만큼 어렵습니다. 그리고 이 "지옥급" 트랙에서 시장은 조용히 전환되고 있습니다: Gartner의 관찰에 따르면, 다중 에이전트 시스템에 대한 기업 상담량이 1년 이상 내에 10배 이상 폭증했으며, 다중 에이전트 플랫폼 시장도 매년 거의 두 배로 빠르게 확장되고 있습니다 ------ "다중 Agent 협동"을 가장 하드코어한 기본 시스템 검증에 사용하는 것이 최전선의 구상이 아닌 산업의 필수로 변모하고 있습니다.

이러한 지옥급 트랙에 직면하여, 빛나는 후광을 가진 기술 대기업들이 먼저 중대한 자산 탐색을 시작했습니다. 예를 들어, 업계 최고의 Anthropic이 최근 Claude Code에서 내부적으로 추진하고 있는 Glasswing 프로젝트는 Agent를 사용하여 기본 인프라 테스트에 접근하려고 시도했지만, 그 아키텍처는 여전히 최고 사양의 상업 대모델에 극도로 의존하고 있으며, 프로젝트 세부 사항은 불분명하고, 극소수의 대형 기술 기관 및 다국적 대기업과만 비공식적으로 협력하고 있습니다. 더 치명적인 것은, 이러한 대기업의 솔루션이 운영 중에 무서운 Token 소비량을 나타낼 수 있으며, 이러한 높은 계산력 장벽과 중대한 자산 경로는 예산이 제한된 스타트업과 중소기업을 배제합니다.

작은 회사와 오픈 소스 커뮤니티는 최고 수준의 자동화 결함 감사 도구를 사용할 수 없게 되어 있나요?

0G Labs의 엔지니어들과 싱가포르 국립대학교의 리우샹, 베이징 우편통신대학교의 송사, 선용 교수와 베이징 대학교 지능学院의 박사생 장자오 및 연구원 장처야오가 자신들의 Agent 분야의 깊은 지식을 시스템에 부여하여 "작은 것으로 큰 것을 이기는" 파괴적 혁신을 시작했으며, 그 작업은 이미 2026 AI 정상 회의 ICML에 중간 제출되었습니다.

학계의 "장기 시스템 지식 축적"이 산업계의 "통증과 예리한 감각"을 만났을 때, 다음 세대 시스템 보안 혁명을 어떻게 촉발할 수 있을까요?

0G 팀은 블록체인 합의 프로토콜의 실현에서 매우 풍부한 생산급 공격 및 방어 경험을 축적했습니다. 또한 팀은 고성능 분산 시스템, 기본 동시성 제어 및 시스템 형식 검증 분야에서 매우 깊은 학술적 축적을 가지고 있습니다. 그들은 전통적인 방법(예: Fuzzing 퍼징 테스트)이 산업급 코드베이스에 직면할 때 종종 상태 공간 폭발에 제한된다는 것을 잘 알고 있습니다. 여러 연구자들은 장기 축적된 분산 시스템의 전역 불변성(invariants) 논리 추론 지식을 "영혼"으로 삼아, 최전선의 다중 에이전트 협동 패러다임과 자동화 Harness 아키텍처에 주입하여 오픈 소스 평등의 Agora 프레임워크를 출시했습니다.

동시에, 업계 최전선의 모듈화 AI 인프라와 고성능 탈중앙화 데이터 가용성 네트워크로서, 0G 팀은 블록체인 합의 프로토콜 및 고동시성 BFT(비잔틴 내결함성) 아키텍처의 산업 실현에서 매우 풍부한 생산급 공격 및 방어 경험과 실제 세계의 프로토콜 결함 샘플을 축적했습니다.

이러한 경계 간 융합은 게임 규칙을 완전히 바꿨습니다: 그것은 맹목적인 폭력 테스트도 아니고, 분야 상식이 결여된 대모델의 "맹인 코끼리 만지기"도 아닙니다. 오히려 전문화된 Agent 분업을 통해 노련한 시스템 전문가의 수십 년 논리 추론 직관을 Agent 간의 게임과 협동으로 전환하여 전통적인 테스트 도구를 압도하는 하드코어 실력을 갖추게 되었습니다.

Glasswing이 쉽게 막대한 최고 Token을 소비하는 중대한 자산 경로와는 달리, Agora는 중소기업에 매우 우호적인 대체 솔루션을 제공합니다 ------ 그것은 기본 모델이 "조금 부족하더라도" 비용 효율성이 더 높은 경우에도 정교한 분야 인식 다중 Agent 협동 아키텍처를 통해 하드코어 Deep Bug를 여전히 찾아낼 수 있음을 증명했습니다!

2. 통증점: 단일 LLM은 한계를 넘기 어렵고, 분산 시스템은 "심층 논리 다모클레스의 검"에 직면해 있습니다

대데이터, 블록체인 및 분산 데이터베이스가 세상을 지배하는 오늘날, 합의 프로토콜(예: Paxos, Raft, PBFT 등)은 디지털 세계의 기본 기초입니다. 그러나 합의 프로토콜의 구현은 악명 높은 "지옥급 난이도"입니다. etcd와 같은 전 세계 수많은 최고의 엔지니어들이 다듬고 수년간 운영해 온 산업급 기준 프로젝트조차도 사람을 식은땀을 흘리게 하는 Deep Bug(심층 논리 결함)을 숨기고 있습니다.

이러한 결함은 메모리 누수, 정수 오버플로우와 같은 일반적인 저급 구현 결함(Implementation Bugs)과는 다릅니다. 그것들은 여러 실행 단계에 걸쳐 있으며 복잡한 동시 상태에 의존합니다. 일단 악의적으로 촉발되면, 핵심 데이터 손상뿐만 아니라 재앙적인 금융 손실을 초래할 수 있습니다.

최근 인기를 끌고 있는 대형 언어 모델(LLM)은 일반 코드 분석에서 뛰어난 성능을 보이지만, 분산 합의에 직면했을 때는 "지능이 부족"해 보입니다. 그들은 최대한으로 지역 코드의 얕은 결함을 찾아낼 수 있지만, 전역 상태에 의존하는 프로토콜 수준의 논리 결함에 직면했을 때 단일 LLM은 종종 지역 코드의 수렁에 빠져 전역 시퀀스 추론을 전혀 할 수 없습니다.

3. 돌파구: Agora의 세 가지 Agent의 대전환과 핵심 Harness 아키텍처

이러한 정체 상태를 타개하기 위해, Agora는 학계의 고전적인 가설 주도 테스트(Hypothesis-Driven Testing, HDT) 패러다임을 대모델 Agent 시스템에 처음으로 도입했습니다. 효율적인 전역 추론을 달성하기 위해, Agora는 전통적인 "단독 작전" 모드를 완전히 배제하고, 작업 흐름을 세 개의 각기 다른 전문화된 Agent로 정교하게 분리했습니다:

Orchestrator Agent(조정자): 전역 상태 유지 및 알려진 결함에 대한 "결함 활용"을 담당합니다;
Strategy Agent(전략가): 분산 분야 지식을 주입하고 CFT 및 BFT 프로토콜에 대해 매우 공격적인 비정상 시나리오를 생성합니다;
TestGen Agent(코드 생성자): 실무형입니다. 그리고 Agora가 실제로 실행 가능하고 유효한 테스트를 생성할 수 있는 핵심은 그 핵심 자동화 테스트 아키텍처에 있습니다.

그 아키텍처는 다음과 같습니다:

15개의 최고급 제로데이 취약점을 획득하다: 0G Lab이 신국립, 북대와 북우 팀과 함께 구축한 합의 프로토콜 디버그 인공지능 프레임워크

Agora의 전체 설계에서 이러한 "작은 것으로 큰 것을 이기는" 평등 마법은 공허하게 나타나는 것이 아니라, 그 정교한 에이전트 상호작용 메커니즘과 테스트 Harness 아키텍처의 깊은 융합에서 비롯됩니다.

연구팀은 시스템 프레임워크 내부에 매우 간단하고 효율적인 통신 및 메모리 메커니즘(Succinct Memory & Communication)을 특별히 설계하여 각 Agent가 자신의 핵심 작업에 집중하는 동시에 불필요한 컨텍스트 전송 오버헤드를 최소화했습니다. 이러한 극단적인 통신 제약 하에, Orchestrator Agent(전역 조정 및 상태 제어 담당), Strategy Agent(분산 비정상 환경 및 시나리오 생성 담당), TestGen Agent(코드 테스트 및 동적 평가 담당)가 완벽하게 얽혀, Harness 아키텍처를 공동으로 추진하고 충족시킵니다:

쌍검 합일의 자동화 폐쇄 루프: Strategy Agent가 추상적인 분산 공격 시나리오를 추론한 후, 고도로 분리된 상호작용 프레임워크에 의존하여 TestGen Agent가 즉시 기본 테스트를 시작할 수 있습니다. 이 아키텍처는 강력한 환경 적응 능력을 갖추고 있으며, Go, Rust 등 다양한 프로그래밍 언어 환경을 넘나들며 공격 가설을 실제로 실행 가능한 단위 테스트로 변환할 수 있으며, 효율적인 반사 루프(Reflection-Loop) 기술도 내장되어 있습니다.
테스트가 환경에서 실행 중 오류가 발생하면, 시스템은 호출 스택과 실행 로그를 정확하고 실시간으로 포착하여 이를 간소화하여 Agent에 전달하여 방향성 자가 수정이 이루어집니다. 이러한 "다중 Agent 극단적 상호작용 + 동적 Harness 폐쇄 루프"의 유기적 결합은 Agora가 극히 낮은 Token 비용으로 가장 은밀한 심층 논리 Bug를 정확하게 포착할 수 있게 해줄 뿐만 아니라, 오탐률이 극히 낮은 상세 분석 보고서를 생성하게 합니다.

최종 실행 개요는 다음과 같습니다:

15개의 최고급 제로데이 취약점을 획득하다: 0G Lab이 신국립, 북대와 북우 팀과 함께 구축한 합의 프로토콜 디버그 인공지능 프레임워크

4. 전투 성과: 15개의 최고 제로일 Deep Bug를 발견하고, 대모델 baseline은 전면 실패

평가 결과는 충격적입니다. 연구팀은 네 개의 유명한 합의 프로토콜 라이브러리(생산급 etcd 및 신흥 공공 체인 핵심 Sui의 기본 구성 요소 포함)에서 전방위적인 대검사를 실시하고, GPT-5.2, Gemini 3.0 Pro Preview, Claude Sonnet 4.5 및 Qwen3 Coder와 같은 지표에서 가장 강력한 모델과 비교했습니다.

결과는 단순히 0G가 운영하는 합의 시스템을 더 안전하게 만들 뿐만 아니라 압도적인 차원 축소 타격을 보여주었습니다:

15개의 새로운 Logic Deep Bug가 드러나다: Agora는 15개의 이전에 알려지지 않았던 프로토콜 수준의 심층 논리 결함을 성공적으로 발견했습니다. 이 결함들은 실행 분기, 단조성 위반, 토폴로지 결함, 서명 결함 등 고위험 분야에 걸쳐 있습니다.
원주율 대모델 전면 실패: 기준 모델(최첨단 ReAct 동적 도구 체인을 갖추고 있음에도 불구하고)은 이러한 심층 논리 결함에 직면했을 때 모두 실패했습니다(0/15). 그들은 많은 Token을 소모했지만, 저급 코드 구현 Bug에서만 머물렀습니다.
극히 낮은 오탐률과 초고성능: Agora가 생성한 모든 Bug 보고서에서 실제 논리 결함의 비율은 73.9%에 달하며(오탐률은 단지 26.1%), 더 놀라운 것은, 평균적으로 한 명의 숙련된 아키텍트가 머리카락을 다 잃게 만드는 최고 논리 Bug를 발견하는 데 약 5.32M tokens(약 40 달러)가 소모된다는 것입니다. 비용 효율성이 매우 높습니다.

여러 LLM에서의 결과는 다음과 같습니다:

15개의 최고급 제로데이 취약점을 획득하다: 0G Lab이 신국립, 북대와 북우 팀과 함께 구축한 합의 프로토콜 디버그 인공지능 프레임워크

5. 미래: 높은 확장성, 더 많은 기본 하드코어 "무인 구역"으로 진출

Agora의 성공은 분산 시스템의 안전성에 강력한 심장 주사를 제공했을 뿐만 아니라, 대모델의 수직 산업급 응용을 위한 방향을 제시했습니다.

특히 중요한 것은, Agora의 아키텍처 설계가 매우 높은 확장성과 범용성을 보여준다는 것입니다. 연구팀은 Agora가 플러그인 또는 skill 형태로 광범위한 사용자에 의해 신속하게 재현되고 사용될 수 있다고 강조하며, 우리의 코드(github.com/0gfoundation/agora)에서 재현을 돕기 위한 관련 skills를 제공합니다. 뿐만 아니라, Agora의 "대모델 + 다중 Agent 협동 + 가설 주도" 패러다임은 단순히 합의 프로토콜에만 국한되지 않습니다. 그 기본 작업 흐름 제어와 상위 분야 지식 베이스, 테스트가 깊이 분리되어 있습니다. 이는 해당 아키텍처가 많은 사용자들이 신속하게 합의 프로토콜 디버그를 활용할 수 있도록 도와줄 뿐만 아니라, "플러그 앤 플레이" 방식으로 다른 하드코어 분야에도 빠르게 확산될 수 있음을 의미합니다. 이러한 분야는 "심층 논리 결함 지옥"에 시달리고 있습니다:

데이터베이스 동시성 제어(Concurrency Control): 극단적인 격리 수준(예: 직렬화 Serializable)에서 복잡한 트랜잭션 충돌 결함을 테스트하는 데 사용됩니다.
운영 체제 커널 / 동시 시스템: 다중 스레드 인프라에서 숨겨진 교착 상태 및 경쟁 조건을 깊이 발견합니다.
Web3 스마트 계약 감사: 복잡한 경제 모델이 포함된 크로스 체인 프로토콜 및 DeFi 논리에 대한 깊은 안전 경계를 탐색합니다. 블록체인 보안 시장은 2026년까지 약 85억 달러 규모에 이를 것으로 예상되며, "다중 에이전트 안전 시스템"을 사용하여 스마트 계약 감사를 수행하고 감사 주기를 수 주에서 수 시간으로 단축하는 상업 제품이 등장하고 있으며, 시장 수요가 폭발하고 있습니다.

산업급 기본 인프라의 AI 자동화 보안 시대는 아마도 Agora와 그 Harness 아키텍처에 의해 공식적으로 시작될 것입니다.

우리는 Agora가 다양한 분야에서 발견된 더 많은 deep bug를 통해 coding LLM의 능력을 더 잘 테스트하는 데 도움을 줄 수 있다고 믿을 이유가 있습니다. 그들이 발견한 deep bug 사례는 또한 coding LLM의 코드 이해 능력을 향상시키는 데 도움을 줄 수 있습니다.

Agora는 합의 프로토콜, 동시성 제어, 스마트 계약 등 금융 안전 거래의 기초가 되는 코드 저장소의 안전성을 크게 향상시킬 수 있습니다. 또한 Agora는 더 많은 기술 회사들이 더 깊은 logic bug를 발견하도록 도와줄 수 있으며, 더 적은 tokens를 소모하면서 자금을 절약하고 더 효율적으로 작업할 수 있습니다!

더 중요한 것은, 이것이 현재 가장 뜨거운 두 가지 트렌드에 정확히 부합한다는 것입니다: 첫째, 다중 에이전트 시스템이 실험에서 생산으로 이동하고 있으며 ------ Gartner는 2028년까지 30% 이상의 기업 소프트웨어가 내장된 agentic AI를 갖출 것으로 예상하고 있으며, 다중 에이전트 플랫폼 시장 규모는 수년 내에 수십억 달러에서 수백억 달러로 증가할 것입니다; 둘째, "지능형 에이전트가 지능형 에이전트를 감사하는" 지능형 품질 관리(Agentic Quality Control)가 2026년의 산업 표준이 되고 있습니다.

Veracode 2025 보고서에 따르면 약 45%의 AI 생성 코드에 보안 결함이 있으며, agentic AI 보안 시장은 약 42%의 연평균 성장률로 급증하는 배경 속에서, Agora는 기술 회사들이 더 낮은 token 비용으로 더 깊은 Logic Bug를 발견하게 하여, 보안 감사를 "주 단위로 청구되는 인력 작업"에서 "시간 단위로 제공되는 자동화 능력"으로 업그레이드할 수 있게 합니다.

이 트랙의 구도가 점차 명확해짐에 따라, 진정으로 선두를 차지하는 것은 종종 가장 큰 목소리를 내는 거대 기업이 아니라, 방법론을 가장 먼저 실행하고 지속적으로 복제할 수 있는 팀입니다.

Join ChainCatcher Official

Telegram Feed: @chaincatcher

X (Twitter): @ChainCatcher_

위험 경고