15のトップゼロデイ脆弱性を獲得:0G Labが新国立、北京大学、北京郵電大学のチームと共同で構築したコンセンサスプロトコルデバッグエージェントフレームワーク
分散システムの「聖杯」------ コンセンサスプロトコル(Consensus Protocols)は、長い間、トップインフラエンジニアの「バグ地獄」とされてきました。その状態は非常に複雑で、多ノードが絡み合っているため、従来のテストや単体LLMはハードコアなDeep Bug(深層論理バグ)に対してほとんど無力です。
最近、最新のICML 2026に投稿された論文では、0G Labsやシンガポール国立大学、北京大学、北京郵電大学などのトップ学術および産業チームの研究者が、分野の知識と大規模モデルの多Agentの協調を深く融合させた自動化テストフレームワーク------Agoraを提案しました。
このフレームワークは革新的なアーキテクチャを通じてプロトコルの痛点を直撃し、Raft、EPaxos、HotStuff、BullSharkなどの産業および学術界のコアプロトコルにおいて、前例のない15のプロトコルレベルのDeep Bugを一気に発見しました! 比較すると、強力なGPT-5.2、Claude 4.5などのネイティブ大規模モデルはすべて失敗し、結果はゼロでした。多エージェント(Multi-Agent)システムと「エージェント化された安全監査」(Agentic Quality Control)が共に2026年の最もホットなトレンドとなる中、Agoraが提供するのは単なる論文ではなく、実現可能な産業レベルの解決策です。
論文 :《Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents》
1. 背景:0GとNUSの強力な連携、長期的なシステム知識の蓄積とMulti-Agentパラダイムのクロスオーバー
分散コンセンサスプロトコルの進化は、天才の革新の歴史であると同時に、数多くのトップエンジニアの血の滲む失敗の歴史でもあります。チューリング賞受賞者Lamportが言うように、分散プロトコルの実装の正確性を保証することは、揺れ動く迷路の中を目隠しで進むことに匹敵する難しさです。そして、この「地獄級」のトラック上で、市場は静かに変化しています。Gartnerの観察によれば、多エージェントシステムの企業コンサルティング量は1年余りで10倍以上に急増し、多エージェントプラットフォーム市場も毎年ほぼ倍増する急速な拡張期に入っています------「多Agent協調」を最もハードコアな基盤システムの検証に利用することが、最前線の構想から産業の必需品へと変わりつつあります。
この地獄級のトラックに直面して、テクノロジーの巨人たちは重資産型の探索を先行して展開しました。例えば、業界のトップであるAnthropicが最近Claude Codeの内部で推進しているGlasswingプロジェクトは、Agentを用いて基盤インフラのテストに挑戦していますが、そのアーキテクチャは依然として最高スペックの商業大規模モデルに極度に依存しており、プロジェクトの詳細は不明瞭で、極少数の大手テクノロジー機関や多国籍企業との閉鎖的な協力に限定されています。さらに致命的なのは、このような巨人の提案は運用中に恐ろしいTokenの消費量を示す可能性があり、この高額な計算力の壁と重資産のルートは、予算が限られたスタートアップや中小企業を排除します。
小さな企業やオープンソースコミュニティは、最高の自動化バグ監査ツールを使うことができないのでしょうか?
0G Labsのエンジニアたちとシンガポール国立大学の劉祥、北京郵電大学の宋飒、孫勇教授、北京大学の知能学院の博士課程学生張釗と研究員張策尧は、自身のAgent分野の深い知識をシステムに注入し、「小さな力で大きな変革」を目指す革新的な取り組みを展開しました。その成果は2026 AIトップ会議ICMLに投稿されました。
学術界の「長期的なシステム知識の蓄積」と産業界の「痛点と鋭い嗅覚」が出会ったとき、次世代のシステムセキュリティ革命を引き起こすにはどうすればよいのでしょうか?
0Gチームはブロックチェーンのコンセンサスプロトコルの実装において非常に豊富な生産レベルの攻防経験を蓄積してきました。また、チームは高性能分散システム、基盤の同時制御、システムの形式的検証の分野で非常に深い学術的蓄積を持っています。彼らは、従来の方法(例えばFuzzingファジングテスト)が産業レベルのコードベースに直面したときにしばしば状態空間の爆発に制約されることを深く理解しています。多くの研究者は、長期的に蓄積された分散システムの全体的な不変性(invariants)論理推論の知識を「魂」として、最前線の多エージェント協調パラダイムと自動化Harnessアーキテクチャに注入し、オープンソースの平等なAgoraフレームワークを発表しました。
同時に、業界の最前線であるモジュラーAIインフラストラクチャと高性能の分散データ可用性ネットワークとして、0Gチームはブロックチェーンのコンセンサスプロトコルや高並行BFT(ビザンチンフォールトトレランス)アーキテクチャの産業実装において、非常に豊富な生産レベルの攻防経験と実世界のプロトコル欠陥のサンプルを蓄積しています。
このクロスオーバーはゲームのルールを根本的に変えました:それは盲目的な暴力テストでもなく、分野の常識を欠いた大規模モデルの「盲人が象を触る」でもなく、専門化されたAgentの役割分担を通じて、熟練したシステム専門家の数十年の論理推論の直感をAgent間の競争と協調に変換し、従来のテストツールに対抗するハードコアな力を持つようになりました。
Glasswingが巨額のトップTokenを消費する重資産ルートとは異なり、Agoraは中小企業に非常に優しい代替案を提供します------それは、基盤モデルが「少し劣る」場合でも、コストパフォーマンスが高い状況で、巧妙な分野の認識を持つ多Agent協調アーキテクチャを通じて、ハードコアなDeep Bugを見つけ出すことができることを証明しました!
2. 痛点:単体LLMは雷池を越えられず、分散システムには「深層論理ダモクレスの剣」が吊るされている
ビッグデータ、ブロックチェーン、分散データベースが支配する今日、コンセンサスプロトコル(Paxos、Raft、PBFTなど)はデジタル世界全体の基盤です。しかし、コンセンサスプロトコルの実装は「地獄級の難易度」で有名です。etcdのように世界中の数多くのトップエンジニアによって鍛えられ、何年も運用されている産業レベルのベンチマークプロジェクトでさえ、冷や汗をかかせるDeep Bug(深層論理バグ)を隠しています。
この種のバグは、メモリリークや整数オーバーフローなどの一般的な低レベルの実装バグ(Implementation Bugs)とは異なり、複数の実行段階を横断し、複雑な並行状態に依存しています。一度悪意を持ってトリガーされると、コアデータが損傷するだけでなく、壊滅的な金融損失を引き起こす可能性があります。
近年人気の大規模言語モデル(LLM)は、一般的なコード分析では優れた性能を発揮していますが、分散コンセンサスに直面すると「知能が乏しい」となります。彼らはせいぜい局所的なコードの浅い欠陥を見つけることができるだけで、全体の状態に依存するプロトコルレベルの論理バグに対しては、単体LLMは局所的なコードの泥沼に陥り、全体的な時系列推論を行うことができません。
3. 破局:Agoraの三つのAgentによる大転換とコアHarnessアーキテクチャ
この行き詰まりを打破するために、Agoraは初めて学術界の古典的な仮説駆動テスト(Hypothesis-Driven Testing, HDT)のパラダイムを大規模モデルAgentシステムに導入しました。効率的な全体推論を実現するために、Agoraは従来の「単独戦闘」モデルを完全に排除し、ワークフローを巧妙に解耦して、三つのそれぞれの役割を持つ高度に専門化されたAgentに分けました:
Orchestrator Agent(調整者):全体の状態維持と既知のバグの応用による「バグの悪用」を担当;
Strategy Agent(戦略家):分散分野の知識を注入し、CFTおよびBFTプロトコルに対して非常に攻撃的な異常シナリオを生成;
TestGen Agent(コード官):実行派。Agoraが実際に落とし込み、効果的なテストを生成できる鍵は、そのコアの自動化テストアーキテクチャにあります。
そのアーキテクチャは以下のように示されています:
このAgoraの全体設計において、この「小さな力で大きな変革」の平等な魔法は、空から降ってきたものではなく、その巧妙なエージェント間の相互作用メカニズムとテストHarnessアーキテクチャの深い融合から生まれています。
研究チームはシステムフレームワーク内部に、非常にシンプルで効率的な通信およびメモリメカニズム(Succinct Memory & Communication)を特別に設計し、各Agentが自身のコアタスクに集中できるようにしつつ、冗長なコンテキストの伝送コストを最小限に抑えました。この極限の通信制約の下で、Orchestrator Agent(全体の調整と状態制御を担当)、Strategy Agent(分散異常環境とシナリオ生成を担当)、およびTestGen Agent(コードテストと動的評価を担当)が完璧に絡み合い、共にHarnessアーキテクチャを推進し、満たしました:
双剣合璧の自動化クローズドループ:Strategy Agentが抽象的な分散攻撃シナリオを推論した後、高度に解耦された相互作用フレームワークに基づいて、TestGen Agentはすぐに基盤のテストを立ち上げることができます。このアーキテクチャは、強力な環境適応能力を持ち、Go、Rustなどの異なるプログラミング言語環境を越えて、攻撃仮説を実行可能な単体テストに変換することができ、さらに効率的な反射ループ(Reflection-Loop)技術を内蔵しています。
テストが環境内で実行されてエラーが発生した場合、システムは呼び出しスタックと実行ログを正確かつリアルタイムでキャッチし、それを簡潔にAgentに返送して自己修正を行います。この「多Agentの極簡相互作用 + 動的Harnessクローズドループ」の有機的な結合により、Agoraは非常に低いTokenコストで最も隠れた深層論理Bugを正確に捕捉できるだけでなく、誤報率が非常に低い詳細な分析レポートを生成しました。
その最終的な実行のoverviewは以下のように示されています:
4. 戦果:15のトップゼロデイDeep Bugを発見し、大規模モデルのベースラインは全滅
評価結果は衝撃的です。研究チームは、4つの著名なコンセンサスプロトコルライブラリ(生産レベルのetcdや新興公链のコアSuiの基盤コンポーネントを含む)で全方位の大検査を行い、GPT-5.2、Gemini 3.0 Pro Preview、Claude Sonnet 4.5、およびQwen3 Coderなどの最強モデルと比較しました。
結果は、0G自身が運用するコンセンサスシステムをより安全にするだけでなく、圧倒的な次元削減を示しました:
15の新しいLogic Deep Bugが浮上:Agoraは15の以前は知られていなかったプロトコルレベルの深層論理バグを発見しました。これらのバグは、実行の分岐、単調性の違反、トポロジーの欠陥、署名のバグなどの高リスク領域にまたがっています。
ネイティブ大規模モデルは全滅:基準モデル(たとえ先進的なReAct動的ツールチェーンを装備していても)は、この種の深層論理バグに直面してすべて失敗しました(0/15)。彼らは大量のTokenを消費しましたが、低レベルのコード実装のBugにしか取り組むことができませんでした。
非常に低い誤報率と超高コストパフォーマンス:Agoraが生成したすべてのBugレポートの中で、実際の論理バグの割合は73.9%(誤報率はわずか26.1%)に達しました。さらに驚くべきことに、経験豊富なアーキテクトが髪の毛を失うようなトップレベルの論理Bugを1つ発見するのに、平均約5.32M tokens(約40ドル)しか消費しませんでした。コストパフォーマンスは非常に高いです。
複数のLLMでの結果は以下のように示されています:
5. 未来:高い普及性、さらなる基盤ハードコア「無人地帯」への進出
Agoraの成功は、分散システムの安全性に強力な一撃を与えただけでなく、大規模モデルの垂直産業アプリケーションの実現に道を示しました。
特に重要なのは、Agoraのアーキテクチャ設計が非常に高い普及性と汎用性を示していることです。研究チームは、Agoraはプラグインやskillの形で迅速に広く利用されることができると強調しており、私たちのコード(github.com/0gfoundation/agora)には再現を助けるための関連するskillsが提供されています。さらに、Agoraの「大規模モデル + 多Agent協調 + 仮説駆動」パラダイムは、コンセンサスプロトコルだけに限られません。その基盤のワークフロー制御と上層の分野知識ベース、テストが深く解耦されていることを意味します。これは、このアーキテクチャが多くのユーザーが迅速にコンセンサスプロトコルのdebugを利用できるだけでなく、「プラグアンドプレイ」(Plug-and-Play)の方法で他の同様に「深層論理バグ地獄」に苦しむハードコアな分野に迅速に普及できることを意味します:
データベースの並行制御(Concurrency Control):極端な隔離レベル(例えば、直列化Serializable)での複雑なトランザクションの競合欠陥をテストするために使用されます。
オペレーティングシステムのカーネル / 並行システム:マルチスレッドインフラストラクチャにおける隠れたデッドロックや競合条件を深く発見します。
Web3スマートコントラクト監査:複雑な経済モデルに関わるクロスチェーンプロトコルやDeFi論理に対して深い安全境界の探査を行います。ブロックチェーンセキュリティ市場は2026年には約85億ドルに達すると予測されており、「多エージェントセキュリティシステム」を用いたスマートコントラクト監査が登場し、監査サイクルを数週間から数時間に圧縮する商業製品が市場に登場しつつあります。
産業レベルの基盤インフラにおけるAI自動化セキュリティの時代は、AgoraとそのHarnessアーキテクチャによって正式に始まるかもしれません。
私たちは、Agoraがさまざまな分野で発見されたより多くのdeep bugを通じてcoding LLMの能力をより良くテストするのを助けることができると信じる理由があります。彼らが発見したdeep bugの事例は、coding LLMのコード理解能力を向上させるのにも役立ちます。
Agoraは、コンセンサスプロトコル、並行制御、スマートコントラクトなど、金融安全取引の基盤となるコードリポジトリの安全性を大幅に向上させることができます。また、Agoraは、より多くのテクノロジー企業がより深いlogic bugを発見するのを助けることができ、消費するtokensを減らし、資金を節約しながらより効率的に行うことができます!
さらに重要なのは、これは現在最もホットな2つのトレンドにぴったり合致しています:1つは多エージェントシステムが実験から生産へと移行していることで、Gartnerは2028年までに企業ソフトウェアの30%以上がagentic AIを内蔵すると予測しており、多エージェントプラットフォーム市場は数年内に数十億ドル規模に成長すると見込まれています;もう1つは「エージェントがエージェントを監査する」というエージェント化された品質管理(Agentic Quality Control)が2026年の業界標準となっていることです。
Veracode 2025レポートによると、約45%のAI生成コードに安全な脆弱性が含まれており、agentic AIの安全市場は約42%の年複合成長率で急成長している中で、Agoraはテクノロジー企業がより低いtokenコストでより深いLogic Bugを発見できるようにし、安全監査を「週単位で請求される人力作業」から「時間単位で提供される自動化能力」へとアップグレードします。
このトレンドの構図が徐々に明確になるにつれて、真に先手を取るのは、声高な巨人ではなく、方法論を最初に実行し、持続的に再現できるチームであることが多いのです。












