从孤岛到协同：Web3 原生数据管道的意义

2023-08-12 11:48:44

在 Web3 市场中构建一个数据管道，除了具有去中心化的特点外，还可以作为实际捕捉这些机遇的起点发挥关键作用。

编译：深潮 TechFlow

2008 年比特币白皮书的发布引发了人们对信任概念的重新思考。区块链随后扩展了其定义，包括了无需信任的系统的概念，并迅速发展，认为个体主权、金融民主化和所有权等不同类型的价值可以应用于现有系统。当然，在区块链能够实际应用之前，可能需要进行大量的验证和讨论，因为与各种现有系统相比，区块链的特点可能显得有些激进。然而，如果我们对这些场景持乐观态度，构建数据管道并分析区块链存储中包含的有价值信息，有潜力成为行业发展的另一个重要转折点，因为我们可以观察到以前从未存在过的 Web3 原生商业智能。

本文通过将现有 IT 市场常用的数据管道投射到 Web3 环境中，探讨了 Web3 原生数据管道的潜力。文章讨论了这些管道的好处、需要解决的挑战以及这些管道对行业的影响。

1.奇点来自信息创新

“语言是人类与低等动物之间最重要的区别之一。这不仅仅是发音的能力，而是将明确的声音与明确的思想联系起来，并将这些声音用作思想交流的符号。”— 达尔文

在历史上，人类文明的重大进步伴随着信息共享的创新。我们的祖先使用语言，包括口头和书面语言，彼此交流，并将知识传承给后代。这使他们在其他物种面前具有重大优势。书写、纸张和印刷术的发明使得更广泛地分享信息成为可能，这导致了科学、技术和文化的重大进步。特别是古腾堡圣经的金属活字印刷术是一个分水岭时刻，因为它使得大规模生产书籍和其他印刷材料成为可能。这对宗教改革、民主革命和科学进步的起点产生了深远影响。

2000 年代 IT 技术的快速发展使我们能够更深入地了解人类行为。这导致了生活方式的变化，现代大多数人基于数字信息做出各种决策。正因为如此，我们将现代社会称为“IT 创新时代”。

而在互联网全面商业化仅 20 年后，人工智能技术再次让世界惊叹。出现了许多可以取代人力的应用程序，许多人正在讨论 AI 将改变的文明。有些人甚至处于否认状态，想知道这样一种技术如何能够如此迅速地出现，以至于能够动摇我们社会的基础。尽管有“摩尔定律”表明半导体的性能会随着时间呈指数级增长，但 GPT 的出现所带来的变化却太突然，无法立即面对。

然而，有趣的是， GPT 模型本身实际上并不是一种非常突破性的架构。另一方面， AI 行业将以下列为 GPT 模型的主要成功因素：1）定义可以针对大客户群体的业务领域，以及 2）通过数据管道进行模型调优——从数据采集到最终结果和基于结果的反馈。简而言之，通过完善服务提供目的和升级数据 / 信息处理过程，这些应用程序能够实现创新。

2.数据驱动的决策无处不在

我们所说的大多数创新实际上都是基于对积累的数据的处理，而不是基于机遇或直觉。正如俗话所说，“在资本主义市场上，不是强者生存，而是幸存者强”。如今的企业竞争激烈，市场饱和。因此，企业正在收集和分析各种数据，以抓住即使是最小的利基。

我们可能过于沉迷于 Schumpeter （深潮注：熊彼特，著名经济学家）的“创造性破坏”理论，而过于重视凭直觉做出决策。然而，即使是出色的直觉最终也是个人累积数据和信息的产物。数字世界将在未来更深入地渗透到我们的生活中，越来越多的敏感信息将以数字数据的形式呈现。

Web3 市场因其赋予用户对其数据的控制权的潜力而受到广泛关注。然而，作为 Web3 的基础技术的区块链领域，目前更关注解决三难问题（深潮注：三角困境，即安全、去中心化和可扩展问题）。为了使新技术在现实世界中具有说服力，重要的是开发可以以多种方式使用的应用程序和智能。我们已经看到这种情况发生在大数据领域，自 2010 年左右以来，构建大数据处理和数据管道的方法论已经取得了重大进展。在 Web3 的背景下，必须努力推动行业发展，建立数据流系统，以便产生基于数据的智能。

3.基于链上数据流的机遇

那么，我们可以从 Web3 原生数据流系统中捕捉到哪些机遇，需要解决哪些挑战才能抓住这些机遇呢？

从孤岛到协同：Web3 原生数据管道的意义

3.1 优点

简而言之，配置 Web3 原生数据流的价值在于可以安全有效地将可靠数据分发给多个实体，从而可以提取有价值的见解。

数据冗余性——链上数据不太可能丢失，更具弹性，因为协议网络将数据片段存储在多个节点上。
数据安全性——链上数据具有防篡改性，因为它经过由分散节点组成的网络的验证和共识。
数据主权——数据主权是用户拥有和控制自己数据的权利。通过链上数据流，用户可以看到他们的数据如何被使用，并选择仅与那些有合法需要访问的人分享。
无需许可和透明——链上数据是透明且防篡改的。这确保了正在处理的数据也是可靠的信息来源。
稳定运行——当数据流在分布式环境中由协议进行编排时，由于没有单点故障，每个层面暴露于停机时间的概率显著降低。

3.2 应用案例

信任是不同实体相互交互和做出决策的基础。因此，当可靠数据可以安全分发时，意味着许多交互和决策可以通过各种实体参与的 Web3 服务进行。这有助于最大化社会资本，我们可以想象以下几种应用案例。

3.2.1 服务 / 协议应用

基于规则的自动化决策系统——协议使用关键参数来运行服务。这些参数定期调整以稳定服务状态并为用户提供最佳体验。然而，协议无法始终监控服务状态并及时对参数进行动态更改。这就是链上数据流的作用。链上数据流可以用于实时分析服务状态并建议与服务要求相匹配的最佳参数集（例如，为借贷协议应用自动浮动利率机制）。

信贷市场增长——传统上，信用被用于金融市场中衡量个人的偿还能力。这有助于提高市场效率。然而，在 Web3 市场中，信用的定义仍不清晰。这是因为个人数据稀缺，行业之间缺乏数据治理。因此，整合和收集信息变得困难。通过构建一个收集和处理链上碎片化数据的过程，可以重新定义 Web3 市场中的信用市场（例如， Spectral 的 MACRO （多资产信用风险预言机）评分）。
去中心化社交 / NFT 扩展——去中心化社会优先考虑用户控制、隐私保护、抗审查和社区治理。这提供了一种替代的社会范式。因此，可以建立一个管道来更顺畅地控制和更新各种元数据，并促进平台之间的迁移。
欺诈检测——使用智能合约的 Web3 服务容易受到恶意攻击，这些攻击可能窃取资金、入侵系统，并导致脱钩和流动性攻击。通过创建一个能够提前检测这些攻击的系统， Web3 服务可以制定快速应对计划，并保护用户免受伤害。

3.2.2 合作与治理倡议

完全链上的 DAO ——去中心化自治组织（ DAO ）在有效执行治理和公共资金方面严重依赖链下工具。通过构建一个链上数据处理流程，为 DAO 运营创建一个透明的流程，可以进一步增强 Web3 原生 DAO 的价值。
缓解治理疲劳—— Web3 协议决策通常通过社区治理进行。然而，有许多因素可能使参与者难以参与治理，例如地理障碍、监控压力、治理所需的专业知识缺乏、随机发布的治理议程以及不便的用户体验。如果可以创建一个工具，简化参与者从理解到实际实施个体治理议程事项的处理过程，协议治理框架可以更高效、更有效地运作。
协作作品的开放数据平台——在现有的学术和工业界中，许多数据和研究材料没有公开披露，这可能使市场的整体发展非常低效。另一方面，链上数据池可以促进比现有市场更多的协作倡议，因为它们对任何人都是透明和可访问的。许多代币标准和 DeFi 解决方案的发展就是很好的例子。此外，我们可以为各种目的运营公共数据池。

3.2.3 网络诊断

指数研究—— Web3 用户创建各种指标来分析和比较协议的状态。可以研究和实时显示多个客观指标（例如， Nakaflow 的中本聪系数）。
协议指标——通过处理诸如活跃地址数量、交易数量、资产流入 / 流出以及网络产生的费用等数据，可以分析协议的性能。这些信息可以用于评估特定协议更新的影响、 MEV 的状态以及网络的健康状况。

3.3 挑战

链上数据具有可以增加行业价值的独特优势。然而，要充分实现这些优势，必须解决行业内外的许多挑战。

缺乏数据治理——数据治理是建立一致和共享的数据政策和标准，以促进每个数据基元的集成的过程。目前，每个链上协议都建立自己的标准并检索自己的数据类型。然而，问题在于聚合这些协议数据并为用户提供 API 服务的实体之间缺乏数据治理。这使得服务之间难以集成，结果用户难以获得可靠和全面的见解。
成本效率低下——将冷数据存储在协议中可以为用户节省数据安全和服务器成本。然而，如果需要频繁访问数据进行分析或需要大量计算资源，将其存储在区块链上可能不划算。
预言机问题——智能合约只有在能够访问来自现实世界的数据时才能充分发挥作用。然而，这些数据并不总是可靠或一致的。与通过共识算法维护完整性的区块链不同，外部数据并不是确定性的。预言机解决方案必须不断发展，以确保外部数据的完整性、质量和可扩展性，而不依赖于特定的应用层。
协议尚处初级阶段——协议使用自己的代币激励用户保持服务运行并支付服务费用。然而，操作协议所需的参数（例如，服务用户的精确定义和激励方案）通常管理得很幼稚。这意味着协议的经济可持续性难以验证。如果许多协议有机地连接并创建数据管道，那么管道是否能够良好运作的不确定性将更大。
数据检索时间慢——协议通常通过许多节点的共识来处理交易，与传统的 IT 业务逻辑相比，这会限制信息处理的速度和数量。这种瓶颈很难解决，除非组成管道的所有协议的性能显著提高。
Web3 数据的真正价值——区块链是孤立的系统，尚未与现实世界相连接。在收集 Web3 数据时，我们需要考虑收集的数据是否能够提供有意义的见解，足以支付建立数据管道的成本。
陌生的语法 —— 现有的 IT 数据基础设施和区块链基础设施运作方式非常不同。甚至所使用的编程语言也不同，区块链基础设施通常使用低级语言或专为区块链需求设计的新语言。这使得新开发者和服务用户学习如何处理每个数据原语变得困难，因为他们需要学习一种新的编程语言或一种新的处理区块链数据的思维方式。

4.管道化的 Web3 数据乐高

当前的 Web3 数据原语之间没有连接，它们独立地提取和处理数据。这使得实验信息处理的协同效应变得困难。为了解决这个问题，本文介绍了在 IT 市场常用的数据管道，并将现有的 Web3 数据原语映射到该管道上。这将使使用案例更加具体化。

4.1 通用数据管道

从孤岛到协同：Web3 原生数据管道的意义

数据管道的构建就像是在日常生活中概念化和自动化重复决策过程的过程。通过这样做，人们可以随时获取所需的特定质量的信息，并将其用于决策。要处理的非结构化数据越多，使用信息的频率越高，或者需要实时分析的程度越高，通过自动化这一系列过程可以节省获取未来决策所需主动性的时间和成本。

上图显示了在现有 IT 基础设施市场中用于构建数据管道的通用架构。适用于分析目的的数据从正确的数据源收集，并根据数据的性质和分析要求存储在适当的存储解决方案中。例如，数据湖提供了用于可扩展和灵活分析的原始数据存储解决方案，而数据仓库专注于存储结构化数据，以进行针对特定业务逻辑优化的查询和分析。然后，数据以各种方式被处理为洞察力或实用信息。

每个解决方案层次也可以以打包服务的形式提供。将从数据提取到加载的一系列过程连接起来的 ETL （抽取、转换、加载） SaaS 产品组也越来越受到关注（例如 FiveTran 、Panoply 、Hivo 、Rivery ）。顺序并不总是单向的，根据组织的具体需求，各层次可以以多种方式相互连接。构建数据管道时最重要的是要最大限度地减少数据在发送和接收到每个服务器层次时可能发生的数据丢失风险。这可以通过优化服务器的解耦程度和使用可靠的数据存储和处理解决方案来实现。

4.2 具有链上环境的管道

从孤岛到协同：Web3 原生数据管道的意义

前面介绍的数据管道的概念图可以应用于链上环境，如上图所示，但需要注意的是，完全去中心化的管道是无法形成的，因为每个基本组件在某种程度上都依赖于中心化的链下解决方案。此外，上图目前并未包括所有的 Web3 解决方案，分类的边界可能存在模糊之处——例如， KYVE 除了作为流媒体平台外，还包括数据湖的功能，可以看作是一个数据管道本身。此外，Space and Time 被归类为去中心化数据库，但它提供了诸如 Rest API 和流媒体等 API 网关服务，以及 ETL 服务。

4.2.1 捕获 / 处理

为了使普通用户或 dApp 能够高效地使用 / 操作服务，他们需要能够轻松识别和访问主要在协议内部生成的数据源，例如交易、状态和日志事件。这一层是一个中间件在其中发挥作用，帮助包括预言机、消息传递、身份验证和 API 管理在内的过程。主要的解决方案如下。

流媒体 / 索引平台

Bitquery、Ceramic、KYVE、Lens、Streamr Network、The Graph、各个协议的区块浏览器等。

节点即服务和其他 RPC / API 服务

Alchemy、All that Node、Infura、 Pocket Network、Quicknode 等。

预言机

API3、Band Protocol、Chainlink、Nest Protocol、Pyth、Supra 预言机 s 等。

4.2.2 存储

与 Web2 存储解决方案相比， Web3 存储解决方案具有持久性和去中心化等几个优势。然而，它们也存在一些缺点，例如高成本、数据更新和查询的困难。因此，出现了各种解决方案，可以解决这些缺点，并实现对 Web3 上结构化和动态数据的高效处理——每个解决方案的特点各不相同，例如处理的数据类型、是否结构化以及是否具有嵌入式查询功能等。

去中心化存储网络

Arweave、Filecoin、KYVE、Sia、Storj 等。

去中心化数据库

基于 Arweave 的数据库（ Glacier、HollowDB、Kwil、WeaveDB ）、ComposeDB、 OrbitDB 、Polybase、Space and Time、Tablel and 等。

* 每个协议都有不同的永久存储机制。例如， Arweave 是基于区块链的模型，类似于以太坊存储，将数据永久存储在链上，而 Filecoin 、 Sia 和 Storj 是基于合约的模型，将数据存储在链下。

4.2.3 转换

在 Web3 的背景下，转换层与存储层一样重要。这是因为区块链的结构基本上由分布式节点集合组成，这使得使用扩展性后端逻辑变得容易。在人工智能行业，人们积极探索利用这些优势进行联邦学习领域的研究，并出现了专门用于机器学习和人工智能操作的协议。

数据训练 / 建模 / 计算

Akash、Bacalhau、Bittensor、Gensyn、Golem、Together 等。

* 联邦学习是一种通过将原始模型分布在多个原生客户端上，使用存储的数据对其进行训练，然后在中央服务器上收集学习到的参数的方法，用于训练人工智能模型。

从孤岛到协同：Web3 原生数据管道的意义

4.2.4 分析 / 使用

下面列出的仪表板服务和最终用户的洞察与分析解决方案是允许用户观察和从特定协议中发现各种洞察的平台。其中一些解决方案还为最终产品提供 API 服务。然而，需要注意的是，这些解决方案中的数据并不总是准确的，因为它们大多使用单独的链下工具来存储和处理数据。也可以观察到解决方案之间的错误。

同时，有一个名为“Web3 Functions”的平台可以自动 / 触发智能合约的执行，就像谷歌云等中心化平台触发 / 执行特定的业务逻辑一样。使用这个平台，用户可以以 Web3 原生方式实现业务逻辑，而不仅仅通过处理链上数据来获取洞察。

仪表板服务

Dune Analytics、Flipside Crypto、Footprint、Transpose 等。

最终用户的洞察与分析

Chainalaysis、Glassnode、Messari、Nansen、The Tie、Token Terminal 等。

Web3 Functions

Chainlink 的 Functions、Gelato Network 等。

5.总结思考

从孤岛到协同：Web3 原生数据管道的意义

正如 Kant 所说的那样，我们只能目睹事物的现象，而无法触及其本质。尽管如此，我们还是利用了被称为“数据”的观察记录来处理信息和知识，我们看到信息技术的创新如何推动文明的发展。因此，在 Web3 市场中构建一个数据管道，除了具有去中心化的特点外，还可以作为实际捕捉这些机遇的起点发挥关键作用。我想用几点思考来总结本文。

5.1 存储解决方案的作用将变得更加重要

拥有数据管道的最重要前提是建立数据和 API 治理。在日益多样化的生态系统中，每个协议创建的规范将继续重新创建，并且通过多链生态系统的碎片化交易记录将使个人更难以得出综合的洞察。然后，“存储解决方案”是能够通过收集碎片化信息并更新每个协议的规范，以统一格式提供集成数据的实体。我们观察到，现有市场上的存储解决方案（如 Snowflake 和 Databricks ）正在迅速发展，拥有庞大的客户群体，通过在管道中运营各个层次进行垂直整合，并引领行业发展。

5.2 数据源市场中的机遇

当数据变得更易获取且处理过程改进时，成功的用例开始出现。这会产生一个正循环效应，即数据源和收集工具会爆发性地出现——自 2010 年以来，由于构建数据管道的技术取得了巨大进展，每年收集的数字数据的类型和数量呈指数增长。将这一背景应用于 Web3 市场，未来可以在链上递归生成许多数据源。这也意味着区块链将扩展到各种业务领域。在这一点上，我们可以预期通过 Ocean Protocol 等数据市场或 Helium 和 XNET 等 DeWi （去中心化无线）解决方案以及存储解决方案来推进数据采集。

5.3 重要的是有意义的数据和分析

然而，最重要的是不断询问应准备哪些数据以提取真正需要的见解。没有什么比为了构建数据管道而没有明确的假设来验证而构建数据管道更浪费的了。现有市场通过构建数据管道实现了众多创新，但也通过反复的无意义失败付出了无数的代价。对于技术堆栈的发展进行建设性讨论也是很好的，但行业需要时间来思考和讨论更基本的问题，例如应该将哪些数据存储在区块空间中，或者数据应该用于何种目的。“目标”应该是通过可操作的情报和用例实现 Web3 的价值，而在这个过程中，开发多个基本组件并完成管道是实现这一目标的”手段”。