从「数据市场」角度理解 Web3 价值
作者:Jonas1997/jojonas1.eth
来源:Mirror
一、数据到底有多重要?
1、生产方式变革与组织形态迁徙
人类社会发展至今,生产力几经变革。生产力变革带来生产方式的变化,进而又会影响到生产的组织形态,因为生产组织毕竟是为了适应生产活动而产生的。
纯粹的生产为了满足需求,需要以物易物,这通常是低效且繁琐的。为了适应效率提高的需求,货币得以出现,成为了商品间交换的一般等价物。流通市场开始逐步建立,以流通市场为基础的商业活动开始日益繁荣。
我认为人类至今共发生过三类生产方式变革:
第一,以器具的出现为标志,从原始社会进入农耕社会。通过对石器、青铜器、铁器等各类工具的使用,人类开始顺应自己的需求改造自然,开始种植水稻小麦,开始蓄养家禽,开始定居。这一时期以自给自足的生产活动(农业、家庭手工业)为主,并且随着文明发展逐渐出现了一些商业活动(“商人”一词就起源于商朝)。
随着社会发展,产品日益复杂,自给自足的生产方式越来越难以满足个体需求,商业活动的占比也越来越高。就这么几千年延续下来,很多现代社会常见的商业机构已经在这一阶段初具雏形,比如银行、海关等。
第二,以蒸汽机的发明为标志,从手工工业进入机械工业。煤炭与钢铁分别解决了生产力变革的能源与材料问题,蒸汽机对付的则是劳动效率问题。人类的长处终究不在体力,重复性的低效生产终究会遇到上限与瓶颈。而机械(包括后来的电力革命)的出现,解放了人类的双手,提高了生产的效率。
就此,生产方式开始向专业分工的方向演化,人类通过奴役机械,拥有了更多的时间去发展科技人文,文明得以向更复杂多样的道路前进。生产端的解放造就了流通端的兴盛,商业活动开始爆发,现代企业制度初具雏形。
第三,以互联网的出现为标志,从机器生产进入信息生产。互联网,顾名思义就是计算机间互相联接而成的网络。文明在发展中产生大量信息,以记账为例,人类最早是用结绳、刻契等方式来记录经济活动中的数量关系;数字出现后,它们被记录在龟甲、铜器、竹简上,直到造纸术发明后记录在纸上。
随着文明演进,生产活动越来越复杂,对一套清晰易懂的记账规则的需求开始日益强烈。慢慢发展至今天我们熟悉的、会计里的复式记账法。
然而这些生产出来的信息并没有机会发挥更大的价值,在漫长的历史长河中,它们要么被记录、沉淀到无人册封的一角;要么被遗忘,消散在过往云烟中。
直到计算机(广义,指计算芯片)代替纸笔成为承载信息的工具,人类才能以一种更为高效、容量更广阔的方式来记录与分享信息。在互联网的语境下,生产活动与商业活动重新发掘了信息的价值,使得信息不仅仅只是产品,也能够承担生产资料的角色。
在互联网产品出现之前,信息当然也能够作为生产资料,但这意味着高额的成本;而互联网的出现使得信息得以数字化,这赋予了其一条非常重要的特性:零边际成本。(边际成本简单理解就是每多生产一个数量的产品成本要增加多少)
事实上,信息生产相对于机器生产的另一大优势在于网络外部性(网络效应)。网络效应的意思是,网络中每一个节点的增加,都会对现存节点带来正效用。这本质上仍来自于信息零边际成本的特性——每一个新加入的节点都会向网络中的所有节点零成本共享一部分新的信息(这是正效用的由来)。
零边际成本与网络外部性赋予信息生产方式一些非常恐怖的特性,比如迅速扩张与天然垄断。理解了这两点,你会非常容易理解为什么互联网公司能够在短短几年内创造出超越传统制造业的价值,理解为什么互联网行业的创业公司总是喜欢烧钱大战,理解为什么最近中国互联网公司开始走下坡路。
而基于互联网的生产方式变革也影响到了对应的组织形态。按照制度经济学大师科斯的理论,企业之所以存在,是因为其交易成本小于市场。
而基于互联网的市场,信息是具有零边际成本的,也就是说,企业的交易成本必须变得更低才能够适应,原先的纵向管理形态必须开始向横向协同进行转化。类似于OKR(目标与关键成果法)之类更注重内部协同的管理系统也开始代替原有的KPI(关键绩效指标)系统。
2、互联网对传统商业模式的重构
伴随着生产方式的不断变革,人类的经济活动重心也开始转移,相比于物质生产,信息生产以其更广阔的发展前景得到了更多的关注。除去互联网上原生的商业活动,应用互联网对传统行业进行改造将会是更势在必行的方式。
现存的改造方式有两个方向,其一从生产流程入手,目标是提升生产效率,比如很久之前(2013年,德国)就被喊烂了的工业4.0,通过“互联+智能”来改进现有生产系统、产业分工、物流管理等;另一个就是重构商业模式,比如共享经济、信息平台、网购、社交等。
传统的商业模式是线性的。假设你想买一个保温杯(为什么我最先想到的是保温杯),你最先想到的是去超市/商场等零售商;你不会说我先去找厂家拿货,厂家通常也不会给你;你更不会说我希望我的保温杯是用钛钢做的去找更上游的钢铁厂。从上游材料商到中游生产商(再到下游零售商)这样一个完整的链条,就是产业链。
厂家的生产也是相对盲目的。为什么这么说?因为厂家有自己的一本账,这本账一头是成本一头是利润。利润来自于下游的订单,通常谁的条件更适合就接谁的订单。消费者的需求无法直接传达给厂家。广泛来说,产业链上的每一个节点都无法低成本地去和非相邻节点直接进行信息与价值传输。
互联网对此的重构,就是将“链”变成“网”。
在网络里,任意节点之间都是可以建立起相互连接的(除非领导不让)。消费者可以绕过零售商直接找到厂家,去进行批发或者定制产品(前者意味着传统角色界限开始模糊,只要你想,消费者也可以变成零售商。
后者意味着产业链的每一个节点都拥有更多选择,这对打破纵向垄断、提高效率有益);看起来似乎是有意消弭了零售商这个角色,实则不然。互联网实际上强调了零售商信息中介的作用,因为消费者直接去找厂家是需要成本的,而如果零售商可以很好地整合及匹配信息,就能够赚取利润。
然而我们知道,分布式系统会带来大量冗余信息。如果互联网仅仅是将“链”变成“网”,那么随之而来的,就是信息阻隔与信息干扰,信息之间无法完成高效而准确的匹配。互联网对商业模式重构的第二个要点,就是平台的出现。
平台所做的事情,本质上来说就是信息匹配。线性的传统产业链被互联网重构为一个个节点后,需要有一个东西来实现原本由产业链实现的东西,那就是匹配供需信息。厂商去了B端(business),消费者去了C端(customer)。
消费者对某一类产品的需求可以为生产商所捕捉,当整个平台上出现足够多相同的需求,生产商的生产就会变得有利可图(边际成本递减)。
我们前面说过,互联网进行生产的两大特性:零边际成本与网络外部性。当越来越多的节点通过平台获得连接,他们也会逐渐对平台产生路径依赖,这意味着平台在生产/商业活动中的话语权在越来越强。话语权意味着定价权,零边际成本带给平台的是几乎为零的成本。
因此定价权几乎就意味着单个节点更高的利润空间;而网络外部性带给平台的是加速的节点进入。当利润的两个因子都在以恐怖的速度增加时,可想而知,一个成功的平台将会获得多大的利益。
让我们来就此解释以下之前提到的三个问题:
为什么互联网公司能够在短短几年内创造出超越传统制造业的价值?为什么互联网行业的创业公司总是喜欢烧钱大战?为什么最近中国互联网公司开始走下坡路?
问题一已解。问题二,因为处在竞争状态的平台所面临的,一是话语权的不稳定性,一是新节点的多选择,即使做到超大的规模、即使有很高的利润,但只要战场上还存在哪怕一个差不多的对手,结果就都是不确定的。(典型案例如共享单车大战)而不停地融资烧钱抢争用户,就是要在未来让用户别无选择,进而利用自己的话语权谋求利润。(案例如滴滴)
这是互联网平台商业模式的本质,“winner-take-all”。
但其实平台能做的不只有这些。如果仅仅因为平台本身的特性而干扰到市场正常的发展,这种行为是短视且不可持续的。如果烧钱获得胜利,未来势必要向节点“征税”来弥补已经烧掉的钱。
这个时候再出现实力不错的新平台,很容易通过更好的服务与更低廉的价格吸引流量,别人此时无债一身轻,而你呢?(案例如共享单车大战后的哈啰)
网络外部性并不意味着纯粹的护城河,而是“好的服务=无比坚固的护城河”与“坏的服务=大厦将倾”。这种不健康的商业模式长期是不成立的。
说回平台能做的。
前面说到互联网对产业链重构,是将“链”变为“网”,平台为了抢夺这些节点而大打出手。但他们忽视了网络外部性的前提是节点对平台的路径依赖,也忽视了节点之间的区别。以网约车为例,司机与乘客是两种不同性质的节点,乘客打车这一消费行为更多具有随机性。
更注重“打到车去目的地”这一结果,至于优惠多少是哪个平台则摆在了后面,相信我,网约车大战时乘客每个APP都会下载,能白嫖的基本不会错过;而司机则不同,司机与平台之间更像是一种新型的、自由的雇佣关系,尽管会同时使用多个APP,但每个APP待他们怎么样他们是心知肚明的。
也就是说,司机更容易培养忠诚度,在打车这一行为中也扮演着更重要的角色(司机是服务提供者,司机碰到不好的乘客不会怪罪平台,乘客碰到不好的司机平台就难免难逃其咎了)。所以目标就是要用激励机制使司机与平台的利益尽可能一致。
无论是补贴还是什么措施,都要尽可能偏向于司机一方。有人说,那乘客呢?别忘了,现在是在网络外部性的语境下,乘客的两个选择(出租车、网约车)中后者仍然是最优选择(不过是奖励稍微少了点而已)。
所以通过生命周期的利益平衡来倾倒更多资源对司机进行长期激励,让其与平台保持利益一致;乘客端则优先保证提供比出租车更便捷舒适的体验(由司机提供),经济激励放其次,才是更合理也更健康的打法。
另外一点,平台之间横向争夺倒不如纵向延伸。如果平台能够利用自己获得的网络外部性惠及上下游,何愁没有用户粘性呢?如果不能,并且存在有外部激励让用户打破路径依赖,现有平台的网络外部性就会受到威胁。

给提到的几种模式画了个示意图
以上所谈的全部为互联网,是存在于计算机(人)与计算机(人)之间的;而如果物联网也加入呢?计算机(物)与计算机(物)、计算机(物)与计算机(人)的连接会使网络成长幂次级别的倍数。想想我们平均一个人拥有多少个物,每一个新的节点加入会使网络复杂性增加多少就能够明白了。
互联网/物联网对传统商业模式的重构,还远远没有停止。而互联网的“信息生产”,本质上就是对网络中节点产生的数据的再利用。某种角度来说,数据之于互联网,犹如能源之于现代工业。
3、web2的数据孤岛
前面说了,互联网公司通过建立平台来完成信息采集与匹配,利用零边际成本与网络外部性的信息生产特性赚取了大量利润。随着物联网、大数据、云计算、人工智能等技术的日益发展。
人类的生活将越来越“数字化”:利用数字化解决支付场景、解决工作流、解决社交联系、解决金融业务需求……在这场数字化迁徙中,人类的“在线”时长会继续增加,更多的人类活动将会被记录为数据存储在互联网。
想想今天,睡眠监测仪可以获得你的睡眠数据、智能家居获得你的生活数据、智能出行工具获得你的行动轨迹、无处不在的监控获得你所有的体态与行为数据……而在未来,物联网的加入只会让你的数据资料库更丰富,大数据与云计算会让算法通过数据描绘出你的数字形象、会通过搜索精确定位数据与个体的联系……
web2的数据生态显然已经难以满足越来越复杂的数据生产与需求活动了。
巨头互联网公司通过垄断用户数据来牟利,但本质上他们并不拥有这些数据的所有权——他们只是通过提供免费的服务来获得了这些数据;他们也没有完善的机制去保护这些数据(显然,也并没有激励去这么做),隐私泄露成为常态;数据存储于他们的中心服务器之上,他们也不会去刻意记录每一次拷贝的细节。
最重要的是,不同机构拥有自己的数据库,来自于无效的重复性采集;数据的存储与管理不成系统,存在大量失真;机构间形成数据孤岛,缺乏互操作措施;非正当的数据交易频发,信任成本畸高。
当web3携手物联网到来后,数据将呈幂次级增长,如果上面这些问题仍然得不到解决,将会诞生多少低效率的市场交易?新技术的应用价值将大打折扣。
数据孤岛是行不通的。人类是社会性动物,数据也是。数据要想利用信息生产的两大特性,就必须开放互联。随着各类新技术的出现,对数据的应用出现了一些可能性。本篇第二部分,我将详细说一说数据的使用目前存在有哪些难题。
二、数据使用存在哪些难题?
现代商业活动建立在市场机制之上,按照交换对象的不同,市场通常被划分为:商品市场、服务市场、技术市场、金融市场、劳动力市场和信息市场。
其中,技术市场可分为技术商品与技术服务,砍掉;而服务本质上也可以打包为商品;因此从我的角度,一般这么划分:商品市场、劳动力市场、金融市场、信息市场。(劳动力之所以单独拎出来,是因为背后都是人,人的行为是复杂而不可预测的,不能简单定义为商品)
前三者是我们经常可以接触到的,信息市场这个概念却较为抽象。顾名思义,信息市场中的交换对象是信息,比如商业信息、经济信息、人才信息等。这些已知的信息市场所交换的信息,例如房产中介、猎头、知网、用户信息交易等,大多存在有专门的信息中介。使用者为获得这类信息必须付费,否则就需要付出大量成本去寻找。
正如前文所说,目前可供交易的信息只占互联网生产的数据的极小部分,并且基本处于灰色地带。数据要想如能源驱动现代工业一般驱动数字化经济,必须具备通行的行业标准、合规的市场、合适的交易规则等。而这困难重重。
1、隐私边界与隐私保护
最先需要被提到的问题,就是隐私保护。我在前文提到了很多会被记录的数据:
睡眠监测仪可以获得你的睡眠数据、智能家居获得你的生活数据、智能出行工具获得你的行动轨迹、无处不在的监控获得你所有的体态与行为数据……
这些数据对提供相应服务的公司都具有价值。例如智能空调检测到你冬天喜欢开空调,该条数据可能会被某”巴拉巴拉离子暖风机“厂商购买,然后向您推送他家产品的广告”比空调更健康、更省电“……厂商定向买1000条这样的数据花的钱可能远低于去某网首页做个广告。当然,理想情况下,这些钱是付给你的,毕竟你才是这条数据的所有者。
问题来了:如果你不想自己喜欢开空调这件事被人知道怎么办?
最粗放的方式当然是直接把智能空调卸了,换上普通空调;可如果普通空调的芯片也能收集数据怎么办?去二手市场淘一个老式电风扇可能比较靠谱。
智能冰箱也是,最好换成地窖储冰;不能坐高铁,也不能过收费站,为了去外地只好徒步穿越无人村落……然而一通操作下来,你发现你的生活品质急剧下降,科技明明在进步,你却退化成了原始人。
——排斥新产品与排斥数据收集显然是不太现实的。重点在于个体要拥有自主选择的权利,可以选择什么样的数据被收集,什么样的数据不被。然而这真的现实吗?
学过经济学的朋友都清楚一个概念叫做“道德风险”,来源于事后的信息不对称。即:如果由用户选择什么样的数据被收集,用户完全可以选择不提供任何数据,或者为了用数据牟利提供虚假的数据,因为谁都不想有关自己生活的一些真实数据被人知道。
如果事情发展成这样,讨论数据是没有任何意义的,数字化经济也会不复存在。因为没有人会愿意千辛万苦最后得知你的名字叫“坎布尼特尔斯威齐巴克尼布维斯达我就不给你真名你自己慢慢猜吧但是我钱先拿走了撒油拉拉·张”。
所以数据收集一定需要是客观默认的,这就需要做到被用户自己也认可的足够程度的隐私保护。这一点现行的密码学技术已经有了一些方向。
但其实真正的问题往往是哲学性的:如何定义隐私的边界?隐私的边界该由个体选择还是群体选择?如何平衡监管与个体权利?如何处理隐私的外部性?
举个例子,如果默认数据收集,而收集的数据是否加密则由用户选择,这样一旦有危急事件政府可以选择启用被用户选择“加密”的数据,而平时涉足到商业的部分数据也是由用户亲手选择,并由用户获得收益,这看似是一个不错的解决方案。
但实际上,如果这个人是一个恐怖分子,他选择不公布的数据中藏有能够找到他的信息怎么办?有人说,那就让政府启用啊!问题来了,在启用前政府不知道恐怖分子是谁,为了知道是谁只能全面启用,这又会波及到其他无辜的用户(隐私泄露了);同时,该恐怖分子作恶会对其他人产生负外部性。如何处理这些外部性?
隐私如同文学作品,不同人对其的理解可能是千人千面的。我觉得露脖子不算什么,可能有的人会非常反感。这导致如果推行一个通用型的标准,总会有部分人的“隐私”被侵犯。如此通用型标准只能够越宽泛越好,但如果过于宽泛,也不能称之为“标准”了。
2、数据外部性与产权确立
谈及数据的外部性,必先介绍两个概念:非竞争性与非排他性。这两个概念是用来规定公共品的,而外部性就是存在于公共品问题之中。
**非竞争性指,当一个人消费某种产品时,不会减少或限制其他人对该产品的消费。**通常来说,这意味着零/低边际成本(所以互联网产品通常具有非竞争性)。
我们所见到的绝大部分数据,都是可以被重复使用的,不会因为用过一次而自焚或者改变内容。与之不同的是,大学入学名额,我挤进了分数线就一定有一个人被挤下去,所以高考就是“竞争性”的。
**非排他性指,当一个人在消费某种产品时,无法排除其他人也消费这一产品(或者排除的成本很高)。什么意思呢?举个例子,你去鱼塘钓鱼,不能不让别人钓(除非这鱼塘是你家的);或者你半夜去轧马路,看到另一个轧马路的,但你不能打他,除非给他很多钱请他离开,但如果他走了又有一个人过来轧马路,你还是不能打他,因为马路大家都有份。
满足非竞争性与非排他性的就是公共品。公共品问题中存在一个著名的博弈:“公地悲剧”,意思是每个人都想尽可能多地利用公共资源谋私利,最终导致公共资源难以承受而崩溃。
这是因为每个人对公共资源的使用都会对其他人产生一个“负外部性”。我们知道,在互联网中,外部性是正的。这源于信息生产的零边际成本,而公共资源显然不具有这个优势。
无论外部性是正还是负,外部性的存在意味着产权不够明晰。而市场是无法为产权不够明晰的商品做出合理定价的。如何看待数据的外部性?
首先我们需要就非竞争性与非排他性的概念给数据进行分类。对于非竞争且非排他的数据而言,显然应该由政府/公共组织提供,收益归其所有。比如天气预报、宏观经济数据。这类公共数据有一个特点:他们都与个体毫无瓜葛。这是最为清晰明了的一种。
对于竞争性/排他性数据,由于在生产过程中无法明确分离权利主体,导致无法分离出数据中的公共内容与私人内容。例如某公司想通过X市一个普通人的生活数据来寻找X市的投资机会,X市总共有10万人愿意提供这类数据,但该公司只需要1万条。这类数据就具有外部性,因为它们的一部分内容是共享的,任意一条数据被采用都会使得其他数据受到“负外部性”影响而贬值。
又例如,我的听歌数据,除了我自己知道,记录该数据的软件也一定知道,因为我使用这个软件听歌。除去我的行为部分,其余的部分本质上来说由软件生产,难道这就意味着软件也拥有我的听歌数据的部分产权?
人做任何行为,最终一定是要与外部世界交互的;无论这种交互是物理性的,还是通过生活状态表现出来的。这使得交互对象通常存在于你的数据里,无论他是物体还是人。既然外部性似乎不可避免,我们又如何去为数据确立明晰的产权呢?
3、物联网与数据采集
前面两点都或多或少地涉及到了数据采集。比如数据采集应该是自发而是被选择受控制的?受个体控制的数据采集如何保证真实性?自发的数据采集如何保证不侵犯隐私?数据采集的范围、方式与量规?
现有的数据采集可能主要发生于“上网”这一行为。举例来说,通过支付与消费记录获得购物习惯、行动轨迹;通过网络言论推测个体想法与认知;通过浏览记录、应用下载记录等获得个人喜好等。然而智能家居、自动驾驶、监控等背后代表的可能会是另一种覆盖面更广的数据采集路劲——物联网。
物联网将在个体的生活中布满装有高速计算芯片的机器,这些机器的日常工作将会积累到大量的数据,通过计算与加工匹配入数据库。这些更丰富的细节将会使得大数据对个体的画像更加清晰,从简单的行为习惯深入到思维认知、精神特性等。
这从一方面对数字化经济及社会治理具有极大意义,另一方面也引发了奥威尔式的个体隐私困境——不仅仅来源于被时刻监控的焦虑,更因为这些重要数据一旦泄露,基本上可以宣布一个数字时代公民的“死亡”。
因此,物联网在数据采集过程应该做到什么程度、遵守什么规则,设备的可信度、设备的身份核实、设备的记账系统等,是一定需要被提前约定并严格遵守的。
4、数据价值匹配
提到数据市场,不得不说的一个问题是数据的价值匹配。
什么意思?对比商品市场,每个商品能够做什么我们都是非常清楚的,正是据此我们结合自己的需求给出了期望价格。比如我是一名农夫,我一天可以砍十斤柴,一斤柴可以卖二十块,我想去市场买只斧子,斧子可以用三十天,于是我知道了:斧子总共能砍六千块的柴,我砍柴这么累应该赚三千,那么斧子的期望价格就在三千以下。
但数据市场不同。数据的价值讨论存在一个悖论:即如果我不知道一条数据的内容,我无法为其确定价值;但一旦我知道这条数据的内容,这条数据对我来说就不存在价值了。这种特性让数据市场自然完成价值匹配变得非常困难。
好在大数据技术让内容无法一目了然的数据完成了价值发现。数据需求者可以搜索或挖掘想要的数据,现在摆在他们面前的难题成了:如何确定这些数据内容的“正确性”?<










