主網上線在即,AI 數據的分佈式存儲協議 EpiK 如何變垃圾數據為有效數據?
撰文:Zeo Zhang
來源:鏈聞ChainNews
騰訊創始人馬化騰曾在 2017 年「邁進智能新時代」中國(深圳) IT 領袖峰會上坦言:
目前很多大數據是垃圾數據,因為沒有標籤,用再好的算法也算不出來,數據清洗、標籤化難度非常高,我們甚至要耗費很多人工先清洗數據,再讓 AI 學習。
一席話道出人工智能發展難點。在互聯網計算機迭代數十年後,算法和算力的積累已將人工智能推向一個新的階段,但缺乏高質量的有效數據,成為掣肘人工智能發展的重要原因之一。在解決這一問題上,測試網已經平穩運行一年的 AI 數據的分佈式存儲協議 EpiK Protocol 提出了結合區塊鏈的解決方案。
2021 年 8 月 15 日,測試網已經平穩運行一年的 AI 數據的分佈式存儲協議 EpiK Protocol 將正式上線主網。作為一個首次集數據標註、分佈式存儲以及數據應用等功能於一身的項目,EpiK Protocol 嘗試解決市場缺乏有效數據問題,構建共建共享共益的 AI 數據的分佈式存儲協議?
為什麼缺乏有效數據?
一方面,平台默許甚至鼓勵虛假的刷數據行為,造成無用數據橫行。
對於傳統互聯網行業來說,刷數據現象司空見慣:新開的網店九成以上會選擇刷單吸引客流量;即使是訂閱量超百萬的微信大號也經常通過刷閱讀量滿足廣告客戶的數據需求;更甚者,某旅遊平台曾被爆出通過機器+人工的形式,冒充用戶發表了數千萬的用戶評價,以假亂真,影響用戶對產品的真實測評。
對於一向標榜公開、透明、鏈上可追溯的區塊鏈行業來說,刷數據現象仍不鮮見,分佈式存儲領域明星項目 Filecoin 也曾陷入「無效數據」質疑:在 Filecoin 網絡剛上線時,較高的挖礦收益吸引大量礦工參與,甚至有部分礦工利用外部程序進行灌裝虛擬數據或自己封裝一些毫無價值的垃圾數據。
Filecoin 存儲算力快速暴增,從而導致存儲的數據量短時間爆增。再加上 Filecoin 網絡一開始無法對存儲的數據進行分辨,真實有效數據極少,大量物理存儲被浪費,對整個 Filecoin 生態發展帶來不良影響。
另一方面,數據處理成本居高不下,多數人工智能不堪重負。
眾所周知,人工智能需要不斷深度學習,這需要龐大的數據量支撐。
龐大的用戶群體每天活躍在互聯網中,產生龐雜的數據。然而這些數據並不能被直接使用。人工智能的深度學習需要數據集的獲得、數據的標註等,其中數據的標註會造成巨大的人力成本。
廣泛應用深度學習網絡需要大量已標註的數據進行訓練才有可能達到預期的效果,但大數據時代下,雖然有海量的數據取之不盡,絕大部分卻是未進行標註的數據,這些訓練數據的標註需要人為進行。
對於數據品質要求越高,數據的標註需求就越精細,對標註人員的素質和專業知識的要求也就越高,相應成本也越高。
長久以來,這些數據都由專門的數據標籤分類公司(比如 Amazon Mechanical)進行加工處理,以供人工智能等數據需求領域發展使用。然而,用戶-數據處理公司-數據需求者的三方協作,使得有價值的數據獲取成本極高。
標註、存儲、銷售:EpiK Protocol 的一站式數據服務
EpiK Protocol 生態引入領域專家、賞金獵人、數據企業三類角色,致力於構建去中心化的大規模共建共享共益的 AI 數據存儲協議,通過去中心化存儲技術 IPFS、去中心化自治組織 DAO 及通證經濟模型,組織並激勵全球社區成員將人類各領域知識梳理成可用的 AI 數據,並持續更新這一人類永恆知識庫。
在數據標註方面,EpiK Protocol 連接 C 端用戶推出 AI 數據標註系統。
「領域專家」設計不同領域的 AI 數據格式,並發布數據標註任務;人人都能註冊成為「賞金獵人」,參與數據標註成為 AI 老師,獲得 EPK 代幣獎勵。
完成數據標註後,「賞金獵人」返還處理過的數據,「領域專家」驗收所負責領域 AI 數據獲得 EPK 代幣獎勵。此外,「領域專家」還會根據數據結果優化 AI 數據格式,良性循環下,數據質量得到不斷提升。
在數據存儲方面,EpiK Protocol 推出 AI 數據存儲系統。
完成標註並通過驗收的數據將由「領域專家」上傳至 AI 數據存儲系統進行分佈式存儲,參與數據存儲的設備也都可以獲得 EPK 代幣獎勵。
在數據銷售方面,數據企業可通過質押 EPK 來訪問數據,並從 AI 數據存儲系統中付費下載有效數據。
由於 EpiK Protocol 的 AI 數據標註系統直接面向 C 端用戶,消除了中間戶數據標註公司的存在,簡化了數據處理流轉的各個環節,因此成本更低。以一條可用的 AI 語音方言數據為例:傳統市場一條可用數據成本約在 12 元左右,而在 EpiK Protocol 系統成本約為 2 元,是傳統市場的 1/6。
更重要的是,由於 EpiK Protocol 系統中有來自各行各業的「領域專家」把關數據治理,因此 EpiK Protocol 系統產生的有效數據更能夠精準符合不同 AI 領域的數據需求。
協同 B 端、C 端和行業專家的開放經濟模式
不同於目前分佈式存儲主要圍繞 B 端歸檔數據存儲服務的商業模式,EpiK Protocol 是一個協同 B 端企業、C 端用戶和領域專家的去中心化協同 AI 數據存儲協議,在成本控制、收益提升和服務體驗方面,都具有媲美中心化互聯網巨頭的能力。
C 端用戶:更低的數據標註門檻
EpiK Protocol 針對 C 端用戶打造了 AI 數據採集應用「知識大陸」,降低了數據標註門檻,同時提升了趣味性。卡通的界面和簡明的佈局讓數據標註這種枯燥而繁雜的工作變為有趣的遊戲,通過遊戲化形式組織其全球社區成員共建大規模開放 AI 數據庫。
各行各業都可以在「知識大陸」中創建 AI 數據類型,包括金融、醫藥、法律、社交、電商等,未來隨著知識大陸的發展和運用,有數據需求的公司都可以選擇在此進行共同協作收集整理並處理數據。
其次,EpiK Protocol 的標註效率更高。AI 數據標註系統運營三周以來,EpiK Protocol 標註了 17272 條有效數據,且數據指標完整,每條數據被人工驗證次數高達 10 次。相較於傳統標註方式,EpiK Protocol 的標註效率高了近乎 10 倍。
最重要的是,參與 EpiK Protocol 數據標註的用戶能夠獲得更高收益。傳統數據標註模式中,數據處理者僅作為一種人工勞動力,並不享有數據分紅權。而在 EpiK Protocol 中,對數據做出貢獻所獲得的 EPK 實際是獲得了數據的股權,分享數據在後續使用過程中的盈利分紅。後期數據需求越大,EPK 需求就越高,EPK 便會升值,EPK 持有者便可以獲益。
B 端用戶:激勵有效數據
EpiK Protocol AI 數據存儲系統採取經典的 1 + 3 配置,即 1 Deamon + 3 Miners (8 核 16G,250G SSD,3T HDD,15M 帶寬)配置。與 Filecoin 相比,EpiK Protocol AI 數據存儲系統參與出塊最小算力為 0、存儲免費,無需指定節點且默認無限份數、無限時間,更能夠充分調度起每台閒置存儲設備。
最重要的是,Filecoin 存儲無用數據也可獲得算力,但 EpiK Protocol 存儲系統中只有通過「領域專家」驗證過的數據才可獲得算力,這不僅保障了數據的高質量,而且進一步遏制了無效數據浪費存儲空間的不良影響。
項目團隊
EpiK Protocol 擁有行業頂級顧問以及實力派投資機構。著名 AI 科學家、SigularityNET 創始人、全球首個機器人公民 Sophia 之父的首席科學家 Ben Goertzel 出任 EPIK 銘識協議顧問,協助 EPIK 推動歐美數據市場,助力構建高質量的 AI 數據生態。
融資方面,EpiK Protocol 獲得了包括 FBG Capital、JACKDAW、1475、ChainUp Capital、7 O'clock Capital 等機構的青睞,助力 AI 數據的分佈式存儲以新的勢頭進入大眾視野。
主網即將上線
根據團隊最新消息,EpiK「主網 1.0 羅塞塔」將於 2021 年 8 月 15 日中午 12 點正式上線。該時間也是 EpiK 測試網上線 1 周年的時刻。目前測試網 5.0 在測節點已超過 6 萬個,穩定出塊。
隨著主網的日益臨近,挖頭礦也成為 EpiK Protocol 用戶的關注焦點之一。作為 EpiK Protocol 生態激勵代幣,EPK 總發行量為 10 億,其具體分配規則如下:
1.創世團隊:5%,每 90 天釋放 1/16;
2.基金會:5%,每 90 天釋放 1/4;
3.投資人:20%,每 90 天釋放 1/7;
4.社區:70%,出塊速遞每 90 天衰減一次,4 年減半,分 50 年釋放完畢。
EpiK Protocol 擁有 AI 數據標註和 AI 數據存儲兩大系統,也對應了兩種主要參與方式:
第一類,參與標註 AI 數據,成為 EPK 賞金獵人。利用閒暇時間參與標註不同 AI 領域數據,完成任務越多,EPK 收益越高。認真答題還有機會贏取知識徽章 NFT,後續可憑藉 NFT 參與 EPK 空投活動。
第二類,參與存儲 AI 數據,成為 EPK 存儲節點。利用閒置的存儲設備即可參與存儲 AI 有效數據,每個存儲節點需要完成 1000 EPK 的基礎質押才能擁有出塊權。存儲節點是隨機獲得出塊機會的,但是其隨機被選中的概率和其成功存儲的數據大小掛鉤:存的數據越多,被選中概率越高,同一個文件的 Top100 存儲者享有雙倍算力。
只有通過領域專家驗證過的數據才被計為有效存儲,存儲節點才能獲得算力,因此,為了獲取更多的有效存儲,就需要完成額外的流量抵押。1 EPK 可以用於訪問 10 Mib 數據,也可用於封裝 10 Mib 數據。目前,基礎抵押提現的解鎖期為 0 天,流量抵押提現的解鎖期為 3 天。
結 語
EpiK Protocol 還開啟了在分佈式治理領域的探索,於 7 月 20 日發布了 EpiK DAO。作為分佈式存儲賽道首個 DAO 治理模型,社區用戶可以借助 EpiK DAO 參與 EpiK 生態資源的動態調節,有效保障 EpiK 社區的可持續發展,修復未來可能發生的資源錯配問題。
隨著 Web 3.0 時代的日益來臨,數據的重要性日益凸顯。EpiK Protocol 從數據標註到數據分佈式存儲再到對接企業實現數據應用,打造了一個低門檻、高效率的數據收益共享閉環,未來 EpiK Protocol 如何實現豐富的落地應用場景值得期待。