方法論、ツールとチーム:どのようにして Web3 データアナリストになるか?
原文作者:Andrew Hong
原文标题:[2022] Web3データガイド:思考、ツール、チーム
編纂:GaryMa,吴说区块链
この記事は、あなたがWeb3に初めて触れるデータアナリストであり、Web3分析チームを構築し始めたか、またはWeb3データに興味を持ち始めたことを前提としています。どちらの方法を取るにせよ、あなたはすでにAPIs、データベース、変換、モデルがWeb2でどのように機能するかについて大まかに理解しているはずです。
この新しいガイドでは、私の3つのポイントをできるだけ簡潔に説明します:
- 思考:なぜオープンなデータチャネルがデータの有効活用の仕方を変えるのか
- ツール:Web3データスタックにおけるツールの概要とそれらの活用方法
- チーム:Web3データチームの基本的な考慮事項とスキル
データ思考
まず、Web2でデータを構築、クエリ、アクセスする方法(つまり、TwitterのAPIにアクセスすること)を要約しましょう。データチャネルを簡素化するための4つのステップがあります:
- APIイベントをトリガーする(いくつかのツイートを送信する)
- データベースに更新する(既存のユーザーモデル/状態変更に接続する)
- 特定の製品/分析ユースケースのデータ変換
- モデルのトレーニングとデプロイ(あなたのTwitterフィードを管理するために)
データがオープンソースである場合、唯一必要なステップは変換が完了した後です。Kaggle(1000のデータサイエンス/特徴エンジニアリングコンペ)やHugging Face(26,000のトップNLPモデル)などのコミュニティは、企業がより良いモデルを構築するのを助けるためにいくつかの公開データサブセットを使用しています。特定の分野の状況もありますが、例えば、前の3つのステップでオープンデータのオープンストリートマップなどがありますが、それでも書き込み権限には制限があります。
私がここで言いたいのは、私はデータについてだけ話しているのであって、Web2が完全にオープンソースではないと言っているわけではありません。ほとんどの他のエンジニアリング役割と同様に、Web2データにはパイプラインを構築するための多くのオープンソースツールがあります(dbt、Apache、TensorFlow)。私たちはWeb3でもこれらのツールをすべて使用しています。要するに、彼らのツールはオープンですが、彼らのデータはクローズドです。
Web3もデータをオープンソースにするので、もはやデータサイエンティストだけがオープンな環境で働くわけではなく、分析エンジニアやデータエンジニアもオープンな環境で働いています!全員がほぼブラックボックスのデータループではなく、より連続的なワークフローに参加しています。
作業の形式は、Web2のデータダムからWeb3のデータフロー、デルタ、そして海洋へと変わりました。同様に重要なのは、エコシステム内のすべての製品がこのループの影響を同時に受けるということです。
Web3アナリストがどのように協力して働くかの例を見てみましょう。数十の取引所が異なる取引メカニズムと手数料を使用しており、トークンAをトークンBに交換することを可能にしています。これらがナスダックのような典型的な取引所であれば、各取引所は自分のデータを10kまたはいくつかのAPIで報告し、その後、CapIQのような他のサービスがすべての取引データをまとめて、彼らのAPIにアクセスするための料金を請求します。時には、彼らは将来の追加のデータ/チャート機能のために革新コンペを開催することもあります。
Web3取引所では、次のようなデータフローがあります:
- dex.tradesはDune上のテーブルです(多くのコミュニティ分析エンジニアが時間をかけて整理したもの)、すべてのDEX取引データが集約されているため、すべての取引所で単一のトークンの取引量を簡単に検索できます。
- データアナリストはコミュニティオープンソースクエリを使用してダッシュボードを作成したため、今ではDEX業界全体の公開概要が得られました。すべてのクエリが1人によって書かれたように見えても、これはDiscord上での多くの議論を経て正確に組み立てられたことを推測できます。
- DAO科学者はダッシュボードを確認し、自分のクエリでデータを分割し、特定のペア(例えば、ステーブルコイン)を確認し始めます。彼らはユーザー行動とビジネスモデルを観察し、仮説を立て始めます。科学者はどのDEXが取引量でより大きなシェアを占めているかを見ることができるため、新しいモデルを提案し、チェーン上で投票と実行を行うためにガバナンスパラメータの変更を提案します。
- その後、私たちはいつでも公共のクエリ/ダッシュボードを確認し、提案がどのように競争力のある製品を生み出すかを見ます。
- 将来的に別のDEXが登場する(または新しいバージョンにアップグレードする)場合、このプロセスは繰り返されます。誰かがこのテーブルを更新するための挿入クエリを作成します。これにより、すべてのダッシュボードとモデルに反映されます(誰も戻って手動で修正/変更する必要はありません)。他の分析者/科学者は、他の人がすでに行った作業を基にすることができます。
共有されたエコシステムのおかげで、議論、協力、学習がより密接なフィードバックループの中で行われます。私はこれが時には耐え難いことを認めますが、私が知っているアナリストは基本的にデータの枯渇に苦しんでいます。しかし、私たちの中の誰かがデータを前進させ続ける限り(例えば、誰かがDEXクエリを作成した場合)、他の人も恩恵を受けることができます。
それは常に複雑な抽象的な視点である必要はなく、時にはENS逆引き解決ツールを簡単に検索できるようにしたり、ほとんどのGraphQLマッピングをCLIコマンドで自動生成するような実用的な機能であることもあります!これらはすべて誰でも再利用でき、特定の製品のフロントエンドや自分自身の個人的な取引モデルでAPIを使用することができます。
ここで開かれる可能性は驚くべきものですが、私は確かに、ホイールはまだスムーズに回っていないことを認めます。データエンジニアリングに比べて、データアナリスト/科学分野のエコシステムはまだ成熟していません。以下の理由があると思います:
データエンジニアリングはWeb3の数年間の中心的な焦点であり、クライアントRPC APIの改善から基本的なSQL/GraphQL集約まで行われています。TheGraphやDuneのような製品は、彼らがこの分野で行った努力の証です。
アナリストにとって、Web3の独特なクロスプロトコルリレーションシップテーブルを理解することは非常に困難です。例えば、アナリストはUniswapを単独で分析する方法を理解できますが、アグリゲーター、他のDEX、異なるトークンタイプを混ぜるのは難しいです。最も重要なのは、これを実現するためのツールが昨年まで本当に登場しなかったことです。データサイエンティストは通常、生データを収集し、すべての作業を独自に行うことに慣れています(自分のパイプラインを構築する)。彼らは開発初期にアナリストやエンジニアとこれほど密接でオープンに協力することに慣れていないと思います。私個人にとっては、これには時間がかかりました。
協力して働く方法を学ぶことに加えて、Web3データコミュニティはこの新しいデータスタックを横断して作業する方法を学んでいます。インフラを制御する必要はなく、Excelからデータプールやデータウェアハウスに徐々に構築する必要もありません。製品が立ち上がると、データは至る所に立ち上がります。あなたのチームは基本的にデータインフラの最深部に投げ込まれています。
データツール
以下は、いくつかのデータツールの概要です:
次に、各タイプとその使用法を見てみましょう:
- インタラクション+データソース:これは主にフロントエンド、ウォレット、低レベルのデータ取り込みに使用されます。
1.1. クライアント:Ethereumの基盤実装は同じですが、各クライアントには異なる追加機能があります。例えば、Erigonはデータストレージ/同期を大幅に最適化し、Quorumはプライバシーチェーンをサポートしています。
1.2. ノード・アズ・ア・サービス:どのクライアントを実行するかを選ぶ必要はありませんが、これらのサービスを使用することで、ノードとAPIを正常に運用する手間を省くことができます。ノードの複雑さは、どれだけのデータをキャプチャしたいかによって異なります(軽ノード→フルノード→アーカイブノード)。
- クエリ+データマッピング:このレイヤーのデータは、URIとして契約内で参照されるか、契約ABIを使用してトランザクションデータをバイトからテーブルスキーマにマッピングすることによって取得されます。契約ABIは、契約にどの関数とイベントが含まれているかを教えてくれます。そうでなければ、私たちはデプロイされたバイトコードしか見ることができません(このABIがなければ、契約トランザクションを逆エンジニアリング/デコードすることはできません)。
2.1. トランザクションデータ:これは最も一般的に使用され、主にダッシュボードやレポートに使用されます。TheGraphやFlipside APIもフロントエンドで使用されています。一部のテーブルは契約の1:1マッピングであり、他のテーブルはスキーマ内で追加の変換を許可します。
2.2. メタデータ「プロトコル」:これらは本当のデータ製品ではなく、DIDやファイルストレージを保存するために使用されます。ほとんどのNFTは、これらの1つまたは複数のデータソースを使用するでしょう。今年、私たちはこれらのデータソースを使用してクエリを強化することがますます増えると思います。
2.3. 専門プロバイダー:これらの中には非常に堅牢なデータストリーム製品があり、Blocknativeはメモリプールデータに、Parsecはチェーン上のトランザクションデータに使用されます。他のものは、DAOガバナンスや国庫データなど、チェーン上およびチェーン外のデータを集約します。
2.4. 高次元データプロバイダー:彼らのデータをクエリ/変換することはできませんが、彼らはすでにすべての重労働を終えています。
強力で優れたコミュニティがこれらのツールと連携しなければ、Web3は存在しません!私たちは各タイプに対応する優れたコミュニティを見て取ることができます:
Flashbots:MEVに特化し、取引を保護するためのカスタムRPCから専門的なホワイトハットサービスまで、すべての事柄を提供します。MEVは主にフロントラン問題を指し、誰かがあなたよりも多くのガスを支払う(しかし、直接マイナーに)ことで、彼らは自分の取引を先に実行することができます。
Duneデータエリート:Duneのデータエコシステムに貢献することに特化したデータアナリストのエリート。
Flipsideデータエリート:Web3データの昇天に貢献することに特化したデータアナリストのエリート。
MetricsDAO:エコシステムを横断して、複数のチェーン上のさまざまなデータ報酬を扱います。
DiamondDAO:Stellarのデータサイエンス作業に特化し、主にガバナンス、財政庫、トークン管理に関わります。
IndexCoop:トークンなどの特定の分野の分析に特化し、暗号通貨業界で最も優れたインデックスを作成します。
OurNetwork:さまざまなプロトコルやWeb3のデータを毎週カバーします。
注:上記のDAOの参加連絡先は原文を参照してください。
各コミュニティはWeb3エコシステムを改善するために多くの作業を行っています。コミュニティを持つ製品は100倍の速度で成長することは間違いありません。これは依然として大きく過小評価されている競争優位性であり、私は人々がこれらのコミュニティで何かを構築しない限り、この優位性を得ることはないと思います。
データチーム
言うまでもなく、あなたはこれらのコミュニティの中であなたのチームに加わることができる人を探すべきです。重要なWeb3データスキルと経験をさらに分析し、あなたが本当に何を探しているのかを理解できるようにしましょう。雇われたいのであれば、これをあなたが追求するスキルと経験と見なしてください!
少なくとも、アナリストはEtherscan探偵であり、Duneダッシュボードを読む方法を知っているべきです。これは、リラックスした学習に1ヶ月かかるかもしれませんが、もし本当に狂ったように学ぶなら2週間かかります。
その上で、さらに多くの内容を考慮する必要があります。特に時間配分とスキルの移転についてです。
時間面:Web3では、データアナリストは約30-40%の時間をエコシステム内の他のアナリストやプロトコルと同期を保つことに費やします。彼らを気絶させないようにしてください。さもなければ、これは全員にとって長期的な損害となります。より大きなデータコミュニティと共に学び、貢献し、構築することが必要です。
移転性の面:この分野では、スキルと領域は非常に高い移転性を持っています。異なるプロトコルを使用する場合、オンチェーンデータのテーブルスキーマは同じであるため、習得時間が短縮される可能性があります。
これらのツールを使用する方法を知っていることは重要ではありません。すべてのアナリストは多かれ少なかれSQLを書くか、データダッシュボードを作成することができるべきです。すべては、どのように貢献し、コミュニティと協力するかに関するものです。面接を受けている人がWeb3データコミュニティの一員でない場合(そしてこの分野に対して興味がなさそうな場合)、これは危険信号かもしれません。