Codatta는 왜 태어났는가: AI를 구축하는 지식 프로토콜 레이어
AI의 데이터 기반 이해
Figure 1: 전통 소프트웨어 시스템 (인간 주도) vs. AI 시스템 (데이터 주도)
AI 모델은 데이터를 통해 패턴을 인식하고, 추론하며, 새로운 문제를 해결하는 방법을 학습합니다. 명시적 규칙에 의존하는 전통 소프트웨어와 달리, 생성적 AI(대형 언어 모델)는 방대한 데이터 세트와 입력-출력 샘플을 통해 AI 시스템을 구동합니다.
산업계의 실무 경험에 따르면, 약 80%의 AI 엔지니어링 투자는 데이터 단계에 집중되어 있으며------파이프라인 구축, 정제 및 전처리를 포함------알고리즘 개발이 아닙니다. 고품질, 고지식 밀도의 데이터는 매우 중요합니다. 대형 언어 모델의 발전과 함께 전문화된 지식과 추론 데이터에 대한 수요가 급증하고 있으며, 기본 모델의 능력 향상에 따라 기본 주석의 필요성은 감소하고 있습니다.
생성적 AI 시대: 데이터 역할의 진화
Figure 2: AI 모델 개발 단계: 기초에서 수직 AI로
생성적 AI 시대에 데이터의 역할은 근본적으로 변화하고 있습니다. 전통적인 주석 데이터의 중요성은 감소하고 있으며, 고품질, 고지식 밀도의 데이터에 대한 수요는 폭발적으로 증가하고 있습니다. AI 모델의 훈련은 일반적으로 세 가지 단계로 나뉩니다: 첫 번째는 인터넷 데이터를 기반으로 한 사전 훈련으로, 기초 인지 능력을 구축합니다; 두 번째는 인공 주석이 달린 선호 데이터를 사용하여 미세 조정하여 상호작용 경험을 최적화합니다; 마지막으로 강화 학습을 통해 합성 데이터를 생성하여 모델의 일반화 능력을 향상시킵니다.
그러나 《자연》 잡지 등의 연구에 따르면, 합성 데이터에는 명백한 한계가 있습니다. 과도한 사용은 "모델 붕괴"를 초래하여 출력 품질에 심각한 영향을 미칩니다. 이는 실제 데이터의 중요한 가치를 강조합니다. 기본 AI 능력이 향상됨에 따라 전문 분야의 응용은 점점 더 인간 전문가가 제공하는 고품질 지식 데이터에 의존하게 됩니다. 이러한 인공 생성된 고품질 데이터는 모델 미세 조정 및 효과 평가와 같은 중요한 단계에서 여전히 필수적입니다.
로열티 인센티브로 AI 데이터 생태계 재구성
AI 개발자(특히 스타트업)는 고품질 전문 지식 데이터를 확보하는 데 높은 초기 비용에 직면해 있습니다. 전통적인 구매 방식은 많은 초기 투자를 요구하여 핵심 인간 지능 데이터를 확보하기 어렵게 만들고, 이는 AI 혁신 과정을 지연시킵니다.
전문가는 AI 시스템에 중요한 지식을 제공하며, 그들의 전문적인 통찰력은 AI가 전문가 자신의 일을 대체할 수 있게 할 수 있습니다. 그러나 그들은 일반적으로 일회성 보상만 받을 수 있으며, 그 금액은 종종 부족합니다. 이러한 인센티브 불일치는 전문가의 동기를 저하시킬 뿐만 아니라 AI 이익 분배의 공정성 문제를 야기합니다.
Figure-3 생성 AI 비즈니스 모델 비교
Codatta는 블록체인 기반의 데이터 자산화 로열티 지급 모델을 통해 이 문제를 해결합니다. 이 솔루션은 개발자가 선불 장벽 없이 고품질 데이터를 수익 분배를 통해 확보할 수 있게 합니다. 보상을 장기 수익과 연결함으로써 Codatta는 혁신 장벽을 낮추고 전문가에게 지속 가능한 인센티브 시스템을 구축합니다.
데이터 기여자는 모든 권리를 공유받고, 자신의 데이터를 사용하는 AI 애플리케이션에서 지속적으로 로열티를 얻습니다------이 모델은 AI 스타트업에 대한 투자와 유사합니다. 이러한 자산의 특성과 가치 창출 잠재력을 기반으로 관련 권리는 거래를 통해 유동성을 실현할 수 있으며, 수익 실현 요구를 유연하게 충족할 수 있습니다. 이러한 수익 메커니즘은 데이터 영향력과 동기화된 장기 수익 메커니즘으로, 전문 지식의 가치를 진정으로 반영하며, 전통적인 일회성 매입 모델보다 공정성이 훨씬 뛰어납니다.
데이터에서 자산으로: 체인 상 로열티 지급 실천
Figure-4: Codatta의 데이터 자산화 프레임워크
이 그림은 Codatta 데이터 자산화 및 로열티 분배의 핵심 메커니즘을 보여줍니다. 왼쪽에는 데이터 기여(X, Y 및 지식 포인트 KP0, KP1, KP2, KVO, KV1)가 콘텐츠 해시 값과 함께 체인에 제출되며, 암호화된 데이터 유효 페이로드는 혼합 저장 솔루션에 저장됩니다. 오른쪽에는 전문 AI 모델이 이러한 데이터를 활용하여 고객에게 추론을 제공하는 방법이 설명되어 있습니다. 중요한 "데이터 소유" 모듈은 가치 기여를 추적하여 사용량과 영향을 기반으로 로열티를 공정하게 분배합니다.
데이터 자산화를 실현하기 위해 Codatta는 세 가지 핵심 기둥을 구축했습니다: 인프라, 커뮤니티 및 인센티브 메커니즘 설계:
- 프라이버시 보호의 투명성:
우리 시스템은 블록체인을 통해 모든 데이터 기여를 기록하여 출처, 소유권 및 소유에 대한 영구적으로 검증 가능한 기록을 생성합니다. 모든 데이터 자산은 암호화 저장(탈중앙화 및 중앙화 혼합 아키텍처 지원)을 사용하여 상업적 가치를 보장하면서 공정한 인정과 로열티 분배를 보장합니다. Codatta는 스마트 계약을 통해 지식을 추적 가능하고 수익을 창출할 수 있는 디지털 자산으로 변환합니다.
- 인간 기여자와 전문 AI의 협력 네트워크:
우리는 투명하고 평판 기반의 시스템에서 인간 전문가와 AI를 동시에 활용합니다. AI는 초기 작업(속도/규모 추구)을 처리하고, 인간은 전문 통찰력을 사용하여 출력을 최적화합니다. 이러한 이중 접근 방식은 업계 표준이 되고 있습니다. Codatta는 이 모델을 더욱 확장하여 인간이 지식 제공자, 검증자 또는 자금 지원자로서 다중 역할을 수행할 수 있도록 합니다. 각 역할은 공개적으로 보이며, 동적 평판 시스템과 연결되어 품질과 책임감을 장려합니다.
- 프로그래머블 인센티브 모듈:
데이터 상호작용(수집, 검증, 개선)과 맞춤형 보상을 연결합니다. 스마트 계약은 로열티, 평판 또는 스테이킹 인센티브를 자동으로 분배하여 데이터 가치에 기반한 공정한 보상을 보장합니다. 이러한 모듈은 평가 및 소유 알고리즘을 사용하여 훈련 및 추론 과정에서 지식 영향력을 분석합니다. 이들은 다양한 데이터 유형에 적응할 수 있으며, 장기적인 공정 보상을 최적화하고 지속 가능한 지식 경제의 발전을 촉진합니다.
이 세 가지 기둥------암호화 저장의 체인 상 투명성, 인간-기계 혼합 네트워크 및 프로그래머블 보상 메커니즘---은 Codatta의 데이터 자산화 프레임워크를 구성합니다. 이 시스템은 지식 기여를 안전하고 추적 가능한 디지털 자산으로 변환하여 지속적으로 로열티 수익을 창출하며, 인간 지능과 확장 가능하고 지속 가능한 AI 발전 간의 다리를 놓습니다.
개방형 설계: 전통 AI와 탈중앙화 지능 연결
Codatta는 탈중앙화 AI(Decentralized AI or DeAI)와 전통 Web2/Web3 인간 지능 서비스를 연결하는 유연한 지식 네트워크입니다. 전통적인 데이터 주석 시나리오를 위해 Codatta는 MTurk/Scale AI와 같은 플랫폼의 고품질 백엔드로 작용할 수 있으며, 법정 화폐/스테이블 코인 지불을 지원하여 전통 서비스가 전문가 네트워크에 접근하여 고급 지식 데이터를 확보할 수 있게 합니다. 이를 통해 전통 플랫폼은 Web3의 복잡성을 다루지 않고도 블록체인 수준의 검증 및 품질 보장을 누릴 수 있습니다.
DeAI 기술 스택에서 Codatta는 데이터 큐레이션에 집중합니다------이 중요한 첫 단계입니다. 우리는 블록체인이 DeAI에서 기여자의 신원 인증, 데이터/모델 검증, 추적 및 사용 모니터링에 가장 적합하다고 생각합니다. 우리의 설계는 무거운 계산/저장 작업을 중앙화된 인프라로 오프로드하여 효율성을 높이는 동시에, 탈중앙화 시스템을 통해 투명성, 책임성 및 공정한 가치 분배를 보장합니다. 이러한 혼합 접근 방식은 확장 가능성을 보장하면서도 완전성을 유지하여 신뢰할 수 있는 AI 데이터 공급망을 구축합니다.
중앙화 및 탈중앙화 생태계를 연결함으로써 Codatta는 더 공정하고 더 높은 성능의 AI 시스템을 구축하는 데 전념하고 있습니다------여기서 인간 기여자는 인정받고, 데이터 완전성은 보호되며, 인센티브 메커니즘은 장기 가치 창출과 일치합니다.
부록: Codatta의 여정은 Microscope 오픈 소스 프로젝트의 시작(코인베이스, 메사리, 고플러스와 협력)에서 시작되어 현재 생성적 AI를 위한 범용 인간 지능 플랫폼으로 발전하였으며, AI 개발자의 기초 지원이 되는 것을 목표로 하고 있습니다. 그 플래그십 제품인 암호 계좌 주석 시스템(CAA)은 35개 블록체인 네트워크를 커버하고, 4,600만 개의 고위험 주소를 주석 처리하며, 5.6억 번의 주석(95개 카테고리, 10만 명 이상의 기여자가 공동 구축)을 완료했습니다. 현재 비즈니스는 평가, 전자상거래, 의료 건강 및 피트니스 등 여러 분야로 확장되었으며, 2024년까지 100개 이상의 지식 분야를 커버하고 30만 명 이상의 기여자를 모으는 명확한 발전 로드맵을 수립했습니다; 2025년에는 프로토콜을 완전히 탈중앙화하고, 2026년에는 모든 데이터 자산화를 완료하여 각 지식 기여가 수익을 창출할 수 있는 자산이 되도록 할 것입니다.