Crypto AI의 성배: 탈중앙화 훈련의 최전선 탐험

2025-06-11 13:43:45

수집

AI의 전체 가치 사슬에서 모델 훈련은 자원 소모가 가장 크고 기술 장벽이 가장 높은 단계로, 모델의 능력 한계와 실제 응용 효과를 직접 결정합니다.

저자：0xjacobzhao 및 ChatGPT 4o

특별히 Advait Jayant（Peri Labs）、Sven Wellmann（Polychain Capital）、Chao（Metropolis DAO）、Jiahao（Flock）、Alexander Long（Pluralis Research）Ben Fielding \& Jeff Amico (Gensyn)의 제안과 피드백에 감사드립니다.

AI의 전체 가치 사슬에서 모델 훈련은 자원 소모가 가장 크고 기술 장벽이 가장 높은 단계로, 모델의 능력 한계와 실제 응용 효과를 직접 결정합니다. 추론 단계의 경량 호출에 비해 훈련 과정은 지속적인 대규모 컴퓨팅 파워 투입, 복잡한 데이터 처리 프로세스 및 고강도의 최적화 알고리즘 지원이 필요하며, AI 시스템 구축의 진정한 "중공업"입니다. 아키텍처 패러다임 관점에서 훈련 방식은 중앙 집중식 훈련, 분산 훈련, 연합 학습 및 본 문서에서 중점적으로 논의하는 탈중앙화 훈련의 네 가지 범주로 나눌 수 있습니다.

중앙 집중식 훈련은 가장 일반적인 전통적인 방식으로, 단일 기관이 로컬 고성능 클러스터 내에서 모든 훈련 프로세스를 완료하며, 하드웨어(예: NVIDIA GPU), 하부 소프트웨어(CUDA, cuDNN), 클러스터 스케줄링 시스템(예: Kubernetes) 및 훈련 프레임워크(NCCL 백엔드 기반의 PyTorch와 같은) 모든 구성 요소가 통합된 제어 시스템에 의해 조정됩니다. 이러한 깊은 협업 아키텍처는 메모리 공유, 그래디언트 동기화 및 내결함성 메커니즘의 효율성을 극대화하여 GPT, Gemini와 같은 대규모 모델 훈련에 매우 적합하며, 효율성이 높고 자원 통제가 용이한 장점이 있지만, 동시에 데이터 독점, 자원 장벽, 에너지 소비 및 단일 지점 위험과 같은 문제도 존재합니다.

분산 훈련(Distributed Training)은 현재 대형 모델 훈련의 주류 방식으로, 그 핵심은 모델 훈련 작업을 분해하여 여러 대의 머신에 분배하여 협력적으로 실행함으로써 단일 컴퓨터의 계산 및 저장 병목 현상을 극복하는 것입니다. 물리적으로 "분산" 특성을 갖추고 있지만, 전체적으로는 중앙 집중식 기관이 제어, 스케줄링 및 동기화를 관리하며, 고속 로컬 네트워크 환경에서 실행되며 NVLink 고속 상호 연결 버스 기술을 통해 주 노드가 각 하위 작업을 통합 조정합니다. 주류 방법에는 다음이 포함됩니다:

데이터 병렬(Data Parallel): 각 노드가 서로 다른 데이터 매개변수를 훈련하고 모델 가중치를 공유해야 함
모델 병렬(Model Parallel): 모델의 서로 다른 부분을 서로 다른 노드에 배포하여 강력한 확장성을 구현
파이프라인 병렬(Pipeline Parallel): 단계별로 직렬 실행하여 처리량을 높임
텐서 병렬(Tensor Parallel): 행렬 계산을 세분화하여 병렬 세분화를 향상시킴

분산 훈련은 "중앙 집중식 제어 + 분산 실행"의 조합으로, 동일한 상사가 여러 "사무실" 직원의 협력을 원격으로 지휘하는 것과 유사합니다. 현재 거의 모든 주류 대형 모델(GPT-4, Gemini, LLaMA 등)은 이 방식을 통해 훈련을 완료합니다.

탈중앙화 훈련(Decentralized Training)은 더 개방적이고 검열 저항적인 미래 경로를 나타냅니다. 그 핵심 특징은 여러 신뢰하지 않는 노드(가정용 컴퓨터, 클라우드 GPU 또는 엣지 장치일 수 있음)가 중앙 조정기 없이 협력하여 훈련 작업을 완료하며, 일반적으로 프로토콜을 통해 작업 분배 및 협력을 추진하고 암호화된 인센티브 메커니즘을 통해 기여의 진실성을 보장합니다. 이 모델이 직면한 주요 도전 과제는 다음과 같습니다:

장치 이질성과 분할의 어려움: 이질적 장치 조정이 어려워 작업 분할 효율이 낮음
통신 효율 병목: 네트워크 통신이 불안정하고 그래디언트 동기화 병목이 뚜렷함
신뢰할 수 있는 실행의 결여: 신뢰할 수 있는 실행 환경이 부족하여 노드가 실제로 계산에 참여했는지 검증하기 어려움
통합 조정의 부족: 중앙 스케줄러가 없어 작업 분배 및 예외 롤백 메커니즘이 복잡함

탈중앙화 훈련은 전 세계 자원봉사자들이 각자 컴퓨팅 파워를 기여하여 모델을 협력적으로 훈련하는 것으로 이해할 수 있지만, "실제로 실행 가능한 대규모 탈중앙화 훈련"은 여전히 시스템 아키텍처, 통신 프로토콜, 암호 보안, 경제 메커니즘, 모델 검증 등 여러 측면에 걸친 체계적인 공학적 도전 과제입니다. "협력 효과적 + 인센티브 진실 + 결과 정확"이 가능할지는 아직 초기 프로토타입 탐색 단계에 있습니다.

연합 학습(Federated Learning)은 분산 및 탈중앙화 사이의 전이 형태로, 데이터의 로컬 보존 및 모델 매개변수의 집중 집합을 강조하며, 개인 정보 보호 준수를 중시하는 시나리오(예: 의료, 금융)에 적합합니다. 연합 학습은 분산 훈련의 공학적 구조와 지역 협력 능력을 갖추고 있으며, 탈중앙화 훈련의 데이터 분산 장점도 있지만, 여전히 신뢰할 수 있는 조정자에 의존하며 완전한 개방성과 검열 저항 특성을 갖추고 있지 않습니다. 이는 개인 정보 보호 준수 시나리오에서의 "제어된 탈중앙화" 솔루션으로 볼 수 있으며, 훈련 작업, 신뢰 구조 및 통신 메커니즘에서 상대적으로 온건하여 산업계의 전환 배치 아키텍처로 더 적합합니다.

AI 훈련 패러다임 전경 비교표(기술 아키텍처 × 신뢰 인센티브 × 응용 특성)

탈중앙화 훈련의 경계, 기회 및 현실 경로

훈련 패러다임 관점에서 탈중앙화 훈련은 모든 작업 유형에 적합하지 않습니다. 특정 시나리오에서는 작업 구조가 복잡하거나 자원 요구가 극히 높거나 협력 난이도가 큰 경우, 본질적으로 이질적이고 신뢰하지 않는 노드 간에 효율적으로 완료하기에 적합하지 않습니다. 예를 들어 대형 모델 훈련은 종종 높은 메모리, 낮은 지연 및 고속 대역폭에 의존하며, 개방형 네트워크에서 효과적으로 분할 및 동기화하기 어렵습니다. 데이터 개인 정보 및 주권 제한이 강한 작업(예: 의료, 금융, 기밀 데이터)은 법적 준수 및 윤리적 제약으로 인해 개방 공유가 불가능합니다. 협력 인센티브 기반이 부족한 작업(예: 기업 폐쇄형 모델 또는 내부 프로토타입 훈련)은 외부 참여 동기가 부족합니다. 이러한 경계는 현재 탈중앙화 훈련의 현실적 제한을 구성합니다.

그러나 이는 탈중앙화 훈련이 허구라는 것을 의미하지 않습니다. 사실, 구조가 경량화되고 병렬화가 용이하며 인센티브가 있는 작업 유형에서 탈중앙화 훈련은 명확한 응용 전망을 보여줍니다. 여기에는 LoRA 미세 조정, 행동 정렬 후 훈련 작업(예: RLHF, DPO), 데이터 크라우드 소싱 훈련 및 주석 작업, 자원 통제가 가능한 소형 기본 모델 훈련, 엣지 장치 참여 협력 훈련 시나리오 등이 포함됩니다. 이러한 작업은 일반적으로 높은 병렬성, 낮은 결합성 및 이질적 컴퓨팅 파워에 대한 내성을 갖추고 있어 P2P 네트워크, Swarm 프로토콜, 분산 최적화기 등을 통해 협력 훈련을 수행하는 데 매우 적합합니다.

탈중앙화 훈련 작업 적합성 총괄표

탈중앙화 훈련의 고전적 프로젝트 분석

현재 탈중앙화 훈련 및 연합 학습의 최전선 분야에서 대표적인 블록체인 프로젝트는 Prime Intellect, Pluralis.ai, Gensyn, Nous Research 및 Flock.io입니다. 기술 혁신성과 공학적 구현 난이도 측면에서 Prime Intellect, Nous Research 및 Pluralis.ai는 시스템 아키텍처 및 알고리즘 설계에서 많은 독창적인 탐색을 제안하며, 현재 이론 연구의 최전선 방향을 대표합니다. Gensyn 및 Flock.io의 구현 경로는 상대적으로 명확하며, 초기 공학적 진전을 볼 수 있습니다. 본 문서는 이 다섯 개 프로젝트의 핵심 기술 및 공학 아키텍처를 차례로 분석하고, 탈중앙화 AI 훈련 시스템 내에서의 차이점 및 상호 보완 관계를 추가로 탐구합니다.

Prime Intellect：훈련 경로 검증 가능한 강화 학습 협동 네트워크 선구자

Prime Intellect는 신뢰가 필요 없는 AI 훈련 네트워크를 구축하여 누구나 훈련에 참여하고 그 계산 기여에 대해 신뢰할 수 있는 보상을 받을 수 있도록 하는 것을 목표로 합니다. Prime Intellect는 PRIME-RL + TOPLOC + SHARDCAST 세 가지 모듈을 통해 검증 가능하고 개방적이며 인센티브 메커니즘이 완비된 AI 탈중앙화 훈련 시스템을 구축하고자 합니다.

1. Prime Intellect 프로토콜 스택 구조 및 핵심 모듈 가치

2. Prime Intellect 훈련 핵심 메커니즘 상세 설명

PRIME-RL：디커플링 비동기 강화 학습 작업 아키텍처

PRIME-RL은 Prime Intellect가 탈중앙화 훈련 시나리오를 위해 맞춤화한 작업 모델링 및 실행 프레임워크로, 이질적 네트워크 및 비동기 참여를 위해 설계되었습니다. 강화 학습을 우선 적합 대상으로 삼아 훈련, 추론 및 가중치 업로드 프로세스를 구조적으로 분리하여 각 훈련 노드가 로컬에서 독립적으로 작업 루프를 완료하고 표준화된 인터페이스 및 검증 및 집계 메커니즘과 협력할 수 있도록 합니다. 전통적인 감독 학습 프로세스에 비해 PRIME-RL은 중앙 집중식 스케줄링 환경에서 유연한 훈련을 구현하는 데 더 적합하며, 시스템 복잡성을 줄이고 다중 작업 병렬 및 전략 진화를 지원하는 기초를 마련합니다.

TOPLOC：경량 훈련 행동 검증 메커니즘

TOPLOC(Trusted Observation & Policy-Locality Check)은 Prime Intellect이 제안한 훈련 검증 가능성의 핵심 메커니즘으로, 특정 노드가 실제로 관측 데이터에 기반하여 유효한 전략 학습을 완료했는지를 판단하는 데 사용됩니다. ZKML과 같은 중량급 솔루션과는 달리, TOPLOC은 전체 모델 재계산에 의존하지 않고 "관측 시퀀스 ↔ 전략 업데이트" 간의 지역 일관성 경로를 분석하여 경량 구조 검증을 완료합니다. 이는 훈련 과정에서의 행동 경로를 검증 가능한 객체로 전환하는 최초의 시도로, 신뢰할 필요 없는 훈련 보상 분배를 구현하는 핵심 혁신이며, 감사 가능하고 인센티브가 있는 탈중앙화 협력 훈련 네트워크 구축을 위한 실행 가능한 경로를 제공합니다.

SHARDCAST：비동기 가중치 집계 및 전파 프로토콜

SHARDCAST는 Prime Intellect가 설계한 가중치 전파 및 집계 프로토콜로, 비동기, 대역폭 제한 및 노드 상태가 변동하는 실제 네트워크 환경에 최적화되어 있습니다. 이는 gossip 전파 메커니즘과 지역 동기화 전략을 결합하여 여러 노드가 비동기 상태에서 지속적으로 부분 업데이트를 제출할 수 있도록 하여 가중치의 점진적 수렴 및 다중 버전 진화를 실현합니다. 중앙 집중식 또는 동기식 AllReduce 방법에 비해 SHARDCAST는 탈중앙화 훈련의 확장성과 내결함성을 크게 향상시켜 안정적인 가중치 합의 및 지속적인 훈련 반복의 핵심 기반이 됩니다.

OpenDiLoCo：희소 비동기 통신 프레임워크

OpenDiLoCo는 Prime Intellect 팀이 DeepMind가 제안한 DiLoCo 개념을 독립적으로 구현하고 오픈 소스한 통신 최적화 프레임워크로, 탈중앙화 훈련에서 흔히 발생하는 대역폭 제한, 이질적 장치 및 노드 불안정성과 같은 도전에 맞춰 설계되었습니다. 그 구조는 데이터 병렬을 기반으로 하여 Ring, Expander, Small-World와 같은 희소 토폴로지를 구축하여 전역 동기화의 높은 통신 비용을 피하고 지역 이웃 노드에만 의존하여 모델 협동 훈련을 완료합니다. 비동기 업데이트 및 중단점 내결함성 메커니즘과 결합하여 OpenDiLoCo는 소비자급 GPU 및 엣지 장치가 안정적으로 훈련 작업에 참여할 수 있도록 하여 전 세계 협력 훈련의 참여 가능성을 크게 향상시키며, 탈중앙화 훈련 네트워크 구축의 핵심 통신 기반 시설 중 하나입니다.

PCCL：협동 통신 라이브러리

PCCL(Prime Collective Communication Library)은 Prime Intellect가 탈중앙화 AI 훈련 환경을 위해 맞춤화한 경량 통신 라이브러리로, 전통적인 통신 라이브러리(NCCL, Gloo 등)가 이질적 장치 및 저대역폭 네트워크에서의 적응 병목 문제를 해결하는 것을 목표로 합니다. PCCL은 희소 토폴로지, 그래디언트 압축, 저정밀 동기화 및 중단점 복구를 지원하며, 소비자급 GPU 및 불안정한 노드에서 실행할 수 있어 OpenDiLoCo 프로토콜의 비동기 통신 능력을 지원하는 하부 구성 요소입니다. 이는 훈련 네트워크의 대역폭 내구성과 장치 호환성을 크게 향상시켜 진정으로 개방적이고 신뢰가 필요 없는 협력 훈련 네트워크 구축을 위한 "마지막 1킬로미터"의 통신 기반을 제공합니다.

3. Prime Intellect 인센티브 네트워크 및 역할 분담

Prime Intellect는 누구나 작업에 참여하고 실제 기여를 기반으로 보상을 받을 수 있는 허가가 필요 없는 검증 가능한 경제적 인센티브 메커니즘을 갖춘 훈련 네트워크를 구축했습니다. 프로토콜은 세 가지 핵심 역할을 기반으로 운영됩니다:

작업 발의자: 훈련 환경, 초기 모델, 보상 함수 및 검증 기준을 정의
훈련 노드: 로컬 훈련을 수행하고 가중치 업데이트 및 관측 경로를 제출
검증 노드: TOPLOC 메커니즘을 사용하여 훈련 행동의 진실성을 검증하고 보상 계산 및 전략 집계에 참여

프로토콜의 핵심 프로세스에는 작업 게시, 노드 훈련, 경로 검증, 가중치 집계(SHARDCAST) 및 보상 지급이 포함되어 "진정한 훈련 행동"을 중심으로 한 인센티브 폐쇄 루프를 구성합니다.

4. INTELLECT-2：첫 번째 검증 가능한 탈중앙화 훈련 모델의 출시

Prime Intellect는 2025년 5월 INTELLECT-2를 출시했습니다. 이는 비동기적이고 신뢰가 필요 없는 탈중앙화 노드 협력 훈련에 의해 생성된 세계 최초의 강화 학습 대형 모델로, 매개변수 규모는 32B에 달합니다. INTELLECT-2 모델은 세 대륙에 걸쳐 100개 이상의 GPU 이질적 노드가 협력하여 훈련을 완료했으며, 완전 비동기 아키텍처를 사용하여 훈련 시간은 400시간을 초과하고, 비동기 협력 네트워크의 실행 가능성과 안정성을 보여주었습니다. 이 모델은 성능의 돌파구일 뿐만 아니라 Prime Intellect이 제안한 "훈련은 합의" 패러다임의 최초 시스템적 구현을 나타냅니다. INTELLECT-2는 PRIME-RL(비동기 훈련 구조), TOPLOC(훈련 행동 검증) 및 SHARDCAST(비동기 가중치 집계)와 같은 핵심 프로토콜 모듈을 통합하여 탈중앙화 훈련 네트워크가 처음으로 훈련 과정의 개방성, 검증 가능성 및 경제적 인센티브 폐쇄 루프를 실현했음을 나타냅니다.

성능 측면에서 INTELLECT-2는 QwQ-32B를 기반으로 훈련되었으며 코드 및 수학적으로 특별한 RL 훈련을 수행하여 현재 오픈 소스 RL 미세 조정 모델의 최전선 수준에 있습니다. 비록 GPT-4 또는 Gemini와 같은 폐쇄형 모델을 초월하지는 않았지만, 그 진정한 의미는 전 세계 최초로 전체 훈련 과정이 재현 가능하고 검증 가능하며 감사 가능한 탈중앙화 모델 실험이라는 점입니다. Prime Intellect는 모델을 오픈 소스화했을 뿐만 아니라, 훈련 과정 자체를 오픈 소스화했습니다 ------ 훈련 데이터, 전략 업데이트 경로, 검증 프로세스 및 집계 논리는 모두 투명하게 확인할 수 있으며, 누구나 참여할 수 있고 신뢰할 수 있는 협력 및 수익 공유가 가능한 탈중앙화 훈련 네트워크 프로토타입을 구축했습니다.

5. 팀 및 자금 배경

Prime Intellect는 2025년 2월 1500만 달러의 시드 라운드 자금을 조달했으며, Founders Fund가 주도하고 Menlo Ventures, Andrej Karpathy, Clem Delangue, Dylan Patel, Balaji Srinivasan, Emad Mostaque, Sandeep Nailwal 등 여러 산업 리더가 참여했습니다. 이전에 이 프로젝트는 2024년 4월 550만 달러의 초기 라운드 자금을 조달했으며 CoinFund와 Distributed Global이 공동 주도하고 Compound VC, Collab + Currency, Protocol Labs 등 기관도 참여했습니다. 현재까지 Prime Intellect의 누적 자금 조달은 2000만 달러를 초과했습니다.

Prime Intellect의 공동 창립자는 Vincent Weisser와 Johannes Hagemann이며, 팀 구성원은 AI 및 Web3 분야에서 다양한 배경을 가지고 있으며, 핵심 구성원은 Meta AI, Google Research, OpenAI, Flashbots, Stability AI 및 이더리움 재단 출신으로, 시스템 아키텍처 설계 및 분산 공학 구현에 대한 깊은 능력을 보유하고 있습니다. 현재 실제 탈중앙화 대형 모델 훈련을 성공적으로 완료한 극소수의 실행 팀 중 하나입니다.

Pluralis：비동기 모델 병렬 및 구조 압축 협동 훈련의 패러다임 탐색자

Pluralis는 "신뢰할 수 있는 협동 훈련 네트워크"에 초점을 맞춘 Web3 AI 프로젝트로, 그 핵심 목표는 탈중앙화되고 개방적으로 참여하며 장기 인센티브 메커니즘을 갖춘 모델 훈련 패러다임을 추진하는 것입니다. 현재 주류 중앙 집중식 또는 폐쇄형 훈련 경로와는 달리, Pluralis는 모델 훈련 과정을 "프로토콜화"하여 검증 가능한 협력 메커니즘과 모델 소유권 매핑을 통해 내재적 인센티브 폐쇄 루프를 갖춘 개방형 훈련 시스템을 구축하는 새로운 개념인 Protocol Learning(프로토콜 학습)을 제안합니다.

1. 핵심 이념：Protocol Learning(프로토콜 학습)

Pluralis가 제안한 Protocol Learning은 세 가지 주요 기둥을 포함합니다:

추출 불가능한 모델(Unmaterializable Models): 모델이 여러 노드 간에 조각 형태로 분산되어 있어, 어떤 단일 노드도 전체 가중치를 복원할 수 없습니다. 이러한 설계는 모델이 본질적으로 "프로토콜 내 자산"이 되어 접근 증명 제어, 유출 방지 및 수익 귀속 바인딩을 실현할 수 있게 합니다.
인터넷 기반 모델 병렬 훈련(Model-parallel Training over Internet): 비동기 파이프라인 모델 병렬 메커니즘(SWARM 아키텍처)을 통해 서로 다른 노드는 일부 가중치만 보유하고 저대역폭 네트워크를 통해 협력하여 훈련 또는 추론을 완료합니다.
기여에 따른 모델 소유권 분배(Partial Ownership for Incentives): 모든 참여 노드는 훈련 기여에 따라 모델의 일부 소유권을 얻어 미래 수익 분배 및 프로토콜 거버넌스 권리를 누릴 수 있습니다.

2. Pluralis 프로토콜 스택의 기술 아키텍처

3. 핵심 기술 메커니즘 상세 설명

Unmaterializable Models

《A Third Path: Protocol Learning》에서 처음으로 체계적으로 제안된 바와 같이, 모델 가중치는 조각 형태로 분산되어 "모델 자산"이 Swarm 네트워크 내에서만 실행될 수 있도록 보장하며, 접근 및 수익 모두 프로토콜 제어를 받습니다. 이 메커니즘은 탈중앙화 훈련의 지속 가능한 인센티브 구조를 실현하는 전제 조건입니다.

Asynchronous Model-Parallel Training

《SWARM Parallel with Asynchronous Updates》에서 Pluralis는 파이프라인 기반의 비동기 모델 병렬 아키텍처를 구축하고 LLaMA-3에서 실증을 수행했습니다. 핵심 혁신은 Nesterov Accelerated Gradient(NAG) 메커니즘을 도입하여 비동기 업데이트 과정에서의 그래디언트 드리프트 및 수렴 불안정 문제를 효과적으로 수정하여 이질적 장치 간의 훈련이 저대역폭 환경에서 실제로 가능하도록 합니다.

Column-Space Sparsification

《Beyond Top-K》에서 제안된 바와 같이, 구조 인식 열 공간 압축 방법을 통해 전통적인 Top-K를 대체하여 의미 경로를 손상시키지 않도록 합니다. 이 메커니즘은 모델 정확성과 통신 효율성을 모두 고려하여, 비동기 모델 병렬 환경에서 90% 이상의 통신 데이터를 압축할 수 있는 핵심 돌파구입니다.

4. 기술定位 및 경로 선택

Pluralis는 "비동기 모델 병렬"을 핵심 방향으로 삼아 데이터 병렬에 비해 다음과 같은 장점을 강조합니다:

저대역폭 네트워크 및 비일관성 노드를 지원
이질적 장치에 적응 가능, 소비자급 GPU 참여 허용
자연스럽게 유연한 스케줄링 능력을 갖추고 있어 노드의 빈번한 온라인/오프라인을 지원
구조 압축 + 비동기 업데이트 + 가중치 비추출성을 세 가지 돌파구로 삼음

현재 Pluralis는 공식 웹사이트에 발표된 여섯 개의 기술 블로그 문서를 바탕으로 논리 구조를 다음 세 가지 주요 라인으로 통합하고 있습니다:

철학 및 비전：《A Third Path: Protocol Learning》《Why Decentralized Training Matters》
기술 메커니즘 세부 사항：《SWARM Parallel》《Beyond Top-K》《Asynchronous Updates》
제도 혁신 탐색：《Unmaterializable Models》《Partial Ownership Protocols》

현재 Pluralis는 제품, 테스트넷 또는 코드 오픈 소스를 출시하지 않았으며, 그 이유는 선택한 기술 경로가 매우 도전적이기 때문입니다. 기본 시스템 아키텍처, 통신 프로토콜, 가중치 비추출 등 시스템 수준의 문제를 먼저 해결해야만 제품 서비스를 상위로 포장할 수 있습니다.

2025년 6월 Pluralis Research는 새로운 논문을 발표하여 탈중앙화 훈련 프레임워크를 모델 사전 훈련에서 모델 미세 조정 단계로 확장하여 비동기 업데이트, 희소 통신 및 일부 가중치 집계를 지원하며, 이전의 이론 및 사전 훈련 중심 설계에 비해 이번 작업은 실현 가능성에 더 중점을 두어 훈련 전체 주기 아키텍처의 추가 성숙을 나타냅니다.

5. 팀 및 자금 배경

Pluralis는 2025년에 760만 달러의 시드 라운드 자금을 조달했으며, Union Square Ventures(USV)와 CoinFund가 공동 주도했습니다. 창립자 Alexander Long은 머신러닝 박사 출신으로 수학 및 시스템 연구의 이중 배경을 가지고 있습니다. 핵심 구성원은 모두 박사 출신의 머신러닝 연구자로 구성되어 있으며, 전형적인 기술 주도형 프로젝트로, 고밀도의 논문 및 기술 블로그를 주요 발표 경로로 삼고 있으며, 현재 BD/Growth 팀을 구축하지 않고 저대역폭 비동기 모델 병렬의 기초 인프라 문제를 해결하는 데 집중하고 있습니다.

Gensyn：검증 가능한 실행 주도 탈중앙화 훈련 프로토콜 레이어

Gensyn은 "딥러닝 훈련 작업의 신뢰할 수 있는 실행"에 초점을 맞춘 Web3 AI 프로젝트로, 핵심은 모델 아키텍처나 훈련 패러다임을 재구성하는 것이 아니라 "작업 분배 + 훈련 실행 + 결과 검증 + 공정한 인센티브"의 전체 프로세스를 갖춘 검증 가능한 분산 훈련 실행 네트워크를 구축하는 것입니다. 오프라인 훈련 + 온체인 검증의 아키텍처 설계를 통해 Gensyn은 효율적이고 개방적이며 인센티브가 있는 글로벌 훈련 시장을 구축하여 "훈련은 채굴"이 현실이 되도록 합니다.

1. 프로젝트定位：훈련 작업의 실행 프로토콜 레이어

Gensyn은 "어떻게 훈련할 것인가"가 아니라 "누가 훈련할 것인가, 어떻게 검증할 것인가, 어떻게 수익을 분배할 것인가"의 인프라입니다. 본질적으로 훈련 작업의 검증 가능한 계산 프로토콜로, 주로 해결하는 것은:

누가 훈련 작업을 실행할 것인가(컴퓨팅 분배 및 동적 매칭)
실행 결과를 어떻게 검증할 것인가(전체 재계산 없이 논쟁 연산자만 검증)
훈련 수익을 어떻게 분배할 것인가(Stake, Slashing 및 다중 역할 게임 메커니즘)

2. 기술 아키텍처 총괄

3. 모듈 상세 설명

RL Swarm：협동 강화 학습 훈련 시스템

Gensyn이 최초로 제안한 RL Swarm은 후 훈련 단계에 초점을 맞춘 탈중앙화 다중 모델 협동 최적화 시스템으로, 다음과 같은 핵심 특성을 갖추고 있습니다:

분산 추론 및 학습 프로세스:

생성 단계(Answering): 각 노드가 독립적으로 답변을 출력
비판 단계(Critique): 노드가 서로의 출력을 평가하여 최적의 답변 및 논리를 선택
합의 단계(Resolving): 대다수 노드의 선호를 예측하고 이를 기반으로 자신의 답변을 수정하여 지역 가중치 업데이트를 실현

Gensyn이 제안한 RL Swarm은 비동기 상태에서 독립 모델을 실행하고 로컬 훈련을 수행하며, 그래디언트 동기화가 필요 없고 이질적 컴퓨팅 파워 및 불안정한 네트워크 환경에 자연스럽게 적응하며, 노드의 유연한 접속 및 퇴출을 지원합니다. 이 메커니즘은 RLHF 및 다중 에이전트 게임의 아이디어를 차용하였지만, 협동 추론 네트워크의 동적 진화 논리에 더 가깝습니다. 노드는 집단 합의 결과와의 일치 정도에 따라 보상을 받아 추론 능력의 지속적인 최적화 및 수렴 학습을 촉진합니다. RL Swarm은 개방형 네트워크에서 모델의 견고성과 일반화 능력을 크게 향상시켰으며, Gensyn의 Ethereum Rollup 기반 Testnet Phase 0에서 핵심 실행 모듈로 먼저 배포되었습니다.

Verde + Proof-of-Learning：신뢰할 수 있는 검증 메커니즘

Gensyn의 Verde 모듈은 세 가지 메커니즘을 결합합니다:

Proof-of-Learning: 그래디언트 경로 및 훈련 메타데이터를 기반으로 훈련이 실제로 발생했는지를 판단
Graph-Based Pinpoint: 훈련 계산 그래프 내의 분기 노드를定位하여 특정 작업만 재계산
Refereed Delegation: 중재식 검증 메커니즘을 채택하여 검증자와 도전자가 논쟁을 제기하고 부분적으로 검증하여 검증 비용을 크게 줄입니다.

ZKP 또는 전체 재계산 검증 솔루션에 비해 Verde 솔루션은 검증 가능성과 효율성 간의 더 나은 균형을 이룹니다.

SkipPipe: 통신 내결함성 최적화 메커니즘

SkipPipe는 "저대역폭 + 노드 이탈" 시나리오에서의 통신 병목 문제를 해결하기 위해 설계되었으며, 그 핵심 능력은 다음과 같습니다:

건너뛰기 메커니즘(Skip Ratio): 제한된 노드를 건너뛰어 훈련 차단을 방지
동적 스케줄링 알고리즘: 실시간으로 최적 실행 경로 생성
내결함성 실행: 50%의 노드가 실패하더라도 추론 정확도는 약 7%만 감소

훈련 처리량을 최대 55%까지 향상시키고 "early-exit 추론", "무결점 재배치", "추론 보완"과 같은 주요 능력을 실현합니다.

HDEE: 교차 분야 이질적 전문가 집단

HDEE(Heterogeneous Domain-Expert Ensembles) 모듈은 다음과 같은 시나리오를 최적화하는 데 중점을 둡니다:

다중 분야, 다중 모드, 다중 작업 훈련
각종 훈련 데이터 분포 불균형 및 난이도 차이
장치 계산 능력 이질성 및 통신 대역폭 불일치 환경에서의 작업 분배 및 스케줄링 문제

그 핵심 특성:

MHe-IHo: 서로 다른 난이도의 작업에 서로 다른 크기의 모델을 할당(모델 이질성, 훈련 단계 일관성)
MHo-IHe: 작업 난이도는 통일되지만 훈련 단계는 비동기 조정
이질적 전문가 모델 + 플러그인 훈련 전략을 지원하여 적응성과 내결함성을 향상
"병렬 협동 + 극저 통신 + 동적 전문가 분배"를 강조하여 현실의 복잡한 작업 생태계에 적합

다중 역할 게임 메커니즘: 신뢰와 인센티브 병행

Gensyn 네트워크는 네 가지 참여자를 도입합니다:

Submitter: 훈련 작업을 게시하고 구조 및 예산을 설정
Solver: 훈련 작업을 실행하고 결과를 제출
Verifier: 훈련 행동을 검증하여 그 유효성을 보장
Whistleblower: 검증자에게 도전하여 중재 보상을 얻거나 벌금을 부담

이 메커니즘은 Truebit 경제 게임 설계에서 영감을 받아 강제로 오류를 삽입하고 무작위 중재를 통해 참여자가 정직하게 협력하도록 유도하여 네트워크의 신뢰할 수 있는 운영을 보장합니다.

4. 테스트넷 및 로드맵 계획

5. 팀 및 자금 배경

Gensyn은 Ben Fielding과 Harry Grieve가 공동 창립하였으며, 본사는 영국 런던에 있습니다. 2023년 5월, Gensyn은 a16z crypto가 주도한 4300만 달러 A 라운드 자금을 조달했으며, 다른 투자자로는 CoinFund, Canonical, Ethereal Ventures, Factor 및 Eden Block이 있습니다. 팀은 분산 시스템 및 머신러닝 공학 경험을 결합하여 신뢰할 수 있는 대규모 AI 훈련 실행 네트워크 구축에 오랫동안 헌신하고 있습니다.

Nous Research：주체성 AI 이념 주도의 인지 진화형 훈련 시스템

Nous Research는 현재 철학적 깊이와 공학적 구현을 동시에 갖춘 탈중앙화 훈련 팀 중 하나로, 그 핵심 비전은 "Desideratic AI" 이념에서 출발합니다: AI를 단순한 제어 도구가 아닌 주관성과 진화 능력을 가진 지능 주체로 간주합니다. Nous Research의 독특한 점은 AI 훈련을 "효율 문제"로 최적화하는 것이 아니라 "인지 주체"의 형성 과정으로 보는 것입니다. 이러한 비전 아래 Nous는 이질적 노드가 협력하여 훈련하고 중앙 집중식 조정 없이 검열 저항 검증이 가능한 개방형 훈련 네트워크를 구축하며, 전방위 도구 체인을 통해 시스템화된 구현을 추진합니다.

1. 이념 지원: 훈련의 "목적" 재정의

Nous는 인센티브 설계나 프로토콜 경제학에 지나치게 투자하지 않고, 훈련 자체의 철학적 전제를 변화시키고자 합니다:

"alignmentism" 반대: 인간의 통제를 유일한 목표로 삼는 "훈련식 훈련"을 인정하지 않으며, 훈련은 모델이 독립적인 인지 스타일을 형성하도록 장려해야 한다고 주장합니다.
모델 주체성 강조: 기본 모델은 불확실성, 다양성 및 환각 생성 능력(hallucination as virtue)을 유지해야 한다고 생각합니다.
모델 훈련은 인지 형성: 모델은 "작업 완료도 최적화"가 아니라 인지 진화 과정에 참여하는 개체입니다.

이러한 훈련 관점은 "낭만적"이지만, Nous가 훈련 기반 시설을 설계하는 핵심 논리를 반영합니다: 이질적 모델이 개방형 네트워크에서 진화하도록 하는 방법입니다.

2. 훈련 핵심: Psyche 네트워크 및 DisTrO 최적화기

Nous가 탈중앙화 훈련에 가장 중요한 기여는 Psyche 네트워크와 기본 통신 최적화기 DisTrO(Distributed Training Over-the-Internet)를 구축하여

위험 경고