리페이페이의 최신 장문: 비디오 생성, 로봇 및 NVIDIA가 세계 모델이라고 자칭할 때, 우리는 분류법이 필요하다

핵심 관점

추천 읽기

2026-07-05 17:10:21

수집

언어는 기계가 이 세상에 대해 이야기할 수 있는 방법을 제공합니다. 세계 모델은 기계가 궁극적으로 이해하고, 상상하고, 추론하며 상호작용할 수 있는 경로입니다.

저자：리페이페이

편집：가양

"세계 모델"은 아마도 2025년 이후 AI 분야에서 가장 뜨겁고 혼란스러운 개념일 것입니다. Sora가 나왔을 때, OpenAI는 이를 세계 시뮬레이터라고 불렀고; Genie는 생성된 화면 속에서 돌아다닐 수 있게 해주며, 역시 세계 모델이라고 불렸습니다; 로봇 회사들은 자신들이 세계 모델을 만들고 있다고 주장하며, NVIDIA는 Omniverse가 세계 모델의 기반 시설이라고 말합니다. 게임 엔진조차 이 서사에 끌려들어갔습니다. 모두가 같은 단어를 사용하지만, 각자가 말하는 것은 전혀 다른 것입니다.

오늘, 리페이페이는 개인 Substack에 이 개념을 명확히 하는 새로운 글을 발표했습니다. 그녀는 먼저 강화 학습 교과서에서 가장 고전적인 그림(POMDP 폐쇄 루프: 에이전트→행동→상태→관측→에이전트)으로 돌아가, 현재 "세계 모델"이라고 불리는 것이 사실은 이 폐쇄 루프의 세 가지 다른 투영이라고 지적했습니다. 픽셀(관측)을 출력하는 것은 렌더러이고, 상태를 출력하는 것은 시뮬레이터이며, 행동을 출력하는 것은 플래너입니다. 분류 기준은 매우 간단하며, 당신이 출력하는 것이 폐쇄 루프의 어떤 부분인지에 따라 달라집니다.

(출처：《매사추세츠 공과대학교 기술 리뷰》)

그녀는 세 가지 중에서 렌더러가 상업화에서 가장 성숙하지만 한계가 있다고 판단했습니다(아름답다고 해서 물리적으로 정확하다는 것은 아닙니다), 플래너는 가장 흥미롭지만 실제 배치와는 가장 멀리 떨어져 있으며(실험실 시연과 실제 사용 가능성 사이의 간극은 여전히 큽니다), 시뮬레이터는 심각하게 과소평가된 핵심 허브라고 말했습니다. 시뮬레이터는 기하학, 물리학 및 역학의 수준에서 작동하여, 위로는 인간이 소비할 픽셀로 투사할 수 있고, 아래로는 로봇이 사용할 행동 결과를 도출할 수 있습니다. 시뮬레이션을 마스터하면 렌더링과 플래닝의 기초를 동시에 갖추게 됩니다; 반대로는 불가능합니다.

이 글은 물론 World Labs의 제품 선언이기도 합니다. 그들의 Marble은 이미 가우시안 스플래시와 충돌 메시지를 동시에 출력하며, 렌더러와 시뮬레이터를 하나의 모델로 통합하려고 시도하고 있습니다. 글의 끝부분에서 묘사된 궁극적인 목표는 하위 요구에 따라 렌더링, 시뮬레이션 및 플래닝 사이를 자유롭게 전환할 수 있는 통합된 세계 기본 모델입니다. 이 비전이 실현될 수 있을지는 두고 볼 일이지만, 분석 프레임워크로서 렌더러/시뮬레이터/플래너의 삼분법은 현재 "세계 모델" 개념의 일부 잡음을 뚫는 데 도움이 될 수 있습니다.

전체 번역은 다음과 같습니다.

"세계는 모든 사건의 총합이다."------비트겐슈타인, 《논리철학논고》, 1921

세계는 문자로 구성되어 있지 않다.

이전의 한 글에서 우리는 공간 지능이 AI의 다음 전선이며, 세계 모델이 그 길이라는 것을 제안했습니다. 여기서 World Labs 팀과 저는 한 단계 더 깊이 들어가고자 합니다: 현재 "세계 모델"이라는 이름이 붙은 수많은 것들 중, 어떤 기능 모듈이 실제로 이러한 능력을 구성하고 있는가? 그들의 각기 용도는 무엇인가?

언어 모델은 기계에 개념, 어휘 및 추론에 대한 강력한 통제력을 부여하지만, 물리적 세계는 가상 세계든 실제 세계든 완전히 다른 기반 위에서 작동합니다. 언어 모델은 텍스트의 통계적 구조를 학습하고, 세계 모델은 공간과 시간의 통계적 구조를 학습합니다: 빛이 어떻게 표면에 떨어지는지, 한 정원이 카메라에 포착되지 않은 각도에서 어떻게 보이는지, 물체가 힘에 어떻게 반응하고 물리 법칙을 따르는지.

이로 인해 "세계 모델"은 현재 AI 분야에서 가장 중요하면서도 가장 남용되는 용어 중 하나가 되었습니다. 컴퓨터 비전, 로봇 공학, 강화 학습 및 생성적 AI는 모두 자신들이 세계 모델을 구축하고 있다고 주장하지만, 각자가 지칭하는 것은 전혀 다른 것입니다. 화려하지만 물리적으로 불가능한 불꽃을 생성하는 비디오 모델, 즉흥적으로 플레이 가능한 게임을 생성하는 언어 모델, 연소 과정을 충실히 시뮬레이션하는 물리 엔진 등이 모두 같은 이름으로 불리고 있습니다.

고대 그리스인들은 세계가 무엇으로 구성되어 있는지에 대해 합의에 도달할 수 없었습니다. 불, 물, 또는 불가분의 원자 등, "세계"는 결코 단일한 것이 아니기 때문입니다. 그것은 항상 어떤 사상가가 특정 총체성을 추론하기 위해 사용하는 대체어였습니다. AI는 같은 문제를 물려받았고, 마침내 이 분야에서 가장 정확성이 필요한 순간에 발생했습니다.

분류법 뒤의 폐쇄 루프

이 혼란을 명확히 하려면, 위의 모든 기술보다 더 오래된 그림에서 시작할 수 있습니다. 모든 강화 학습 교과서, 고전적인 Sutton과 Barto를 포함하여, 수십 년 동안 동일한 그림의 변형을 사용하여 에이전트가 세계와 어떻게 상호작용하는지를 설명해왔습니다. 이 그림의 공식 이름은 부분적으로 관측 가능한 마르코프 결정 과정(POMDP)이며, "세계 모델"이라는 용어의 초기 정의는 이 전통에 속합니다.

하나의 에이전트(사람, 로봇 또는 소프트웨어 시스템일 수 있음)가 행동을 수행합니다. 이 행동은 세계의 상태를 변화시킵니다. 그러나 에이전트는 상태 자체를 직접 볼 수 없으며, 그가 받는 것은 관측입니다: 망막에 떨어지는 광자, 센서의 읽기, 비디오 프레임의 픽셀. 새로운 관측은 새로운 행동을 유도하며, 이 과정은 반복됩니다.

"상태"라는 단어는 분해하여 볼 필요가 있습니다. 왜냐하면 다양한 분야에서 그 의미가 달라질 수 있기 때문입니다. 여기서 말하는 것은 화학자의 상태가 아니라, 고체, 액체 및 기체의 구분이 아닙니다. 여기서는 물리학자와 로봇 공학자의 상태입니다: 특정 시점에서 세계에서 발생하는 모든 것에 대한 완전한 설명으로, 각 물체, 각 위치, 각 속도, 각 속성을 포함합니다. 상태는 세계의 기본 현실이며, 원칙적으로 완전하지만, 그 안에 있는 어떤 에이전트에게도 직접 관측될 수 없습니다. 관측은 에이전트가 이 현실에 대한 국부적 관점을 제공합니다. 행동은 에이전트가 이에 따라 취하는 반응입니다.

이 폐쇄 루프(에이전트→행동→상태→관측→에이전트)는 "세계 모델"이라는 용어에 기술적 의미를 부여하는 구조입니다. 이 구문 자체는 더 오래된 것으로, 1943년 Kenneth Craik이 제안한 것으로 거슬러 올라갑니다. 그는 마음이 현실의 "소규모 모델"을 실행하여 추론을 한다고 주장했으며, 1980년대 말과 1990년대 초에 이 개념이 신경망 분야에 도입되었습니다. 이 폐쇄 루프는 사람들이 오늘날 이 용어를 사용할 때의 의미를 설명합니다. 현재 세계 모델이라고 불리는 다양한 것들은 실제로 동일한 폐쇄 루프의 다른 투영이며, 각기 다른 구성 요소를 출력합니다.

세계 모델의 세 가지 기능

첫 번째 세계 모델은 렌더러입니다. 렌더러는 관측을 출력하며, 구체적으로는 인간의 눈을 위한 픽셀을 출력합니다. 가장 중요한 품질 지표는 시각적 충실도입니다. 텍스트 프롬프트를 영화 수준의 항공 촬영 장면으로 변환하는 비디오 모델은 렌더러입니다; Google의 Genie 3 또는 World Labs의 RTFM과 같은 인터랙티브 시스템도 렌더러이며, 사용자 입력에 따라 실시간으로 화면을 생성합니다. 이러한 모델은 3D 구조에 대한 명시적 이해를 갖추고 있지 않습니다. 그것이 생성하는 것은 관찰자가 볼 수 있는 화면이지, 사물 자체의 모습이 아닙니다. 항공 촬영 장면의 건물은 공중에서 보면 완벽할 수 있지만, 아래 도시에서 돌아다니려 하면 무너질 것입니다.

두 번째는 시뮬레이터입니다. 시뮬레이터는 상태를 출력합니다: 기하학적, 물리적 또는 역학적으로 충실한 세계 표현으로, 인간과 컴퓨터 프로그램이 그 위에서 계산하고 상호작용할 수 있습니다. 렌더러의 계약은 순수한 시각적 것이고, 시뮬레이터의 계약은 구조적입니다. 이는 기하학이 검증 가능해야 하며, 물리는 뉴턴의 법칙을 따라야 하고, 역학의 행동은 물리 법칙의 예측에 부합해야 합니다. 시뮬레이터는 두 종류의 사용자에게 서비스를 제공합니다. 건축가, 디자이너, 영화 제작자, 게임 개발자 등 전문가는 시각적 신뢰도를 넘어서는 정확성을 필요로 합니다. 강화 학습 에이전트, 로봇 제어기, 자율주행 차량 등 컴퓨터 프로그램은 시뮬레이터를 훈련장으로 삼아, 현실에서 위험하거나 비쌀 수 있거나 아예 실행할 수 없는 장면을 대규모로 세계와 상호작용하며 테스트합니다.

세 번째는 플래너입니다. 플래너는 행동을 출력합니다. 주어진 관측과 목표에 대해, 플래너가 답하는 질문은: 에이전트는 다음에 무엇을 해야 하는가입니다. 많은 의미에서 플래너는 렌더러의 역과정입니다. 렌더러는 행동을 입력으로 받아 관측을 출력하고, 플래너는 관측을 입력으로 받아 행동을 출력하여 인지-행동 루프를 닫습니다. 시각-언어-행동 모델(VLA), 모델 기반 시스템, 그리고 새로운 세계 행동 모델(World Action Models)은 모두 플래너의 다양한 시도입니다: 시스템이 비구조화된 세계에서 로봇이 무엇을 해야 하는지를 결정할 수 있도록 합니다.

위의 세 가지 범주는 현재 실제로 구현되고 있는 대부분의 작업을 포함하며, 이들 간의 구분은 실제로 유용합니다. 그러나 이 세 가지 범주는 근본적으로 서로 단절되어 있지 않습니다. 그들은 세계가 어떻게 작동하는지에 대한 동일한 기초 지식을 공유합니다: 기하학, 물리학, 역학. 임의의 각도에서 컵을 렌더링할 수 있는 모델은 원칙적으로 컵이 밀린 후에 어떤 일이 발생할지를 시뮬레이션하고, 컵을 집기 위해 손을 계획할 수 있어야 합니다. 점점 더 많은 흥미로운 연구가 이 세 가지 간의 경계를 의도적으로 모호하게 만들고 있습니다.

그림丨세 가지 세계 모델 (출처：Substack)

왜 시뮬레이션이 핵심 허브인가

세 가지 범주 중에서, 시뮬레이터는 대중의 관심을 가장 적게 받지만, 세 가지 중에서 가장 중요합니다. 이 글은 이러한 비대칭을 바로잡고자 합니다.

렌더러는 현재 상업화 정도가 가장 높습니다. 많은 이미지 또는 텍스트를 비디오로 변환하는 제품이 소비자 및 기업 시장에서 빠르게 확장되고 있습니다. Google의 Nano Banana 모델은 렌더러 수준의 이미지 생성 능력을 수억 명의 사용자에게 제공합니다. 기술은 실질적이며, 시장도 실질적입니다. 그러나 렌더러가 최적화하는 목표는 물리적 정확성이 아닌 시각적 신뢰도이며, 이 한계는 중요합니다. 그들의 출력은 아름답지만, 이를 사용하여 건물을 설계하거나 로봇을 훈련할 수는 없습니다.

플래너는 가장 흥미롭지만 가장 미성숙한 것으로, 빠르게 발전하는 로봇 학습 분야와 밀접하게 관련되어 있습니다. 지난 2년 동안, 이 분야는 비디오에서 인상적으로 보이는 로봇 시연을 많이 생산했지만, 우리는 이러한 시연이 실제로 무엇을 보여주는지 솔직하게 직면해야 합니다. 거의 모든 시연은 매우 제한된 실험실 환경에 국한되어 있으며, 물체 종류는 제한적이고, 작업 시간은 매우 짧습니다. 실제 세계 배치에서 요구되는 복잡성, 다양성 및 지속 시간의 검증을 견딘 것은 없습니다. 멋진 시연 비디오에서 주방, 창고 또는 수술실에서 신뢰성 있게 작동할 수 있는 로봇으로 가는 길은 여전히 큽니다.

그럼에도 불구하고, 상업적 베팅 규모는 여전히 상당합니다. 자금이 풍부한 새로운 진입자들이 일반 플래닝 시스템을 출시하기 위해 경쟁하고 있으며, 대규모 인프라 플레이어들은 더 광범위한 시뮬레이션 스택 위에 플래닝 능력을 구축하고 있습니다.

시뮬레이션은 두 가지를 연결하는 다리입니다. 언어가 세계에 대한 추상이라면, 픽셀은 세계에 대한 투영입니다. 기하학, 물리학 및 역학은 세계 자체입니다. 시뮬레이터는 이 수준에서 작동해야 합니다: 그것은 구조적 뼈대이며, 시각적 표현(렌더러 사용)과 행동 결과(플래너 사용)는 모두 여기서 도출될 수 있습니다.

시뮬레이션을 마스터한 모델은 그 이해를 인간이 소비할 픽셀로 투사할 수 있을 뿐만 아니라, 신체적 에이전트가 사용할 행동 예측으로도 투사할 수 있습니다. 그러나 렌더링만 마스터하거나 플래닝만 마스터한 모델은 두 가지 모두 할 수 없습니다. 여기의 상업적 공간은 매우 광범위합니다. NVIDIA의 Omniverse 하나만 해도, 그 목표 시장 규모는 이 회사의 추정에 따르면 1조 달러를 초과하며, 공장, 창고, 공급망 및 디지털 쌍둥이를 포함합니다. 로봇 훈련, 자율주행 테스트, 건축 시각화, 엔지니어링 디자인, 약물 발견 등은 모두 어떤 형태의 시뮬레이션에 의존합니다.

이 분야에서 가장 어려운 개방형 문제도 여기 집중되어 있습니다. 명시적 기하학, 재료 속성 및 물리적 레이블이 있는 3D 데이터는 렌더러 훈련에 사용되는 인터넷 비디오보다 몇 배나 부족합니다. sim-to-real 격차(시뮬레이션에서 물체 행동과 실제 세계에서의 행동 간의 차이)는 여전히 존재합니다. 생성적 시뮬레이터는 이 기반 위에서 새로운 위험을 도입합니다: AI가 생성한 기하학은 올바르게 보일 수 있지만, 실제로는 자기 교차 또는 잘못된 비율 문제를 포함하여 물리적 시뮬레이션에서 터무니없는 결과를 초래할 수 있습니다. 대규모 다중 물리 시뮬레이션(강체, 변형 물체, 유체, 천이 모두 동시에 상호작용)의 계산 비용은 여전히 단일 분야의 시뮬레이션보다 몇 배나 높습니다.

World Labs에서 Marble은 이 방향으로 나아가는 첫 번째 단계입니다. 그것은 다중 모달 입력(텍스트, 이미지, 비디오 또는 공간 스케치)을 받아들이고, 탐색 가능한 3D 환경을 생성하며, 동시에 시각 탐색을 위한 가우시안 스플래시와 물리 엔진 작업을 위한 충돌 메시지를 출력합니다. 그러나 Marble은 긴 곡선의 첫 번째 장일 뿐입니다. 렌더링, 시뮬레이션 및 플래닝 간의 경계가 사라지기 시작하면서, 전체 분야가 이 이야기를 쓰고 있습니다.

경계가 사라지고 있으며, 다음에 일어날 일

현재 이 분야에서 가장 중요한 추세는 세 가지 범주가 통합되기 시작하고 있다는 것입니다. 그 뒤에 있는 합의는: 세계를 렌더링하고, 시뮬레이션하며, 그 안에서 행동하는 데 필요한 지식은 대체로 동일하다는 것입니다. 앞서의 예를 따르자면, 컵이 테이블에 어떻게 놓이는지를 진정으로 이해하는 모델(그 기하학적 형태, 재료 속성, 힘에 대한 반응 등)은 임의의 각도에서 이 컵을 렌더링하고, 컵이 밀린 후에 어떤 일이 발생할지를 시뮬레이션하며, 컵을 집기 위해 손을 계획할 수 있어야 합니다. 세 가지 범주는 동일한 기초 이해의 세 가지 투영입니다.

예를 들어, 최근에는 소수지만 증가하는 작업이 다양한 로봇 실험실에서 나오고 있으며, 이들은 개념적으로 성립할 수 있는 가능성을 보여줍니다: 사전 훈련된 비디오 렌더러가 공동 세계 예측 및 행동 예측의 백본 네트워크로 작용하여 단일 모델이 동시에 "무슨 일이 일어날 것인가"와 "무엇을 해야 하는가"를 상상할 수 있도록 하여 렌더러와 플래너 간의 다리를 놓는 것입니다. World Labs의 Marble은 이미 단일 모델에서 동시에 가우시안 스플래시와 충돌 메시지를 출력할 수 있어, 렌더러와 시뮬레이터 간의 경계를 해소했습니다. 각 수준은 수동 출력에서 상호작용 시스템으로 전환되고 있습니다: 렌더러는 행동 조건에 반응할 수 있게 되고, 시뮬레이터가 생성한 세계는 더욱 제어 가능하고 편집 가능해지며, 플래너는 단순히 반응하는 것이 아니라 신중한 추론을 시작합니다.

논리적 종착점은 통합된 세계 모델입니다: 사진 수준의 사실적인 뷰를 렌더링하고, 물리적으로 정확한 구조를 생성하며, 행동 시퀀스를 계획하고, 하위 사용자의 요구에 따라 다양한 출력 모드 간에 전환할 수 있는 기본 모델입니다. 우리는 여전히 일련의 심각한 도전에 직면할 것입니다. 데이터 패턴은 극도로 불균형하며, 렌더러는 방대한 인터넷 비디오를 보유하고 있는 반면, 시뮬레이터와 플래너는 3D 자산과 로봇 시연 데이터의 심각한 부족에 직면해 있습니다. 시각적 아름다움을 최적화하는 것은 로봇이나 고충실도 시뮬레이션에 필요한 정확성을 희생할 수 있습니다. 단일 아키텍처 내에서 이러한 긴장을 조화시키는 것은 오늘날 세계 모델 연구의 핵심 개방 문제이며, World Labs가 Marble을 지속적으로 발전시키는 과정에서 해결하고자 하는 목표입니다.

(출처：Substack)

하지만 큰 방향은 이미 명확합니다. 1980년대 말부터 현재까지, 이 분야는 항상 같은 베팅을 해왔습니다: 세계 모델이 충분히 풍부하다면, 에이전트가 세계를 보고, 세계를 구성하고, 그 안에서 행동하는 데 필요한 모든 것이 그 안에 포함되어 있습니다. 이 베팅은 현재 한 세대의 연구를 이끌고 있습니다. 그리고 그것에 무게를 더하는 것은 이미 일어나고 있는 융합입니다: 렌더링, 시뮬레이션, 플래닝 세 가지 선이 각각 수십억 달러의 가치를 지닌 산업을 지탱하고 있으며, 처음에는 독립적인 연구 방향이었으나 이제 함께 모이고 있습니다. 경계가 사라지면, 세 가지가 합쳐져 더 큰 것을 재정의할 것입니다: 기계 지능과 그것이 존재하는 물리적 세계 간의 관계, 즉 공간 지능의 장기적인 방향입니다.

언어는 기계에게 이 세계에 대해 이야기할 수 있는 방법을 제공합니다. 세계 모델은 기계가 궁극적으로 이를 이해하고, 상상하고, 추론하며 상호작용할 수 있는 경로입니다.

참고 자료: 1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

Join ChainCatcher Official

Telegram Feed: @chaincatcher

X (Twitter): @ChainCatcher_

위험 경고