李飛飛の最新の長文:動画生成、ロボット、NVIDIAが世界モデルを名乗るとき、私たちは分類法を必要とする
著者:李飛飛
編訳:加洋
「世界モデル」はおそらく2025年以降、AI分野で最も熱く、最も混乱した概念です。Soraが登場したとき、OpenAIはそれを世界シミュレーターと呼びました。Genieは生成された画像の中を歩き回ることができ、これも世界モデルと呼ばれています。ロボット会社は自社が世界モデルを作っていると言い、NVIDIAはOmniverseが世界モデルの基盤であると言い、ゲームエンジンもこの物語に引き込まれました。みんな同じ言葉を使っていますが、それぞれが言っていることは全く異なります。
今日は、李飛飛が個人のSubstackに新しい記事を発表し、この概念を明確にしました。彼女はまず、強化学習の教科書にある最も古典的な図(POMDPの閉ループ:エージェント→アクション→状態→観測→エージェント)に戻り、現在「世界モデル」と呼ばれているものは、実際にはこの閉ループの三つの異なる投影であると指摘しました。出力されるピクセル(観測)はレンダラーによるもので、出力される状態はシミュレーターによるもので、出力されるアクションはプランナーによるものです。分類基準は非常にシンプルで、あなたが出力しているのは閉ループのどの部分かによります。
(出典:《マサチューセッツ工科大学技術レビュー》)
彼女は、三者の中で、レンダラーが商業化で最も成熟しているが天井がある(美しさは物理的正確性と等しくない)、プランナーが最も興奮を呼ぶが実際の展開から最も遠い(実験室のデモと実際に使用可能なものとの間のギャップは依然として巨大)、そしてシミュレーターが深刻に過小評価されている重要なハブであると判断しています。シミュレーターは幾何学、物理学、動力学のレベルで機能し、人間が消費するためのピクセルに上方投影することも、ロボットが使用するためのアクションの結果を下方推導することもできます。シミュレーションを掌握すれば、レンダリングとプランニングの基盤も同時に手に入れることができますが、逆は不可能です。
この記事はもちろんWorld Labsの製品宣言でもあります。彼らのMarbleはすでにガウススプラットと衝突メッシュを同時に出力し、レンダラーとシミュレーターを一つのモデルに統合しようとしています。記事の最後に描かれている終局は、下流の需要に応じてレンダリング、シミュレーション、プランニングの間を自由に切り替えられる統一された世界基盤モデルです。このビジョンが実現できるかどうかは別として、分析フレームワークとしてレンダラー/シミュレーター/プランナーの三分法は、現在の「世界モデル」概念の一部のノイズを透過するのに役立つかもしれません。
全文は以下の通りです。
「世界はすべての出来事の総和である。」------ウィトゲンシュタイン、『論理哲学論考』、1921
世界は文字で構成されているわけではありません。
以前の記事で、私たちは空間知能がAIの次のフロンティアであり、世界モデルがそれへの道であると提案しました。ここで、World Labsチームと私はさらに深く掘り下げたいと思います:現在「世界モデル」と名付けられている多くの事物の中で、どの機能モジュールが本当にこの能力を構成しているのでしょうか?それぞれの用途は何でしょうか?
言語モデルは機械に概念、語彙、推論に対する強力な制御を与えますが、物理的な世界は、仮想であれ現実であれ、全く異なる基盤の上で動作しています。言語モデルが学ぶのはテキストの統計構造であり、世界モデルが学ぶのは空間と時間の統計構造です:光がどのように表面に落ちるか、一つの庭がカメラで捉えられたことのない角度からどのように見えるか、物体が力にどのように反応し、物理法則に従うかです。
これにより「世界モデル」は現在のAI分野で最も重要であり、同時に最も乱用されている用語の一つとなっています。コンピュータビジョン、ロボティクス、強化学習、生成AIはすべて自らが世界モデルを構築していると主張していますが、それぞれが指しているものは全く異なります。華麗だが物理的に不可能な炎を生成するビデオモデル、即興で遊べるゲームを生成する言語モデル、燃焼プロセスを忠実にシミュレートする物理エンジン、これらはすべて同じ名前で呼ばれています。
古代ギリシャ人は世界が何で構成されているかについて合意に達することができませんでした。火、水、あるいは不可分の原子であっても、世界は常に単一のものではありませんでした。それは常にある思想家がある全体性を推論するために使用する代替語です。AIは同じ問題を引き継ぎ、ちょうどこの分野が最も精度を必要とする瞬間に発生しています。
分類法の背後にある閉ループ
この混乱を明確にするためには、上記のすべての技術よりも古い図から始めることができます。すべての強化学習の教科書、特に古典的なSuttonとBartoは、エージェントが世界とどのように相互作用するかを説明するために、数十年にわたって同じ図の変種を使用しています。この図の正式名称は部分可観測マルコフ決定過程(POMDP)であり、「世界モデル」という用語の最初の定義はこの伝統に属します。
エージェント(人間、ロボット、またはソフトウェアシステムのいずれか)がアクションを実行します。これらのアクションは世界の状態を変えます。しかし、エージェントは状態そのものを直接見ることはできず、受け取るのは観測です:網膜に落ちる光子、センサーの読み取り、ビデオフレーム内のピクセルです。新しい観測は新しいアクションを導き、循環します。
「状態」という言葉は分解して考える必要があります。なぜなら、異なる分野ではその意味が変わるからです。ここで言うのは化学者の状態ではなく、固体、液体、気体の違いではありません。ここでの状態は物理学者やロボティクスの状態です:ある時点で世界で起こっているすべてのことの完全な記述であり、すべての物体、すべての位置、すべての速度、すべての属性を含みます。状態は世界の基層現実であり、原則として完全ですが、その中にいるエージェントには直接観測することはできません。観測はエージェントがこの現実を部分的に見る視点です。アクションはエージェントがそれに基づいて行う応答です。
この閉ループ(エージェント→アクション→状態→観測→エージェント)は、「世界モデル」という用語に技術的意味を与える構造です。このフレーズ自体はさらに古く、1943年にケネス・クレイクが提案したもので、彼は心が現実の「小さな比例モデル」を運用することで推論を行うと考えました。そして1980年代末から1990年代初頭にかけて、この概念は神経ネットワークの分野に導入されました。この閉ループは、今日人々がこの用語を使用する際の意味も説明しています。現在「世界モデル」と呼ばれるさまざまなものは、実際には同じ閉ループの異なる投影であり、それぞれが閉ループの異なる構成要素を出力しています。
世界モデルの三つの機能
第一の世界モデルはレンダラーです。レンダラーが出力するのは観測であり、具体的には人間の目に向けたピクセルであり、最も重要な品質指標は視覚的忠実度です。テキストプロンプトを映画レベルの空撮ショットに変換するビデオモデルはレンダラーです。GoogleのGenie 3やWorld Labs自身のRTFMのようなインタラクティブシステムもレンダラーであり、ユーザーの入力に基づいてリアルタイムで画像を生成します。この種のモデルは三次元構造に対する明示的な理解を持っていません。彼らが生成するのは観察者が見る画面であり、物事そのものの姿ではありません。空撮ショットの建物は空から見ると完璧に見えるかもしれませんが、下の都市を歩こうとすると、それらは崩れます。
第二のものはシミュレーターです。シミュレーターが出力するのは状態です:幾何学、物理学、または動力学に忠実な世界の表現であり、人間とコンピュータプログラムがその上で計算や相互作用を行うことができます。レンダラーの契約は純粋に視覚的なものであり、シミュレーターの契約は構造的なもので、幾何学が検証に耐え、物理がニュートンの法則に従い、動力学の挙動が物理法則の期待に合致することを要求します。シミュレーターは同時に二つのタイプのユーザーにサービスを提供します。建築家、デザイナー、映画製作者、ゲーム開発者などの専門家は、視覚的信頼性を超えた正確性を必要とします。強化学習エージェント、ロボットコントローラー、自動運転車などのコンピュータプログラムは、シミュレーターを訓練の場として使用し、現実では危険、費用がかかる、または実行不可能なシナリオで大規模に世界と相互作用し、テストします。
第三のものはプランナーです。プランナーが出力するのはアクションです。観測と目標が与えられたとき、プランナーが答えるべき質問は、エージェントが次に何をすべきかです。多くの意味で、プランナーはレンダラーの逆プロセスです。レンダラーはアクションを入力として観測を出力し、プランナーは観測を入力としてアクションを出力し、知覚-行動ループを閉じます。視覚-言語-アクションモデル(VLA)、モデルベースのシステム、そして新しい波の世界アクションモデル(World Action Models)は、すべてプランナーの異なる試みです:システムが非構造化された世界の中でロボットが何をすべきかを決定できるようにすることです。
これらの三つのカテゴリーは、現在実際に実現されている大部分の作業をカバーしており、それらの間の区別は実践的に有用です。しかし、これらの三つのカテゴリーは根本的に互いに切り離されているわけではありません。彼らは世界がどのように機能するかについての同じ基層知識を共有しています:幾何学、物理学、動力学。任意の角度からカップをレンダリングできるモデルは、原則としてカップが押された後に何が起こるかをシミュレートし、手がそれを持ち上げるように計画することもできるはずです。ますます多くの興味深い研究が、意図的にこれら三者の間の境界を曖昧にしています。
なぜシミュレーションが重要なハブなのか
三つのカテゴリーの中で、シミュレーターは最も公衆の注目を受けていませんが、三者の中で最も重要です。この記事はこの不均衡を正そうとしています。
レンダラーは現在、商業化の程度が最も高いです。大量の画像やテキストからビデオへの製品が消費者市場と企業市場で急速に拡大しています。GoogleのNano Bananaモデルは、レンダラー級の画像生成能力を数億人のユーザーに提供しています。技術は実際のものであり、市場も実際のものです。しかし、レンダラーの最適化の目標は視覚的信頼性であり、物理的正確性ではありません。この天井は重要です。彼らの出力は美しいですが、それを使って建物を設計したり、ロボットを訓練したりすることはできません。
プランナーは最も興奮を呼ぶが最も未成熟であり、急速に進化するロボット学習の分野と密接に関連しています。過去二年間、この分野はビデオで印象的に見えるロボットデモをいくつか生み出しましたが、私たちはこれらのデモが実際に何を示しているのかを率直に受け止める必要があります。ほとんどすべてのデモは高度に制限された実験室環境に限られており、物体の種類は限られ、タスクの長さは非常に短いです。現実世界の展開が要求する複雑さ、多様性、持続時間を耐えたものはありません。素晴らしいデモビデオから、キッチン、倉庫、または手術室で信頼できるロボットに至るまでの間には、依然として巨大なギャップがあります。
それにもかかわらず、商業的な賭けの規模は依然としてかなりのものです。資金が豊富な新しい参加者が一般的なプランニングシステムを次々と発表しており、大規模なインフラプレイヤーはより広範なシミュレーションスタックの上にプランニング能力を構築しています。
シミュレーションは二者をつなぐ橋です。もし言語が世界の抽象であり、ピクセルが世界の投影であるなら、幾何学、物理学、動力学は世界そのものです。シミュレーターはこのレベルで機能しなければなりません:それは構造的な骨格であり、視覚的表現(レンダラー用)とアクションの結果(プランナー用)はそこから導き出すことができます。
シミュレーションを掌握したモデルは、その理解を人間が消費するためのピクセルとして投影することも、具身知能体が使用するためのアクション予測として投影することもできます。しかし、レンダリングまたはプランニングだけを掌握したモデルは、どちらもできません。ここには非常に広い商業空間があります。NVIDIAのOmniverseだけでも、その目標市場規模は同社の推定で1兆ドルを超え、工場、倉庫、サプライチェーン、デジタルツインを含んでいます。ロボット訓練、自動運転テスト、建築可視化、エンジニアリングデザイン、薬物発見はすべて、何らかの形のシミュレーションに依存しています。
この分野で最も困難なオープンな問題もここに集中しています。明示的な幾何学、材質属性、物理的ラベルを持つ三次元データは、レンダラーが訓練に使用するインターネットビデオよりも数桁少ないです。sim-to-realギャップ(シミュレーション内の物体の挙動と現実世界での挙動の違い)は依然として存在します。生成的シミュレーターはここに新たなリスクをもたらします:AIが生成した幾何体は正しく見えるかもしれませんが、実際には自己交差や誤った比率の問題を含んでおり、物理シミュレーションにおいて不合理な結果を引き起こす可能性があります。大規模な多物理シミュレーション(剛体、可変形物体、流体、布地がすべて同時に相互作用する)の計算コストは、単一の領域のシミュレーションよりも数桁高いままです。
World Labsでは、Marbleがこの方向への第一歩です。これは多モーダル入力(テキスト、画像、ビデオ、または空間スケッチ)を受け入れ、探索可能な3D環境を生成し、同時に視覚探索用のガウススプラット(Gaussian splats)と物理エンジン用の衝突メッシュを出力します。しかし、Marbleは長い弧の第一章に過ぎません。レンダリング、シミュレーション、プランニングの間の境界が溶け始めるにつれて、全体の分野がこの物語を紡いでいます。
境界が消えつつあり、次に何が起こるか
現在のこの分野で最も重要なトレンドは、三つのカテゴリーが融合し始めていることです。背後にある合意は、世界をレンダリングし、シミュレーションし、その中で行動するために必要な知識は大部分が同じであるということです。前の例を引き合いに出すと、カップがテーブルにどのように置かれるかを真に理解するモデル(その幾何学的形状、材質属性、力に対する反応など)は、任意の角度からこのカップをレンダリングし、カップが押された後に何が起こるかをシミュレートし、手がそれを持ち上げるように計画することができるはずです。三つのカテゴリーは同じ基層理解の三つの投影です。
例えば、最近、異なるロボット研究室から少数だが増加している作業があり、少なくとも概念的には成立する可能性を示しています:事前訓練されたビデオレンダラーが、世界の予測とアクションの予測を結合するバックボーンネットワークとして機能し、単一のモデルが「何が起こるか」と「何をすべきか」を同時に想像できるようにし、レンダラーとプランナーの間に橋を架けることです。World LabsのMarbleは、単一のモデルから同時にガウススプラットと衝突メッシュを出力でき、レンダラーとシミュレーターの間の境界を解消しました。各レベルは受動的な出力からインタラクティブなシステムへと移行しています:レンダラーはアクション条件に応じて応答できるようになり、シミュレーターが生成する世界はより制御可能で編集可能になり、プランナーは単に反応するだけでなく、慎重な推論を行うようになります。
論理的な終点は、統一された世界モデルです:写真レベルのリアルなビューをレンダリングし、物理的に正確な構造を生成し、アクションシーケンスを計画し、下流のユーザーのニーズに応じて異なる出力モード間を切り替えることができる基盤モデルです。私たちは依然として一連の厳しい課題に直面するでしょう。データのパターンは非常に不均衡で、レンダラーは膨大なインターネットビデオを持っていますが、シミュレーターとプランナーは3D資産とロボットデモデータの深刻な不足に直面しています。視覚的美しさの最適化は、ロボットや高忠実度のシミュレーションに必要な精度を犠牲にする可能性があります。単一のアーキテクチャ内でこれらの緊張を調和させることが、今日の世界モデル研究の核心的なオープン問題であり、World LabsがMarbleの進化を通じて解決に取り組んでいることです。
(出典:Substack)
しかし、大きな方向性はすでに明確です。1980年代末以来、この分野は常に同じ賭けをしてきました:世界モデルが十分に豊かであれば、エージェントが世界を見て、世界を構築し、その中で行動するために必要なものはすべてそこにあるということです。この賭けは現在、一世代の研究を駆動しています。そして、それに重みを加えるのは、すでに起こっている融合です:レンダリング、シミュレーション、プランニングの三つの線は、それぞれが数十億ドルの価値を持つ産業を支えていますが、最初は独立した研究の方向性でしたが、今は一つに集まろうとしています。境界が消えれば、三者の合流は機械知能とそれが存在する物理的世界との関係、つまり空間知能の長期的な方向性を再定義することになるでしょう。
言語は機械にこの世界について話す方法を与えました。世界モデルは、機械が最終的に理解し、想像し、推論し、そして相互作用するための道です。
参考資料:1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models













