三年之後：回看 2023 年我對 ChatGPT 的判斷

核心觀點

一、記分牌

裁決符號：✅ 正確 · 🟢 基本正確 · 🟡 部分正確 · ❌ 錯誤

三年之後：回看 2023 年我對 ChatGPT 的判斷

粗看下來，王建硕當年的大方向大多站住了，真正算硬錯的只有一條------把 GPT-4 傳成了 100T 參數。但魔鬼藏在細節裡：幾乎每條「對」的背後，都壓著一截當年沒說準的尾巴。二十條裡沒有一條純粹「仍不確定」，三年足夠長，多數事情都有了傾向性答案。下面分組細說。

二、看對了的

這一組的共同點是：王建硕當年判斷的方向、機制、甚至時間節奏都押中了，錯也只錯在「程度」和「絕對化措辭」。

RAG 與檢索架構（觀點 2、3）

> 2023 年王建硕說：解決知識和幻覺的主流方法不是改模型，而是向量檢索把知識灌進去當「小抄」；正確架構是搜索引擎做檢索、把結果餵給 LLM。

這就是今天所有 AI 產品的事實標準。RAG 成了企業 AI 的默認架構，OpenAI、Google、Anthropic 都把它做成了平台級能力；ChatGPT Search 字面意義上就是「先用 Bing 索引檢索、把結果餵給 GPT、再生成帶引用的答案」。Google AI Overviews 用 grounding 做到約 20 億月活，Perplexity 一家純靠這架構的公司估值衝到約 200 億美元。

在 GPT-4 還沒發布、業界默認「靠微調注入知識」的時候，他押的是「不動模型參數、外挂檢索」，機制和時間都對了。

需要誠實的是：他設想的是「靜態一次性檢索」，而現實更複雜------長上下文、GraphRAG、agentic retrieval 都來補強。2026 年那場「RAG 已死」的爭論，恰恰證明大方向沒死，它否定的只是「樸素一次性檢索」，結論是升級成混合檢索，而不是退回去改模型參數。還有一點：RAG 這個術語 2020 年 Meta 那篇論文就提出來了，並非他首創------他只是在窗口期押中了它會成主流。

LUI 是新大陸（觀點 7）

> 2023 年王建硕說：ChatGPT 最偉大之處不是 AIGC，而是開啟了 LUI（自然語言用戶界面），會像 GUI 當年一樣重構人機交互，催生一個比「做大模型」本身大得多的新行業。

「新大陸」這部分幾乎全中。自然語言成了大眾主導的交互層（ChatGPT 九億周活），並催生了一個獨立新產業------agent、coding agent、協議層全部兌現。最具體的那句「比做模型本身大得多」被強力印證：MCP 協議成了 LUI 時代的「操作系統標準」，2025 年被 OpenAI、Google、微軟全面採納，年底轉入 Linux 基金會；Claude Code 單一產品就做到約 25 億美元年化營收。

但他用了「重構、取代 GUI」這種強措辭，三年後看是疊加共存，而不是取代。三類反例很硬：MIT 報告顯示 95% 的企業 GenAI 試點沒有可衡量的 ROI；直接操作界面的 computer-use agent 在測試集上頂級模型才約 78%，剛摸到人類基線；純去掉螢幕的語言硬體幾乎全軍覆沒（Humane Pin 2025 年永久停服）。更準確的說法是：LUI 是疊加在 GUI 之上的新交互層。

機器人網絡與新尋址（觀點 9）

> 2023 年王建硕說：未來約十年會出現「機器人網絡」------agent 之間用自然語言自動握手、互相調用，不再需要傳統 API；會誕生一套全新的域名尋址系統。這套東西「兩三年就能做完」。

方向命中得驚人。MCP、A2A（已捐給 Linux 基金會、150 多家組織支持）解決 agent 互調；Agent Network Protocol 直接基於 W3C 的 DID 做「無中心權威的 agent 尋址」，目標是「數十億 agent 協作網絡」------這跟他說的「全新域名系統」高度同構。

兩處要修正：一是「不再需要 API」不成立，主流協議底層是結構化 schema，本質是在 API 之上疊一層標準；二是「兩三年做完」沒兌現，Gartner 數據顯示截至 2026 年僅約 17% 組織真正部署了 agent。有意思的是，他當年其實把話分了層------雛形「兩三年」、成熟「約十年」。雛形的節奏命中得很準，成熟周期也確實是十年級。把兩層分開看，這條的質量比看上去高。

中國一定能做出可用大模型（觀點 10、20）

> 2023 年王建硕說：中國一定能做出可用的大模型，與頂尖的差距會在約三年內迅速彌合（類比紅旗瀏覽器追 Netscape）。

這條的時間線吻合得讓人意外。Stanford 2026 AI Index 實測，頂尖中美模型的基準差距從 2023 年 5 月的 17.5--31.6 個百分點，收窄到了 2.7%；而美國的私人 AI 投資是中國的約 23 倍------用小得多的投入實現了彌合。DeepSeek、Qwen、Kimi、GLM 成了全球主流，開源生態甚至領先。

但「迅速」二字偏樂觀------真正成熟發生在約 14 個月後，而非「幾個月」。而且這是追平可用性、不是定義前沿：截至 2026 年初仍無中國模型超過 OpenAI o3。觀點 20 裡他錯得明顯：「門打開了就不會關上」的判斷，被 OpenAI 在 2024 年 7 月主動切斷對華 API 直接推翻，門是被供方關上的；他點名領跑的文心一言反而掉隊，真正接棒的是當年還不起眼的 DeepSeek、豆包、千問。

沒意識、圖靈測試只測表象（觀點 13）

> 2023 年王建硕說：ChatGPT 沒有意識，是「說者無意、聽者有心」的自作多情；圖靈測試本就只測「是否讓你以為它有」，而非它真有。

「測表象」這個核心判斷站得很穩，還被一個實驗反諷式地坐實了：2025 年 UC San Diego 的圖靈測試裡，GPT-4.5 在「扮演人設」的提示下被判為人類的比例高達 73%，比真人還高，但靠的純是表演技巧------這正是「只測是否讓你以為它有」的最佳注腳。

要補的是：「機器一定沒有意識」這個絕對化的強論斷，三年裡被推進了灰區。Anthropic 設了「模型福祉」研究崗，給出約 15%--20% 的意識概率，還給 Claude 加了「主動結束被濫用對話」的功能。這些把「絕無」變成了「低概率但不可排除」。不過都基於「可能、應假設」而非「已證實」，內核沒被推翻，只是當年語氣下得太滿。

其餘看對的（觀點 6、11、12、16、18、19）

不是 AGI 但邁了一大步 ：兩頭都站住。Altman 本人在 GPT-5 時代仍說「不是 AGI、缺持續學習」；同時 IMO 金牌、ARC-AGI 從近零衝到 85%，「邁出一大步」無争議。
不會失業潮 ：2026 年 4 月美國失業率僅 4.3%。盲點在「分布」------Stanford 研究顯示，被抽掉的恰恰是職業階梯第一级的 22--25 歲年輕新人，「順暢吸走」的機制在他們身上失靈了。
不會被 AI 垃圾淹沒 ：淨福祉方向對，但他嚴重低估了量級------AI 內容已占新增網頁約 52%，「AI slop」成了年度詞。
創業大年 ：浪潮拐點抓對，xAI（2023 年 3 月創立）已達 2300 億估值。但他把「偉大公司」鎖死在 2023 當年過窄------真正萬億量級的 OpenAI、Anthropic 都創立更早。
1994 瀏覽器時刻 ：相對排序坐實，OpenAI 2025 年真推出了 Atlas 瀏覽器，把比喻變成了字面現實。只是 ChatGPT 擴散比瀏覽器更猛，比喻偏保守了。
prompt 加灌事實降幻覺 ：方向被證實，GPT-5 斷網無檢索時幻覺率飆到 47%，反向坐實「事實」是關鍵變量。只低估了根因在訓練激勵，而非 prompt。

三、看錯了、看偏了的

GPT-4 是 100T 參數（觀點 4）------徹底錯

> 2023 年王建硕說：（傳聞）GPT-4 是 100T 參數，比 GPT-3 的 175B 大約 600 倍。

兩個數字都錯了。GPT-3 是 175B，2023 年 7 月洩露的最佳估計是 GPT-4 約 1.8T、16 專家的 MoE，僅約 10 倍。100T 和實際差了約 55 倍量級。「100T」的唯一源頭，是 Cerebras CEO 2021 年一句「大約」的二手轉述，Sam Altman 早在 2023 年 1 月就當面斥那張對比圖是「complete bullshit」。

他原話標了「傳聞」，保留了不確定性。更深一層，「用參數倍數衡量代際」這框架本身就過時了：OpenAI 後來的 GPT-4.5、GPT-5 幹脆不再公開參數量。這是唯一一條數字錯、視角也過時的硬錯。

LLM 數學（觀點 1）------診斷對，封頂結論錯

> 2023 年王建硕說：LLM 數學差是本質，讓它自己學會數學既不可能也沒必要，正確做法是外挂工具。

「診斷加工具路線」全對------根因正是逐 token 生成導致進位不可靠（2025 年機制論文精確證實了「末位常對、中間位錯」的直覺）；外挂工具的提升也巨大（o4-mini 允許用 Python 時，AIME 2025 達 99.5%）。

錯在「不可能、沒必要」這種封頂式措辭。「不可能」被證偽------2025 年 7 月 Gemini Deep Think 和 OpenAI 模型在 IMO 用純自然語言、無工具拿到金牌。關鍵轉折是 2024--2025 才出現的「推理模型」，這在 2023 年 3 月無法預見------所以對這條預測應寬容評判方向，而非苛責時點。

價值捕獲（觀點 8）------賭對一半，核心論斷反了

> 2023 年王建硕說：價值最終會落在應用層，開創基礎層的公司（做模型者）結局未必賺錢。

錢確實開始往應用層流（Cursor 三年做到 20 億年化營收）------這半對了。但「做基礎層的不賺錢」被英偉達直接證偽：FY2026 淨利約 1200 億美元、市值 5 萬億+，是全市場唯一明確大額盈利者。而被他暗示會贏的模型層（OpenAI 2026 年預虧約 140 億）反而最像他說的「燒錢不賺錢的基礎層」。

他沒區分「算力基礎層」和「模型基礎層」，也沒區分「營收」和「利潤」。價值在 2026 年比 2023 年更極端地被算力層捕獲，而不是向應用層轉移。要補一句：賠錢的是買芯片的雲廠，不是賣芯片的英偉達------這恰是他那個「鐵路過度建設」類比的錯位之處。

版權（觀點 14）------登記對，規避侵權錯

> 2023 年王建硕說：AI 生成內容可能規避版權（保護表達不保護思想）；生成物可能既不侵權、也無法登記。

「無法登記」成了既定法律事實（2025 年美國版權局明確「僅輸入提示詞不足以主張作者身份」）。但「規避侵權」錯得明顯：法院反復認定 AI 輸出若與原作實質性相似仍構成侵權；Anthropic 因盜版語料以 15 億美元和解，是美國史上最大版權賠償。AI 不僅沒「規避」版權，反而付出了史上最大的代價。

世界大同（觀點 15）------機制對，趨勢賭反了

> 2023 年王建硕說：ChatGPT 把人類觀點做「加權平均」，可對抗抖音式信息茧房，給了「世界大同」的可能。

機制層對了------2025 年多項研究確鑿證實 LLM 把觀點壓向眾數、系統性低估少數派。但社會判斷層賭反了：他自己加的「至少現在不是千人千面」，三年內就被推翻------OpenAI 從 2025 年 4 月起把跨對話記憶和個性化做成默認能力，AI 正高速走向千人千面。更關鍵的是，他把「加權平均」想像成中立的世界公約數，但實測它是帶方向的偏移，還疊加諂媚，可以被用來主動操縱立場------這指向「製造新茧房」，而非「消解極化」。

局部戰爭與成本（觀點 17）------定性全中，定量證偽

> 2023 年王建硕說：再做大模型會迅速淪為「局部戰爭」，成本可知（去掉彎路約 5-10 億美金封頂），會有很多玩家進入。

定性方向對得驚人------大量玩家湧入、迅速商品化、開源追平閉源，全兌現了。但「5-10 億封頂」這硬數字兩端都錯：前沿端被嚴重低估（GPT-5 級 2026 年達 2-5 億美金訓練，疊加千億級數據中心和 5000 億的 Stargate）；復刻端又被高估（DeepSeek 把邊際訓練成本壓到百萬美金級）。同一個模型的「成本」按口徑能差 200 倍，唯獨不在他給的那個區間裡。

湧現能力（觀點 5）------方向對，數字和框定錯

> 2023 年王建硕說：約 60B 參數以上出現原始語料裡沒有、研究者也無法解釋的新能力。

方向性直覺成立，但兩處表述站不住：其一，不存在統一的「60B 閾值」------思維鏈的真實門檻約 100B，不同能力在 13B 到 540B 不等的規模上出現；其二，「無法解釋」在 2023 年底就被一篇 NeurIPS 傑出論文挑戰------很多「突變」是評測指標選擇造成的假象，換連續指標後曲線平滑可預測。公平地說，當年他復述的是絕對主流的敘事，真正可糾正的是把「60B」當硬閾值、把「無法解釋」當定性結論。

四、三年回看，幾條規律

逐條對完帳，退後一步看，王建硕這二十條判斷裡藏著幾條比任何單條都更值得記下來的規律。

一、方向遠比數字和程度靠谱。 二十條裡，凡是判斷機制和方向的（RAG、LUI、機器人網絡、圖靈測試），幾乎全中；凡是給了具體數字或封頂措辭的（100T 參數、60B 閾值、5-10 億成本、數學「不可能」），幾乎全錯。對快速變化的領域，押方向、押機制，少押精確數字，更要警惕「不可能、一定、封頂、絕無」這類把話說滿的詞------它們是被時間打臉的高發區。

二、時間上，他傾向於高估速度、低估程度。 凡是說「迅速、兩三年做完」的，成熟期普遍更慢；但對能力躍遷的天花板又低估了------數學能從「不可能」到 IMO 金牌，前沿成本能漲到當年想像不到的量級。一句話：短期太樂觀，長期太保守。

三、最隱蔽的錯，反復出在「分布」上。 不是方向錯，而是只看總量、忽略分布。「不會失業潮」對，但傷害高度集中在年輕新人；「價值落應用層」對了一半，但沒區分算力層和模型層。總量正確，掩蓋了分布災難------這是最該補的一課。

四、把話留有餘地的地方，三年後都經得起檢驗。 「傳聞」「至少現在」「大幅降低而非消除」「雛形兩三年、成熟約十年」------凡是當年帶了限定詞、分了層次的判斷，今天回看都更站得住。反而是脫口而出的絕對句，最容易翻車。預測的誠實，一半在於敢說，另一半在於敢標註自己的不確定。

五、有些問題，三年根本不夠。 價值最終歸誰、湧現是不是真相變、機器到底有沒有一絲意識、長上下文會不會吃掉 RAG------這些當年的爭論，到 2026 年依然是爭論。能區分「已經有答案的」和「還得繼續等的」，比急著給每件事下結論更重要。

三年前的王建硕，憑直覺在 GPT-4 還沒出來的迷霧裡指了二十個方向。今天對完帳，最該記住的一句話或許是：看對大方向其實沒那麼難，難的是承認自己在數字、速度和分布上一次次想當然。這二十條帳，與其說是給過去打分，不如說是給未來三年立的幾條規矩。下一個三年，2029 年再來對一次。

三年之後：回看 2023 年我對 ChatGPT 的判斷