三年之後:回看 2023 年我對 ChatGPT 的判斷
作者:王健硕
2023 年 3 月 6 日,ChatGPT 剛出來不久,GPT-4 還沒發布,我和 Sarah 做了一場關於 ChatGPT 的訪談------Traders' Talk「大白話系列」的第三期(大白話聊 ChatGPT 播客發布了,歡迎收聽)。
那時候 ChatGPT 才出來沒多久,真正上手用的人還非常少,這場長達三個小時的訪談,後來一直掛在小宇宙 ChatGPT 類目的第一名。我在裡面一口氣拋出了二十來個判斷和預測,全憑直覺和有限的信息,沒什麼數據。當時那場訪談的完整逐字稿,還留在公眾號上。
現在是 2026 年 5 月底,三年過去了,AI 已經長成了當年想像不到的樣子。

我想做一件事:把當年那二十條逐條拎出來,用今天能查到的最新數據,客觀地對一次帳。看清楚三年裡世界到底變成了什麼樣,也看清楚三年前那個我,哪些地方看準了,哪些地方看偏了。
為了盡量不偏不向,這次對帳我索性交給了 AI 來做:把當年的訪談逐字稿丟進一個 workflow,由它調度 41 個 Opus 4.8 的 agent,先把二十條判斷逐條拆開,再各自聯網檢索最新數據、一條條交叉求證,最後給三年前的王建硕打分。這群 agent 花了大約 20 分鐘、燒掉 140 萬 token(約等於 35 美元),跑出了下面這份報告。判斷都來自它們,不是我。基準日定在 2026 年 5 月。

一、記分牌
裁決符號:✅ 正確 · 🟢 基本正確 · 🟡 部分正確 · ❌ 錯誤


粗看下來,王建硕當年的大方向大多站住了,真正算硬錯的只有一條------把 GPT-4 傳成了 100T 參數。但魔鬼藏在細節裡:幾乎每條「對」的背後,都壓著一截當年沒說準的尾巴。二十條裡沒有一條純粹「仍不確定」,三年足夠長,多數事情都有了傾向性答案。下面分組細說。
二、看對了的
這一組的共同點是:王建硕當年判斷的方向、機制、甚至時間節奏都押中了,錯也只錯在「程度」和「絕對化措辭」。
RAG 與檢索架構(觀點 2、3)
> 2023 年王建硕說:解決知識和幻覺的主流方法不是改模型,而是向量檢索把知識灌進去當「小抄」;正確架構是搜索引擎做檢索、把結果餵給 LLM。
這就是今天所有 AI 產品的事實標準。RAG 成了企業 AI 的默認架構,OpenAI、Google、Anthropic 都把它做成了平台級能力;ChatGPT Search 字面意義上就是「先用 Bing 索引檢索、把結果餵給 GPT、再生成帶引用的答案」。Google AI Overviews 用 grounding 做到約 20 億月活,Perplexity 一家純靠這架構的公司估值衝到約 200 億美元。
在 GPT-4 還沒發布、業界默認「靠微調注入知識」的時候,他押的是「不動模型參數、外挂檢索」,機制和時間都對了。
需要誠實的是:他設想的是「靜態一次性檢索」,而現實更複雜------長上下文、GraphRAG、agentic retrieval 都來補強。2026 年那場「RAG 已死」的爭論,恰恰證明大方向沒死,它否定的只是「樸素一次性檢索」,結論是升級成混合檢索,而不是退回去改模型參數。還有一點:RAG 這個術語 2020 年 Meta 那篇論文就提出來了,並非他首創------他只是在窗口期押中了它會成主流。
LUI 是新大陸(觀點 7)
> 2023 年王建硕說:ChatGPT 最偉大之處不是 AIGC,而是開啟了 LUI(自然語言用戶界面),會像 GUI 當年一樣重構人機交互,催生一個比「做大模型」本身大得多的新行業。
「新大陸」這部分幾乎全中。自然語言成了大眾主導的交互層(ChatGPT 九億周活),並催生了一個獨立新產業------agent、coding agent、協議層全部兌現。最具體的那句「比做模型本身大得多」被強力印證:MCP 協議成了 LUI 時代的「操作系統標準」,2025 年被 OpenAI、Google、微軟全面採納,年底轉入 Linux 基金會;Claude Code 單一產品就做到約 25 億美元年化營收。
但他用了「重構、取代 GUI」這種強措辭,三年後看是疊加共存,而不是取代。三類反例很硬:MIT 報告顯示 95% 的企業 GenAI 試點沒有可衡量的 ROI;直接操作界面的 computer-use agent 在測試集上頂級模型才約 78%,剛摸到人類基線;純去掉螢幕的語言硬體幾乎全軍覆沒(Humane Pin 2025 年永久停服)。更準確的說法是:LUI 是疊加在 GUI 之上的新交互層。
機器人網絡與新尋址(觀點 9)
> 2023 年王建硕說:未來約十年會出現「機器人網絡」------agent 之間用自然語言自動握手、互相調用,不再需要傳統 API;會誕生一套全新的域名尋址系統。這套東西「兩三年就能做完」。
方向命中得驚人。MCP、A2A(已捐給 Linux 基金會、150 多家組織支持)解決 agent 互調;Agent Network Protocol 直接基於 W3C 的 DID 做「無中心權威的 agent 尋址」,目標是「數十億 agent 協作網絡」------這跟他說的「全新域名系統」高度同構。
兩處要修正:一是「不再需要 API」不成立,主流協議底層是結構化 schema,本質是在 API 之上疊一層標準;二是「兩三年做完」沒兌現,Gartner 數據顯示截至 2026 年僅約 17% 組織真正部署了 agent。有意思的是,他當年其實把話分了層------雛形「兩三年」、成熟「約十年」。雛形的節奏命中得很準,成熟周期也確實是十年級。把兩層分開看,這條的質量比看上去高。
中國一定能做出可用大模型(觀點 10、20)
> 2023 年王建硕說:中國一定能做出可用的大模型,與頂尖的差距會在約三年內迅速彌合(類比紅旗瀏覽器追 Netscape)。
這條的時間線吻合得讓人意外。Stanford 2026 AI Index 實測,頂尖中美模型的基準差距從 2023 年 5 月的 17.5--31.6 個百分點,收窄到了 2.7%;而美國的私人 AI 投資是中國的約 23 倍------用小得多的投入實現了彌合。DeepSeek、Qwen、Kimi、GLM 成了全球主流,開源生態甚至領先。
但「迅速」二字偏樂觀------真正成熟發生在約 14 個月後,而非「幾個月」。而且這是追平可用性、不是定義前沿:截至 2026 年初仍無中國模型超過 OpenAI o3。觀點 20 裡他錯得明顯:「門打開了就不會關上」的判斷,被 OpenAI 在 2024 年 7 月主動切斷對華 API 直接推翻,門是被供方關上的;他點名領跑的文心一言反而掉隊,真正接棒的是當年還不起眼的 DeepSeek、豆包、千問。
沒意識、圖靈測試只測表象(觀點 13)
> 2023 年王建硕說:ChatGPT 沒有意識,是「說者無意、聽者有心」的自作多情;圖靈測試本就只測「是否讓你以為它有」,而非它真有。
「測表象」這個核心判斷站得很穩,還被一個實驗反諷式地坐實了:2025 年 UC San Diego 的圖靈測試裡,GPT-4.5 在「扮演人設」的提示下被判為人類的比例高達 73%,比真人還高,但靠的純是表演技巧------這正是「只測是否讓你以為它有」的最佳注腳。
要補的是:「機器一定沒有意識」這個絕對化的強論斷,三年裡被推進了灰區。Anthropic 設了「模型福祉」研究崗,給出約 15%--20% 的意識概率,還給 Claude 加了「主動結束被濫用對話」的功能。這些把「絕無」變成了「低概率但不可排除」。不過都基於「可能、應假設」而非「已證實」,內核沒被推翻,只是當年語氣下得太滿。
其餘看對的(觀點 6、11、12、16、18、19)
- 不是 AGI 但邁了一大步 :兩頭都站住。Altman 本人在 GPT-5 時代仍說「不是 AGI、缺持續學習」;同時 IMO 金牌、ARC-AGI 從近零衝到 85%,「邁出一大步」無争議。
- 不會失業潮 :2026 年 4 月美國失業率僅 4.3%。盲點在「分布」------Stanford 研究顯示,被抽掉的恰恰是職業階梯第一级的 22--25 歲年輕新人,「順暢吸走」的機制在他們身上失靈了。
- 不會被 AI 垃圾淹沒 :淨福祉方向對,但他嚴重低估了量級------AI 內容已占新增網頁約 52%,「AI slop」成了年度詞。
- 創業大年 :浪潮拐點抓對,xAI(2023 年 3 月創立)已達 2300 億估值。但他把「偉大公司」鎖死在 2023 當年過窄------真正萬億量級的 OpenAI、Anthropic 都創立更早。
- 1994 瀏覽器時刻 :相對排序坐實,OpenAI 2025 年真推出了 Atlas 瀏覽器,把比喻變成了字面現實。只是 ChatGPT 擴散比瀏覽器更猛,比喻偏保守了。
- prompt 加灌事實降幻覺 :方向被證實,GPT-5 斷網無檢索時幻覺率飆到 47%,反向坐實「事實」是關鍵變量。只低估了根因在訓練激勵,而非 prompt。
三、看錯了、看偏了的
GPT-4 是 100T 參數(觀點 4)------徹底錯
> 2023 年王建硕說:(傳聞)GPT-4 是 100T 參數,比 GPT-3 的 175B 大約 600 倍。
兩個數字都錯了。GPT-3 是 175B,2023 年 7 月洩露的最佳估計是 GPT-4 約 1.8T、16 專家的 MoE,僅約 10 倍。100T 和實際差了約 55 倍量級。「100T」的唯一源頭,是 Cerebras CEO 2021 年一句「大約」的二手轉述,Sam Altman 早在 2023 年 1 月就當面斥那張對比圖是「complete bullshit」。
他原話標了「傳聞」,保留了不確定性。更深一層,「用參數倍數衡量代際」這框架本身就過時了:OpenAI 後來的 GPT-4.5、GPT-5 幹脆不再公開參數量。這是唯一一條數字錯、視角也過時的硬錯。
LLM 數學(觀點 1)------診斷對,封頂結論錯
> 2023 年王建硕說:LLM 數學差是本質,讓它自己學會數學既不可能也沒必要,正確做法是外挂工具。
「診斷加工具路線」全對------根因正是逐 token 生成導致進位不可靠(2025 年機制論文精確證實了「末位常對、中間位錯」的直覺);外挂工具的提升也巨大(o4-mini 允許用 Python 時,AIME 2025 達 99.5%)。
錯在「不可能、沒必要」這種封頂式措辭。「不可能」被證偽------2025 年 7 月 Gemini Deep Think 和 OpenAI 模型在 IMO 用純自然語言、無工具拿到金牌。關鍵轉折是 2024--2025 才出現的「推理模型」,這在 2023 年 3 月無法預見------所以對這條預測應寬容評判方向,而非苛責時點。
價值捕獲(觀點 8)------賭對一半,核心論斷反了
> 2023 年王建硕說:價值最終會落在應用層,開創基礎層的公司(做模型者)結局未必賺錢。
錢確實開始往應用層流(Cursor 三年做到 20 億年化營收)------這半對了。但「做基礎層的不賺錢」被英偉達直接證偽:FY2026 淨利約 1200 億美元、市值 5 萬億+,是全市場唯一明確大額盈利者。而被他暗示會贏的模型層(OpenAI 2026 年預虧約 140 億)反而最像他說的「燒錢不賺錢的基礎層」。
他沒區分「算力基礎層」和「模型基礎層」,也沒區分「營收」和「利潤」。價值在 2026 年比 2023 年更極端地被算力層捕獲,而不是向應用層轉移。要補一句:賠錢的是買芯片的雲廠,不是賣芯片的英偉達------這恰是他那個「鐵路過度建設」類比的錯位之處。
版權(觀點 14)------登記對,規避侵權錯
> 2023 年王建硕說:AI 生成內容可能規避版權(保護表達不保護思想);生成物可能既不侵權、也無法登記。
「無法登記」成了既定法律事實(2025 年美國版權局明確「僅輸入提示詞不足以主張作者身份」)。但「規避侵權」錯得明顯:法院反復認定 AI 輸出若與原作實質性相似仍構成侵權;Anthropic 因盜版語料以 15 億美元和解,是美國史上最大版權賠償。AI 不僅沒「規避」版權,反而付出了史上最大的代價。
世界大同(觀點 15)------機制對,趨勢賭反了
> 2023 年王建硕說:ChatGPT 把人類觀點做「加權平均」,可對抗抖音式信息茧房,給了「世界大同」的可能。
機制層對了------2025 年多項研究確鑿證實 LLM 把觀點壓向眾數、系統性低估少數派。但社會判斷層賭反了:他自己加的「至少現在不是千人千面」,三年內就被推翻------OpenAI 從 2025 年 4 月起把跨對話記憶和個性化做成默認能力,AI 正高速走向千人千面。更關鍵的是,他把「加權平均」想像成中立的世界公約數,但實測它是帶方向的偏移,還疊加諂媚,可以被用來主動操縱立場------這指向「製造新茧房」,而非「消解極化」。
局部戰爭與成本(觀點 17)------定性全中,定量證偽
> 2023 年王建硕說:再做大模型會迅速淪為「局部戰爭」,成本可知(去掉彎路約 5-10 億美金封頂),會有很多玩家進入。
定性方向對得驚人------大量玩家湧入、迅速商品化、開源追平閉源,全兌現了。但「5-10 億封頂」這硬數字兩端都錯:前沿端被嚴重低估(GPT-5 級 2026 年達 2-5 億美金訓練,疊加千億級數據中心和 5000 億的 Stargate);復刻端又被高估(DeepSeek 把邊際訓練成本壓到百萬美金級)。同一個模型的「成本」按口徑能差 200 倍,唯獨不在他給的那個區間裡。
湧現能力(觀點 5)------方向對,數字和框定錯
> 2023 年王建硕說:約 60B 參數以上出現原始語料裡沒有、研究者也無法解釋的新能力。
方向性直覺成立,但兩處表述站不住:其一,不存在統一的「60B 閾值」------思維鏈的真實門檻約 100B,不同能力在 13B 到 540B 不等的規模上出現;其二,「無法解釋」在 2023 年底就被一篇 NeurIPS 傑出論文挑戰------很多「突變」是評測指標選擇造成的假象,換連續指標後曲線平滑可預測。公平地說,當年他復述的是絕對主流的敘事,真正可糾正的是把「60B」當硬閾值、把「無法解釋」當定性結論。
四、三年回看,幾條規律
逐條對完帳,退後一步看,王建硕這二十條判斷裡藏著幾條比任何單條都更值得記下來的規律。
一、方向遠比數字和程度靠谱。 二十條裡,凡是判斷機制和方向的(RAG、LUI、機器人網絡、圖靈測試),幾乎全中;凡是給了具體數字或封頂措辭的(100T 參數、60B 閾值、5-10 億成本、數學「不可能」),幾乎全錯。對快速變化的領域,押方向、押機制,少押精確數字,更要警惕「不可能、一定、封頂、絕無」這類把話說滿的詞------它們是被時間打臉的高發區。
二、時間上,他傾向於高估速度、低估程度。 凡是說「迅速、兩三年做完」的,成熟期普遍更慢;但對能力躍遷的天花板又低估了------數學能從「不可能」到 IMO 金牌,前沿成本能漲到當年想像不到的量級。一句話:短期太樂觀,長期太保守。
三、最隱蔽的錯,反復出在「分布」上。 不是方向錯,而是只看總量、忽略分布。「不會失業潮」對,但傷害高度集中在年輕新人;「價值落應用層」對了一半,但沒區分算力層和模型層。總量正確,掩蓋了分布災難------這是最該補的一課。
四、把話留有餘地的地方,三年後都經得起檢驗。 「傳聞」「至少現在」「大幅降低而非消除」「雛形兩三年、成熟約十年」------凡是當年帶了限定詞、分了層次的判斷,今天回看都更站得住。反而是脫口而出的絕對句,最容易翻車。預測的誠實,一半在於敢說,另一半在於敢標註自己的不確定。
五、有些問題,三年根本不夠。 價值最終歸誰、湧現是不是真相變、機器到底有沒有一絲意識、長上下文會不會吃掉 RAG------這些當年的爭論,到 2026 年依然是爭論。能區分「已經有答案的」和「還得繼續等的」,比急著給每件事下結論更重要。
三年前的王建硕,憑直覺在 GPT-4 還沒出來的迷霧裡指了二十個方向。今天對完帳,最該記住的一句話或許是:看對大方向其實沒那麼難,難的是承認自己在數字、速度和分布上一次次想當然。這二十條帳,與其說是給過去打分,不如說是給未來三年立的幾條規矩。下一個三年,2029 年再來對一次。














