DeepMind世界模型研究員：是否Transformer架構不重要，AGI瓶頸在別處

Demis Hassabis在CNBC開年採訪中給了一個判斷：AGI DeepMind世界模型研究員是否Transformer架構不重要AGI瓶頸在別處還差一塊拼圖，可能是世界模型。

贊助商廣告

他維持"5-10年實現AGI"的預測。2010年創立DeepMind時，他預計這是一個20年的任務，現在看來進度符合預期。但他也承認，Scaling Laws DeepMind世界模型研究員是否Transformer架構不重要AGI瓶頸在別處雖然仍在有效，回報卻在遞減。"'遞減回報'和'零回報'是兩回事，我們仍然處於'非常好的回報值得繼續投入'的階段。"關鍵不是scaling laws是否觸頂，而是它能否單獨帶我們到達AGI。Hassabis的判斷是：可能不行。

他用"jagged intelligences DeepMind世界模型研究員是否Transformer架構不重要AGI瓶頸在別處 "（參差不齊的智能）來形容當前的大模型：某些維度表現驚人，但換個提問方式就露餡。真正的通用智能不應該有這種不一致性。當前LLM缺失的關鍵能力包括：無法持續學習新事物、無法真正創造原創內容、無法提出新的科學假設。

所以，世界模型可能是那塊缺失的拼圖。它與LLM的區別在於：LLM主要處理文本和靜態內容，但理解物理世界的因果關係、進行長期規劃，這些能力是缺失的。"如果你想解釋世界上以前不為人知的東西——這正是科學理論做的事——你必須有一個關於世界如何運作的準確模型。"

DeepMind在世界模型方向上有多條並行的研究路線。Hassabis提到的Genie DeepMind世界模型研究員是否Transformer架構不重要AGI瓶頸在別處（交互式世界模型）側重於從文本或圖像生成可交互的3D環境，最新的Genie 3可以實時生成720p、24fps的交互世界，用於訓練embodied agent。VEO（影片生成模型）側重於高質量影片生成，展示了對物理的深度理解，Genie 3就建立在VEO 3的物理理解基礎上。

但Hassabis的採訪畢竟是CEO視角，戰略層面講得多，技術細節講得少。世界模型用於訓練agent的具體機制是什麼？當前的瓶頸在哪裡？這些問題我沒找到好的答案。

然後就刷到了Danijar Hafner的播客採訪（BuzzRobot頻道）。他是Google DeepMind Staff Research Scientist，也是Dreamer DeepMind世界模型研究員是否Transformer架構不重要AGI瓶頸在別處系列的作者。Dreamer是DeepMind世界模型的另一條研究路線，和Genie/VEO側重點不同——後面會詳細解釋。Hafner既做前沿研究，又親手把模型scale到前沿影片模型的規模。他的視角兼具理論深度和工程務實。

贊助商廣告

說起來，AI實驗室的研究員公開講內部進展，風險不小。xAI研究員Sulaiman Khan Ghori上周剛做了一期播客，聊了不少內部細節：公司的扁平結構、每天在"Macrohard"項目上調整模型、用閒置Tesla車輛做"人類模擬器"agent的計劃、要scale到一百萬個這樣的AI worker。播客1月15日上線，周一他就離職了，個人簡介改成了"MACROHARD @xAI prev."。外界猜測是泄露太多被請走。

相比之下，Google這邊開放得多。Hafner在播客里講了很多DeepMind世界模型的進展，包括一些沒發表的scaling實驗結果。

世界模型：在想像中學習

先把概念講清楚。

世界模型的核心思想是：與其讓機器人在真實世界裡摔一萬次來學走路（昂貴、危險、慢），不如先學一個能預測物理世界變化的模型，然後在這個"想像"中大量訓練。想像中摔一萬次，成本幾乎為零。

這和傳統強化學習的區別在於：傳統方法讓agent直接和環境交互試錯，每一次試錯都有成本；世界模型的思路是先學會預測"如果我做X，環境會變成什麼樣"，然後agent在這個預測出來的世界裡大量練習，最後再到真實環境驗證。

Dreamer的定位和Genie不同。Genie側重於"環境生成"——從文本或圖像prompt生成多樣化的可交互3D環境，讓用戶可以在裡面導航和探索。Dreamer側重於"agent訓練"——在準確的世界模型里，用強化學習訓練agent完成具體的控制任務。

兩者的技術差異很明顯。Hafner在Dreamer 4論文中指出，Genie 3只支持攝像機動作和一個通用"interact"按鈕，而Minecraft需要完整的滑鼠鍵盤動作空間。Genie能生成多樣場景，但"在學習物體交互和遊戲機制的精確物理方面仍有困難"。Dreamer的優勢是準確物理預測——它真的學會了打破方塊、使用工具、和工作檯交互這些遊戲機制——以及單GPU實時推理。

這也是為什麼Hafner的研究和影片預測緊密相關。影片預測本質上就是在學世界模型。如果一個模型能準確預測影片的下一幀，它某種程度上就"理解"了那部分物理世界的運作規律。要預測一個物體怎麼移動，你必須知道它的質量、摩擦力、另一面長什麼樣（因為它可能會旋轉）、物體之間怎麼相互作用、人怎麼和物體互動。這些資訊，都可以從影片預測中提取出來。

贊助商廣告

Dreamer系列已經疊代到第四代了，每一代解決不同的問題。

前三代專注在線學習——從頭開始通過與環境交互學習，追求數據效率和最終性能。到Dreamer 2為止，model-based算法學得很快但會max out；model-free方法需要更多數據但天花板更高。Dreamer 3終於做到了既快又強，而且不用調超參數。他們用Minecraft鑽石挑戰驗證——只從稀疏獎勵從頭學會獲取鑽石，這被廣泛認為是AI的一個里程碑。

Dreamer 4則完全反過來，專注離線學習。Hafner的原話是："等等，我們已經知道怎麼在線學習了，那離線學習呢？"有時候和環境交互是危險的，你只有一個固定的人類數據集，能從中提取多強的策略？同樣用Minecraft鑽石任務驗證，但這次只用人類數據——而且用的數據量只有OpenAI的VPT離線agent的1/100。

兩者都不是完美解決方案，只是在隔離的實驗設置中解決特定問題。未來自然會把這些融合在一起。

架構不重要，這四件事才重要

Hafner有一個判斷很反直覺：幾乎任何架構都能帶我們到AGI。

Transformer能到AGI，RNN也能，差別只是計算效率和當前硬體的適配程度。RNN訓練慢一點、推理快一點、可能需要更大模型來彌補架構瓶頸，但最終都能到。所以，關於Transformer vs Mamba vs SSM之類的架構之爭，在Hafner看來更多是效率問題，而非根本性問題。

那什麼才重要？Hafner列了四件事：compute、objective functions（目標函數）、data、以及RL算法細節。比如長期信用分配（long-term credit assignment）比基礎RL需要做得更好。架構只是承載這些的容器。

另一個相關判斷："LLM能否帶我們到AGI"這個問題本身已經過時了。為什麼？因為當下部署的前沿模型已經不是純LLM了——有圖像理解、圖像生成、影片理解，影片生成也快合進來了。討論"LLM的局限"有點像討論"汽車能不能上天"——汽車不能，但加上翅膀的汽車能。

那AGI還缺什麼？Hafner點了幾個具體的能力缺口。

贊助商廣告

長上下文理解。現在的模型號稱百萬token上下文，但對影片來說遠遠不夠，影片的token量太大。而且即使有了長上下文，模型真正基於全部上下文來檢索和推理的能力還沒到位。可能的方向包括：混合retrieval模型、學習狀態表示同時做注意力、類似Transformer但不需要回溯的關聯記憶。Hafner提到，Transformer之前有很多酷想法，只是當時太早了——"當時重要的不是長期記憶或花哨的尋址機制，而是scale up和計算效率。"

超越人類的推理。從人類學推理很容易，但這樣就被人類能力上限鎖死了。AI系統應該能自己發現推理方式。這意味著要從原始的高維數據（影片、音頻、人類生活數據、機器人數據）中提取抽象概念，然後在這些概念上做規劃。Hafner坦言："我認為我們還沒有很好地掌握如何做到這一點。"

In-context learning的根本局限

這是播客中一個重要但容易被忽視的討論。

訓練神經網路時，你用目標函數優化它，訓練越多就越好。但in-context learning是完全不同的機制。Hafner說："你只是希望模型學會了以看起來像學習的方式泛化。但系統里沒有任何東西會讓它真正aggressive地優化任何目標。它並沒有真正努力去記住，沒有真正努力去理解上下文中的模式。"

我們可以通過構造巧妙的訓練樣本（強迫模型解謎題、記東西）來把這些能力訓進權重里，但那終究是學習來的算法，可能不如真正做優化那麼goal-directed。

一種可能的方向是nested learning DeepMind世界模型研究員是否Transformer架構不重要AGI瓶頸在別處（嵌套學習）：讓模型的一部分在推理時快速學習上下文，而不是像現在的GPT那樣上下文通過後就丟棄。Hafner指出一個根本性問題："你沒法在推理時優化，所以再多的預訓練也無法預見推理時會輸入什麼。"

他還提到可能需要多個學習時間尺度。快的時間尺度訓練效率更高，慢的時間尺度學習更深度的東西。他能想像一種通用算法，你可以說"我要k=5個學習時間尺度"。目前還沒有在這個空間裡真正work的算法，但這是個很有意思的方向。

贊助商廣告

有一種方式是：如果你有百萬用戶，也許可以把1萬個用戶交互batch在一起做一次更新，模型就真正深度學習了。現在GPT-4發布後和用戶交互產生的數據要等1-2年才能影響GPT-5。能不能把這個周期縮到幾天，甚至幾秒？理論上能，但挑戰巨大：大模型訓練太貴、在線更新時保持安全性很難、靜態模型更容易研究和修補quirks。

這些想法——nested learning、多時間尺度學習、持續學習——很多都受神經科學啟發。Hafner提到一個有意思的觀點：Hassabis的導師Thomas Poggio說，2015年Demis認為構建通用智能是80%神經科學、20%工程；最近更新成了90%工程。但Hafner認為，"既然我們最近把工程推得這麼遠，回去從神經科學獲取直覺的價值反而越來越大了。"

Scaling的發現：影片模型的天花板遠得很

Hafner透露了一些沒發表的結果：他們把世界模型scale到了前沿影片模型的規模，效果很好。

更重要的是他的判斷：影片模型的scaling天花板，比文本模型高至少一個數量級。

為什麼？因為影片蘊含的資訊量遠超文本。即使是頂級影片模型，"基本上也是欠擬合的"。現在的影片模型為了生成漂亮的電影片段做了collapse，但如果目標是真正理解物理世界（而不只是生成漂亮影片），scaling的空間巨大。

Hafner說，模型越大，各方面都會變得更銳利。比如庫存預測（在Minecraft中），如果模型太小就不準確。你可以專門收集這方面的數據來改進，但另一種方式是把模型做大8倍，它自然就會在庫存動態上變得很好。他們還做了完整的YouTube預訓練實驗——抓取大數據集、過濾質量、在上面訓練——那時候才真正看到強泛化收益。

這和Hassabis的判斷呼應。Hassabis說world model可能是通向AGI缺失的那塊拼圖，Hafner則從工程視角告訴你：這塊拼圖的潛力，我們才挖掘了一小部分。

不過Hafner也提到了世界模型的局限。Dreamer 4隻用人類數據訓練時，遇到了反事實問題：人類玩家從不嘗試用錯誤材料做鎬子（比如用鑽石做木鎬），所以世界模型不知道那些配方不存在，RL agent會exploit這些漏洞——它看起來像是在做鎬子，世界模型就"好吧，給你一個鎬子"，儘管那個配方根本不存在。

贊助商廣告

解決方案是2-3輪環境交互的校正數據，問題就消失了。這裡有個重要的動態：RL agent會找到世界模型的所有潛在漏洞，然後在真實環境部署獲得反饋，形成對抗博弈。最終世界模型會變得robust，策略也會變強。

換句話說，純離線數據在真實世界不可能完美，必須與環境交互才能學到真正的因果模型。

目標函數：被低估的設計空間

Hafner認為目標函數是一個被低估的改進方向。

他把目標函數分成兩類。一類是偏好型（reward、inductive bias）：由人類指定，沒有數學公式能描述，必須從人類反饋中學習。另一類是資訊型（預測、重構、好奇心）：讓模型理解數據本身。兩邊都有很大改進空間。

對於文本，next token prediction可以走很遠，但也有更多可以做的——比如同時預測多個token，可以讓模型更有遠見。

對於多模態，現在基本上是各種loss的縫合怪：視覺encoder用對比損失、文本用next token、圖像生成用diffusion，還要平衡所有這些loss。Hafner認為可能有辦法把一切統一起來，"讓我們的生活更簡單，最終也能獲得更好的性能"。不同loss對不同模態有好處，但他認為這不是根本性的trade-off，如果能抽象出來，好處可以跨模態共享。

對於agent，短期RL（1000步以內）現在很穩定了，但端到端優化長horizon任務還不行，誤差在每個時間步累積。探索目標、goal-reaching目標、通用的robust reward model——這些都缺好的目標函數設計。

Hafner的判斷是："唯一缺的基本上就是目標函數。你可以說我們沒有數據，但說實話數據就在那兒，人工收集也不難，真正缺的是如何構建這樣系統的idea。我們做了那麼多scaling和數據工程，已經很擅長這些了，不應該停下來。但這些現在不那麼難了，我們又回到了搞算法的階段。"

預訓練和強化學習的分工

預訓練從樣本學知識，高效，適合吸收資訊。強化學習從reward學策略，適合優化。

贊助商廣告

Hafner解釋了為什麼RL比預訓練更難學知識：用reward學習，你必須先猜一個知識點，然後模型才被告知猜得對不對。這比直接從樣本中吸收資訊低效得多。

但RL在優化策略上無可替代。關鍵問題是：獲取最優控制數據幾乎不可能。人類數據不是optimal的，你讓contractor收集數據，可能要扔掉99%，而且optimal還依賴於horizon長度——理想情況下你要對很長的horizon最優。這就是RL的價值——你不需要optimal數據，只需要讓模型自己試錯找到更好的策略。

人類也是這樣：通過觀察學知識（預測接下來會發生什麼），通過試錯學技能（強化學習）。觀察也能學到一些粗略但不精確的技能，因為我們預測別人會做什麼時用的心理表徵和我們自己的表徵差不多，所以能泛化到想像自己做那些事。

對機器人的意義：兩波衝擊

世界模型對機器人的影響，Hafner認為會有兩波。

第一波是表徵。從影片預測模型學到的表徵，對物理世界的理解遠超現在的VLM。精確物體位置、物理屬性（這個盤子有多滑？這個杯子要握多緊茶才不會灑？如果我從把手拿起這個杯子，要握多緊它才不會從手裡滑出去？）——這些對控制至關重要的資訊，是影片預測的副產品。

從頭訓練策略需要大量數據，得到的策略窄而脆弱，只能在特定場景下工作；用預訓練VLM好一點，但那些表徵還不是為物理層面的世界理解設計的。用影片預測模型的表徵做imitation learning，效果已經massively better。

第二波是虛擬訓練。足夠多樣的預訓練加上少量機器人數據微調，世界模型就能模擬機器人在任意場景中的表現。Hafner的原話是："你可以在數據中心裡，讓機器人在一百萬個廚房、做一百萬種餐食，全部並行訓練。不用真的租一百萬間Airbnb、造一百萬台機器人、把它們運到城市各處。"

大規模做這件事還有挑戰，但Hafner認為這是機器人領域的第二個step change。Dreamer 4的論文展示了完整的recipe：添加agent token訓練BC策略，然後訓練reward model，然後RL微調。

贊助商廣告

關於時間表，Hafner給了一個預估：機器人可能在三到五年內，朝著實用的通用機器人產品的第一個版本取得很好的進展。複雜的長期推理可能要5-10年才能crack，但實用的通用機器人不需要等那麼久。

這和Hassabis的判斷吻合。Hassabis在採訪中說，2026年機器人領域會有非常有趣的進展，DeepMind正在用Gemini Robotics做一些雄心勃勃的項目。CNBC主持人對此持懷疑態度——很多機器人其實是"提線木偶"，由控制室的人遠程操控（比如Tesla的Optimus機器人）。但正因為如此，世界模型才重要：機器人要真正自主運作，需要理解物理世界。

LLM為什麼在邊緣情況產生幻覺

Hafner有個有趣的解釋，涉及到agent和環境的關係。

Agent會收斂到一個distribution，在那裡它能合理地達成目標，也能合理地預測會發生什麼。系統在那個數據上練得多，分配的模型容量也都在那個相關分布上，所以不太會失敗。但也會開始遺忘其他東西。

另一種構建更強系統的方式是做大、用更多數據訓練，擴大這個niche。但分布邊緣總會有模型出錯、泛化失敗、產生幻覺的地方。

Hafner說："我認為這就是我們現在在LLM上看到的——它們在大部分分布內的東西上都相當通用、相當好，但在邊緣地帶會被絆倒、錯誤泛化、產生幻覺。"

做一些在線RL會幫助精煉系統：如果它產生幻覺，用戶不滿意，就會得到負reward，然後要麼學會正確答案，要麼學會說"我不知道"，最終落在一個非常穩固的分布上。

小結

把Hafner和Hassabis的觀點放在一起看，有幾個交叉驗證的判斷：

世界模型是重要方向。Hassabis說這可能是AGI缺失的拼圖，Hafner則在一線做這件事，而且透露scaling到前沿規模效果很好。

影片模型的潛力還沒充分釋放。Scaling空間至少比文本大一個數量級，頂級模型還在欠擬合。

架構不是瓶頸。Transformer、RNN都能到AGI，真正重要的是compute、目標函數、數據、算法細節。當前模型已經不是純LLM了。

贊助商廣告