當AI助手終於學會「想像未來」：南方科技大學等多所頂尖高校聯手揭示讓AI理解世界運轉規律的全新框架

這項由南方科技大學、愛丁堡大學、北京大學、中山大學、香港中文大學、上海財經大學、清華大學、香港大學等多所機構聯合完成的綜述研究，以預印本形式發布於2026年6月，論文編號為arXiv:2606.09032，系統梳理了"文本世界模型"這一快速興起的研究方向，是該領域迄今為止最完整的綜合性回顧。

贊助商廣告

你有沒有遇到過這種情況：你讓一個AI助手幫你在網上完成某個任務，它每走一步都像一個沒有任何預期的機器人，只知道眼前的命令，完全不會預判"如果我點了這個按鈕，接下來會發生什麼"。這就好像一個廚師每炒一道菜都沒有菜譜，只是盯著當前的鍋，根本不知道下一步該放什麼調料，也不知道火候該調多大。

這正是當前大多數AI智能體面臨的核心困境。它們被設計成"反應式"機器——看到什麼就回應什麼，卻缺少一種對世界如何運轉的內在理解。而這篇綜述研究的主角，就是彌補這一空缺的關鍵工具：**文本世界模型**（Text World Models，簡稱TWM）。

文本世界模型做的事情，本質上是賦予AI一種"預見力"。給它一個當前的狀態和一個準備執行的動作，它就能預測接下來會發生什麼——網頁會變成什麼樣、代碼運行會輸出什麼、用戶可能如何回應。有了這種能力，AI就不再是只會盯著當前這口鍋的廚師，而是一個拿著完整菜譜、能規劃整道菜流程的大廚。

---

一、AI助手為什麼需要一張"世界地圖"

回到廚師的比喻。一個有經驗的廚師在下鍋之前，腦子裡已經有了整道菜的預期：這一步放鹽之後湯會變咸，下一步加熱會讓食材變軟，最終成品會是什麼味道。這種"預見"能力讓他們能夠做出更好的決策——什麼時候調整火候，什麼時候加調料，什麼時候可以出鍋。

AI智能體也需要同樣的能力。當一個AI在幫你瀏覽網頁完成某個任務時，它理想中應該能夠在點擊某個按鈕之前，先在腦海中預演一遍：點完之後頁面會跳轉到哪裡，這一步是否讓任務更近了一步，還是會把事情搞砸。當它在幫你修改代碼時，應該能預判一個改動會讓程序報什麼錯，而不是盲目嘗試。

贊助商廣告

然而，現實中的大多數AI助手並沒有這張"世界地圖"。它們的工作方式更像是看圖說話：給它當前的畫面，它說出下一個動作，然後等待真實世界反饋結果，再進行下一步。這個過程完全被動，沒有任何前瞻性。

這個問題之所以在當下變得迫切，是因為AI助手的應用場景越來越複雜。從早期只是回答問題，到現在需要自主瀏覽網頁、編輯代碼倉庫、調用工具API、與用戶進行多輪對話……這些任務少則幾步，多則幾十步，每一步都可能影響後續的走向。沒有世界模型，AI就像一個被蒙著眼睛走迷宮的人，只能靠碰壁來判斷方向。

文本世界模型的核心定義，在這篇綜述中被表達得相當清晰：它是一個**轉換函數**，接受當前狀態和候選動作作為輸入，輸出下一個狀態的文字描述。這裡的"文字描述"可以是一段自然語言的說明，可以是一段結構化的數據，也可以是一段可以運行的代碼。無論哪種形式，目的都是讓AI能夠"讀懂"接下來會發生什麼。

為什麼要強調"文本"？因為現在大多數AI智能體操作的環境，本質上都是文字性的：網頁的源代碼、終端的輸出資訊、API的返回結果、用戶打出來的消息。這種以文字為核心的運作方式，使得文本世界模型天然契合AI助手的應用場景，比那些預測像素畫面或數學狀態向量的傳統世界模型更加實用。

---

二、給AI的"世界認知"畫一張坐標圖

研究團隊提出了一個兩軸坐標系來描述這個領域的全貌，就像用經緯度來定位地球上的任何一個地方。

第一個軸，是**狀態的表達方式**。最靈活的一端是自然語言——用普通的文字描述狀態的變化，比如"用戶點擊了購買按鈕，購物車裡多了一件商品"。這種方式AI很容易生成和理解，但也最容易出錯，因為文字是模糊的，同一件事可以有很多種說法。中間地帶是結構化表示——用規範的JSON格式、知識圖譜或者表格來記錄狀態，就像一份詳細的庫存清單，每件東西放在哪裡寫得清清楚楚。最嚴格的一端是可執行代碼——直接用Python或TypeScript這樣的編程語言來描述狀態轉換，運行代碼就能得到精確答案，沒有任何模糊地帶。

贊助商廣告

第二個軸，是**模擬的世界類型**。物理世界對應那些遵循自然規律的場景，比如機器人導航、遊戲物理引擎、災難現場評估，在這類場景里，有效的狀態轉換取決於常識性的物理法則。數字世界對應各種電腦系統，包括網站界面、作業系統、代碼倉庫、API接口，這類世界的規則由軟體程序定義。社會世界對應人類行為，包括用戶的偏好、意圖、情緒，以及對話中的複雜動態，這類世界最難預測，因為人心是最難建模的。抽象世界則對應那些由明確規則構成的符號化場景，比如數學題、邏輯謎題、棋盤遊戲，這類世界的規則是精確且有限的。

通過這張坐標圖，研究團隊把現有的上百篇研究工作準確定位，讓整個領域的分布一目了然。比如，WebDreamer這個項目落在"自然語言×數字世界"的格子裡，而Code World Model則落在"可執行代碼×數字世界"的格子裡。兩者都在幫AI理解網頁或程序的運轉，但採用了截然不同的表達方式。

---

三、三種不同的"建造世界地圖"的方法

現在來到這篇綜述最核心的內容之一：如何構建一個文本世界模型。研究團隊把現有方法歸納為三條路徑，可以用三種不同的地圖製作方式來類比。

**第一條路徑是學習型方法**，相當於派一個探險隊親自去丈量地形，然後把測量結果記錄下來，畫成地圖。具體做法是：收集大量"狀態→動作→下一個狀態"的真實數據，然後用這些數據來訓練一個AI模型，讓它學會預測狀態轉換。

在訓練目標上，存在兩種選擇。一種叫做"全狀態預測"，每次預測完整的下一個狀態，就像每次繪製完整的新地形圖。這種方式適合狀態比較簡潔的場景，比如文字遊戲和代碼執行。另一種叫做"增量預測"，只預測本次動作引起的變化，就像在舊地圖上標記哪裡新建了一條路。這種方式特別適合網頁這類場景——一個網頁可能有幾千行代碼，但一次點擊通常只改變其中的幾個元素，只預測變化的部分效率高得多。

贊助商廣告

在訓練數據的來源上，研究者們走了差異很大的路。一端是最踏實的方式：直接讓AI智能體在真實環境裡探索，收集真實的操作記錄。WebWorld這個項目就走了這條路，一口氣收集了超過100萬條真實網頁操作記錄，訓練了一個320億參數的大模型。另一端是最"偷懶"但也最省事的方式：完全靠AI自己編造訓練數據，不需要訪問任何真實環境。Simia這個項目用一個AI同時扮演用戶、助手和環境三個角色，從少量種子數據出發，硬是"編"出了9萬多條合成訓練數據。還有一種走向極端的方案：Code World Model在5萬億個詞語規模的代碼執行數據上進行持續預訓練，讓模型通過海量數據自然而然地學會預測程序運行結果。

訓練的方式上，除了最常見的監督學習（照著標準答案訓練），研究者們也嘗試了強化學習。這就好像不告訴探險隊正確答案，而是讓他們根據預測結果的好壞得到獎勵或懲罰，逐步改進自己的預測能力。RLVR-World這個項目用字符串層面的精確匹配作為獎勵信號；RWML則更進一步，用語義相似度來衡量預測質量；而BehR走得最遠，它把獎勵信號定義為"預測結果會不會讓AI做出相同的決策"——因為一個預測，哪怕措辭不同，只要能讓AI做出正確的下一步，就是好的預測。

**第二條路徑是提示型方法**，相當於不派探險隊，而是直接找一個博覽群書的學者，讓他憑藉現有知識來描繪世界。這種方法充分利用大語言模型本身儲存的海量知識，通過精心設計的提示詞，讓凍結參數（即不修改模型權重）的AI扮演世界模擬器的角色。

最簡單的實現方式，是直接給AI描述當前狀態和動作，讓它預測接下來會發生什麼。WebDreamer這個項目就這麼做：給GPT-4o描述當前網頁和候選點擊操作，讓它想像點擊後頁面會變成什麼樣，然後用這個想像出來的結果來評分不同操作的優劣。這種方法零訓練成本，開箱即用，但天花板也很明顯——AI不知道的領域，它只能靠猜，而且隨著預測步數增加，錯誤會快速累積。實驗數據表明，在單步預測上大語言模型的準確率可以超過75%，但在需要預測完整操作流程時，準確率會急劇下降到65%以下。

贊助商廣告

更複雜的實現方式，是給AI配上一個"參考書庫"，讓它在做預測時能查閱相關資料。R-WoM這個項目會先檢索相關的操作教學，然後讓AI根據教學內容來預測接下來的狀態轉換。WorldMind則更進一步，維護一個持續更新的知識庫：每次AI操作成功或失敗，系統都會把經驗提煉成規則存起來，比如"拿刀之前必須先拿起刀鞘"，下次遇到類似情況時直接調用這些規則。

還有一種自我進化型方法，相當於讓那個博學的學者在與世界互動中不斷更新自己的知識。在正式執行任務之前，先讓AI在目標環境裡做一番探索，把觀察到的規律整理成規則，然後把這些規則裝入AI的"工作記憶"，作為後續預測的依據。Steve-Evolving這個項目專門為Minecraft遊戲設計了這樣的機制：每次嘗試結束後，系統都會總結哪些操作序列有效、哪些需要避免，並把這些經驗注入AI規劃者的上下文。

**第三條路徑是編程型方法**，相當於直接編寫一本規則手冊，並且提供一個可以執行這套規則的引擎。這種方法讓AI不再充當預測者，而是充當規則編寫者：AI生成描述世界運轉規律的代碼，代碼本身就是世界模型，執行代碼就能得到精確的狀態轉換結果。

這種方法的巨大優勢是確定性和可驗證性。Code2World讓AI生成HTML代碼，把這段代碼在瀏覽器里渲染出來，就能得到操作後的"下一個網頁截圖"，完全消除了模糊性。AutoWebWorld把網頁環境建模成有限狀態機，每個狀態和轉換都有精確的定義，可以用程序來檢驗。Code World Models則更為徹底，把遊戲規則翻譯成Python代碼，然後用蒙特卡洛樹搜索算法在這個代碼世界裡做規劃，測試結果表明這種方法在大多數評估遊戲上能與甚至超越Gemini 2.5 Pro這樣的頂級商業模型。

當然，這種方法也有明顯局限：必須能夠把目標領域的規則寫成代碼，對於人類社會這類難以形式化的領域，就會力不從心。

贊助商廣告

三條路徑各有所長：學習型方法精度高、壓縮能力強，但需要大量數據，可解釋性差；提示型方法零門檻、適應快，但容易產生幻覺，不夠可靠；編程型方法結果確定、可以驗證、可以復用，但只適用於能用代碼描述的領域。

---

四、世界模型在訓練期間能幫AI做什麼

擁有了世界模型，下一步自然是問：怎麼用它來培養出更好的AI助手？研究團隊梳理出三種完全不同的訓練時使用方式。

**第一種方式是把世界模型的知識"內化"進AI自身的參數**。這就好像不是給廚師一本菜譜，而是讓他把所有菜譜背進腦子裡，以後做菜時自然而然就知道下一步該做什麼，不需要翻書查閱。

具體做法有兩個流派。一個流派是把世界模型當作預熱訓練的工具，先讓AI在世界模型的監督下學習環境動態，然後再切換到正式的任務訓練階段，兩個階段完全分開，避免相互干擾。SPA就是這麼做的：先用自我博弈的方式學習狀態轉換，再用強化學習優化策略，兩階段完全解耦。Early Experience類似，先用兩個輔助目標做預熱，一個是預測下一個狀態，另一個是反思次優動作，然後再進入正式的模仿學習階段。

另一個流派是讓世界模型在推理過程中顯式發揮作用：AI在選擇動作時，先在腦海中預演每個候選動作會導致什麼後果，然後選擇預演結果最好的那個。Dyna-Think就是這種做法的代表，它訓練AI在推理軌跡里先預測候選動作的後果，再做出最終選擇。Dyna-Mind則更進一步，在真實環境中執行動作後，把真實的下一個狀態反饋給AI作為校正信號，同時優化預測準確率和任務成功率，研究者們發現兩者之間存在強烈的正相關關係。

**第二種方式是把世界模型當作一個"訓練操場"**，讓AI在這個虛擬環境裡反覆練習，而不需要接觸真實的網站、真實的代碼庫或真實的用戶。這就像飛行員先在模擬器里積累飛行經驗，再執行真實任務。

贊助商廣告

這種方式按照"操場"與訓練過程的耦合程度，又分為三個層次。最鬆散的是離線軌跡合成：世界模型先生成一批練習數據，然後AI拿著這批數據訓練，兩個過程完全獨立。WebSynthesis用這種方式配合蒙特卡洛樹搜索生成了包含失敗恢復軌跡的練習數據，訓練出來的AI在WebArena-Lite上的表現與用等量真實數據訓練出來的AI相當。

中間檔是在線實時交互：世界模型全程陪同AI訓練，每走一步都實時提供反饋。DreamGym這個項目在沒有任何真實環境訪問權限的情況下，完全依靠一個輕量級的經驗模型提供在線強化學習訓練，在WebArena-Lite上取得了不錯的成績。Simia-RL則有一個出乎意料的發現：在AI模擬的虛擬環境裡訓練，結果居然比在真實環境裡訓練還要好——因為模擬環境提供了更穩定、更易於探索的訓練信號。

最緊密的是協同進化：世界模型和AI策略在同一個訓練循環里同步更新，相互促進。DynaWeb把這個思路徹底實現，把世界模型和策略放進了完整的在線策略強化學習框架里，讓兩者在同一個循環里共同成長。WebEvolver則採用疊代的方式：每一輪，策略和世界模型一起在成功軌跡上微調，更新後的世界模型再為下一輪訓練生成新的練習數據，打破了"固定世界模型"帶來的天花板效應，在Mind2Web-Live、WebVoyager等多個評測上持續提升。

**第三種方式是用世界模型來模擬用戶**，提供一個可以反覆練習對話技能的"假人"。這與模擬系統環境是不同的挑戰，因為真實用戶的行為遠比程序化系統更難以捉摸。

UserRL搭建了一套覆蓋意圖澄清、說服、旅行規劃、工具調用等多種場景的虛擬用戶訓練框架，研究了在輪次層面和軌跡層面如何設計獎勵信號，以及如何通過SFT預熱防止訓練初期崩潰。研究者們用真實用戶進行了驗證，發現一個中等規模的開源模型經過這樣的訓練，表現超越了商業閉源模型。

贊助商廣告

然而真實用戶往往語焉不詳、要求模糊。Sun等人通過"提示模糊化"來模擬這種情況——把精確的任務描述自動改寫成含糊的版本，訓練AI學會在必要時主動追問，而不是盲目執行。Echo-N1則進入了情感領域，專門訓練模型應對用戶的情緒反應，開發了專用的人性化獎勵模型和共情獎勵模型。HER走得更遠，引入了雙層思維機制：AI既要在系統層面規劃自己的行動，又要保持角色一致性，同時配備了一個對齊人類價值觀的生成式獎勵模型。

不過，模擬用戶的最大風險，是模擬用戶過於配合、過於禮貌，導致AI在真實用戶面前"翻車"。UserLM這個項目的研究者們用真實的人機對話數據訓練了一個專門的用戶模型，然後發現：用這個更真實的用戶模型來測試AI時，AI的表現明顯下降了——這說明很多看似優秀的AI助手，其實只是學會了討好那些過於寬容的模擬用戶，而非真正滿足了人類需求。

---

五、推理時世界模型怎麼幫AI做出更好的決策

世界模型不僅能在訓練階段發揮作用，在AI實際執行任務時，它同樣可以作為一個實時的輔助工具，幫AI在行動之前先"想清楚"。

**第一種推理時的使用方式，是作為模擬器進行前瞻性推演**。這就像一個棋手在落子之前，先在腦海中把接下來幾步都推演一遍，然後選擇最優的那步棋。

最輕量的前瞻是單步展望：AI列出所有候選動作，讓世界模型預測每個候選動作的直接後果，然後挑選後果最理想的那個。WMA就是用這種方式，讓世界模型生成每個候選動作對應的狀態變化描述，再用價值函數給這些描述評分，以接近樹搜索算法效果的同時大幅降低計算成本。WebDreamer走的是同樣的路子，但完全不需要專門訓練，直接讓GPT-4o發揮想像力描述每個操作的後果。

當一步展望不夠用時，就需要深度樹搜索——把世界模型當作多步推演的引擎，建立一棵搜索樹來系統性地探索未來的可能性。LLM-MCTS是這個方向的先驅，讓大語言模型生成候選動作和狀態估計，再用蒙特卡洛樹搜索提供系統化的探索。RAP把同一個大語言模型同時充當世界模型和決策者，在積木世界任務上，讓一個330億參數的模型超越了GPT-4的思維鏈推理——說明藉助結構化搜索，規模較小的模型完全可能勝過規模更大但不做前瞻的模型。LATS則在樹搜索的基礎上加入了對失敗軌跡的反思，把每次搜索失敗都轉化為學習機會。

贊助商廣告

WALL-E 2.0採用了一種混合方案：把世界狀態表示為符號規則（包括動作規則、知識圖譜、場景圖），用大語言模型在這套形式化框架內預測前提條件和效果，再應用模型預測控制來做規劃，在ALFWorld評測上取得了當時報道的最高成功率。

**第二種推理時的使用方式，是作為驗證器來篩選或改寫候選動作**。這不需要主動建立搜索樹，而是等AI按照正常流程提出動作之後，再讓世界模型充當"質檢員"——預測這個動作的後果，判斷它是否值得執行。

最簡單的驗證方式是單個動作的安全關卡：如果世界模型預測這個動作會導致災難，就攔截它，換一個。Word2World中的世界模型就承擔了這個角色，模擬每個動作的後果，只有預測成功的動作才被放行。

更精細的方式是多候選排名：AI一次性提出多個候選動作，世界模型給每個候選的預期後果評分，然後選擇得分最高的那個來實際執行。SWE-World專門為軟體工程任務設計，讓世界模型為候選代碼補丁生成虛擬測試報告，選擇報告最好的補丁提交，避免了在真實環境中跑耗時的測試。CUWM為圖形界面操作任務設計了兩階段驗證：先預測UI變化的文字描述，再根據這個描述生成預期的截圖，只有截圖最符合目標的候選操作才會被執行。FOREAGENT服務於自動機器學習場景，用世界模型預測哪個候選解決方案的性能更好，然後只執行預測獲勝的那個，節省了大量昂貴的實際訓練時間。

當所有候選都不夠好時，還有一種更強力的方式：回退重生成。WAC實現了一個疊代循環：對每個候選，世界模型預測其後果，評判者打出置信度評分並附上理由，如果所有候選的置信度都低於閾值，那麼低置信度的候選連同評判理由一起被反饋給原來的AI，讓它重新生成更好的候選動作。這種閉環糾錯在VisualWebArena上的表現持續超越僅做候選排名的方法。

---

六、如何知道一個世界模型到底好不好

贊助商廣告

建出來世界模型，怎麼評價它的質量？這是整個研究領域面臨的一個棘手問題，因為"好"的標準可能完全不同——取決於你用它來做什麼。

**第一類評估方式關注預測本身的準確性**。最基礎的指標是精確匹配率：預測的下一個狀態，是否與真實的下一個狀態一字不差地吻合。ByteSized32這個基準測試用文字遊戲中的狀態轉換來考驗大語言模型，發現即使是最強的前沿模型在非平凡轉換上表現也很普通，尤其在涉及算術或環境物理的任務上。經過專門微調的較小模型能夠大幅彌補這個差距，在結構化環境（如ALFWorld、SciWorld）上幾乎達到飽和，但在開放式環境（如WebShop）上仍有顯著差距。這種"微調模型vs.提示模型"之間的差距，是這個領域最穩定的經驗規律之一。

然而，單步準確性並不等於長序列可靠性。"一致性比率"衡量在世界模型中成功的軌跡，有多少在真實環境中也能成功——結構化環境裡這個比率保持得不錯，但開放式環境裡會快速下降。更精細的CRpw指標在軌跡層面做測量，並發現了一個有趣的病理：一個預測可能在文字層面和語義層面都很接近真實狀態，但恰好遺漏了那個最關鍵的詞（比如目標產品的名稱），導致AI做出了錯誤的決策；而另一個在文字上看起來差別很大的預測，只要保留了那個關鍵詞，就能引導AI做出正確決策。這個發現直接啟發了BehR中的行為一致性訓練信號。

針對多模態和部分可觀測場景，WorldPrediction把評估改造成判別任務：給定初始狀態和終止狀態，模型需要從多個干擾選項中選出真正執行的動作是哪個，最強的模型表現仍遠低於人類。ENACT在具身環境中發現了類似的差距，前沿模型在多步前向推理上接近隨機水準，而人類保持高度準確。

**第二類評估方式關注實際任務效用**：預測準確不一定意味著有用。Task2Quiz特別值得關注，它區分了"任務成功率"和"環境理解分數"——任務成功率隨任務難度急劇下降，而環境理解分數相對穩定。這說明AI可以在不真正理解世界的情況下完成任務，也可以在理解世界的情況下因為其他原因失敗任務。任務性能作為世界模型質量代理指標的有效性，因此受到了質疑。

贊助商廣告

Text2World專門測試AI能否把自然語言描述的規則轉化成可執行的PDDL規劃語言，評估包括可執行性和各組件的F1分數，發現即使最強的模型在前提條件和效果的F1分數上也表現平平，除非配備疊代式錯誤修正機制。

**第三類評估方式把世界模型本身變成評估工具**。既然世界模型可以模擬用戶和環境，那為什麼不直接用它來測試AI助手的能力呢？τ-bench是這個方向的代表性工作，它設計了包含隱藏狀態後端的工具-智能體-用戶三方交互場景，驗證以終端狀態來評估AI的能力。τ?-bench把這個框架擴展到雙重控制的部分可觀測決策問題，讓AI和模擬用戶都擁有決策權。LifeSim面向更長時間跨度的個人生活模擬，用包含信念-欲望-意圖的用戶模型覆蓋8個生活領域，評估AI對隱性意圖的識別和長期偏好的追蹤。

然而，這類評估有一個根本性的悖論：如果模擬用戶過於配合，測試結果就會高估AI的真實能力。大量研究證實了這一擔憂。Zhou等人比較了31個大語言模型模擬器和451位真實參與者在165項任務上的表現差異，引入了"用戶模擬指數"，發現許多模擬器通過過於禮貌和寬容創造了一種"簡單模式"。Seshadri等人在τ-bench的零售場景中發現，模擬器對不同人口群體和方言群體的忠實度參差不齊，這使得模擬器有效性不僅是技術問題，也是公平性問題。

---

七、這個領域還有哪些懸而未決的難題

研究團隊在綜述的最後，坦誠地列出了若干目前仍未解決的核心挑戰。

世界模型與策略之間的耦合程度，是一個貫穿整個領域卻很少被明確討論的設計選擇。一種極端是讓同一個大語言模型同時充當世界模型和決策者，共用全部參數；另一種極端是把專門訓練的世界模型和策略完全分離，獨立優化。共用參數的好處是不存在狀態語言漂移，不需要額外的推理開銷，但世界模型的錯誤會直接影響策略梯度，兩個目標爭奪模型容量的問題也難以察覺。完全分離的好處是兩個模組可以獨立擴展，一個世界模型可以服務多個不同策略，但策略必須精確消化世界模型產生的狀態表示，任何詞彙或粒度上的漂移都會悄悄破壞推演質量。目前研究界對這個問題的處理普遍比較隨意，需要更系統性的比較研究。

贊助商廣告

大多數文本世界模型只是直接預測下一個狀態，沒有任何中間推理步驟。但在某些複雜場景里，預測本身就是一個需要多步推理的任務：預測代碼執行結果需要逐行追蹤控制流，預測科學實驗結果需要理解因果鏈條，預測用戶反應需要推斷其隱性意圖。已有早期證據表明推理型模型可以充當有效的世界模擬器，思維鏈目標也在多個項目中顯著改善了轉換預測質量，但如何系統性地賦予世界模型推理能力，以及推理深度應如何隨預測難度自適應調節，目前仍缺乏系統研究。

當前的文本世界模型通常只為單一生命周期階段設計——要麼用於構建，要麼用於訓練，要麼用於推理評估。一個為預測準確性訓練的世界模型，未必適合用在樹搜索里；而一個針對訓練回滾優化的世界模型，也未必是好的評估工具。如何設計能夠跨越多個生命周期階段服務的統一架構，是一個重要但目前少有人觸及的方向。

Qian等人的研究發現，當前AI智能體幾乎不會主動藉助世界模型來做前瞻，有些甚至在不到1%的情節中使用過世界模型。這說明智能體架構本身就沒有被設計成能夠有效利用世界模型預測的形態。未來的智能體設計需要明確回答：何時應該查詢世界模型，對預測結果應該賦予多高的可信度，以及當預測出錯時如何及時糾正。

此外，現實世界中的環境不是靜止的——網站會更新，API會變化，用戶偏好會漂移。已有的測試時適應方法處理了短期變化，但如何讓世界模型持續學習、在新環境中更新知識的同時不忘記舊環境，目前仍然幾乎是空白。

---

說到底，這篇綜述做的事情，是給一個正在快速膨脹、卻缺少統一坐標系的研究領域，畫了一張完整的地圖。從2023年的幾個先驅項目，到2025年的爆發式增長，再到2026年初已有數十個新工作湧現，這個領域用了不到三年時間走過了其他研究領域可能需要十年才能走完的路。

贊助商廣告

這張地圖告訴我們，無論是構建方法、訓練時使用方式、推理時使用方式還是評估標準，整個領域都在朝著同一個方向移動：從靜態、被動、只關注表面字符匹配的系統，走向動態、主動、關注行為後果的系統。世界模型正在從一次性構建的固定資產，進化成與AI策略共同成長的動態夥伴。

對於普通用戶而言，這意味著未來的AI助手將不再只是"按鍵回答"的自動機，而是真正能夠理解任務脈絡、預判行動後果、在複雜多步任務中做出明智選擇的智能夥伴。這個轉變什麼時候會真正抵達我們的日常使用體驗，取決於研究者們多快能解決那幾個還懸而未決的核心難題。有興趣深入了解這一領域全貌的讀者，可以通過編號arXiv:2606.09032查詢完整的原始綜述。

---

Q&A

Q1：文本世界模型和普通的大語言模型有什麼本質區別？

A：普通大語言模型的核心任務是回答問題或生成文本，而文本世界模型的核心任務是預測狀態轉換——給定當前環境狀態和一個將要執行的動作，輸出執行後環境會變成什麼樣。普通大語言模型可以被當作文本世界模型來使用，但兩者的角色和評估標準不同。文本世界模型強調的是預測的準確性、一致性和對下游決策的影響，而不僅僅是生成流暢的文字。

Q2：文本世界模型在實際產品中已經有應用了嗎？

A：目前大多數相關工作仍處於研究階段，但一些能力已經在實際智能體產品中以不同形式存在，例如讓AI在點擊網頁前先預判結果、讓代碼智能體預測修改後的運行結果。這篇綜述覆蓋的研究來自2023至2026年，其中不少工作已在WebArena、SWE-bench等公認評測上展現出對比傳統方法的明顯提升，商業化落地正在加速。

Q3：為什麼模擬用戶的世界模型那麼難做好？

A：真實用戶的行為具有高度不確定性，受情緒、偏好、文化背景、表達習慣等多重因素影響，很難用規則或數據完全捕捉。更麻煩的是，用來訓練和評估模擬用戶的"標準答案"本身也是人工智慧生成的，形成了一個自我參照的循環。多項研究發現，現有的模擬用戶普遍過於配合、過於禮貌，導致在模擬環境中表現優秀的AI助手在面對真實用戶時表現大打折扣，這個"模擬到真實"的差距目前仍是這個領域最難突破的瓶頸之一。

贊助商廣告