南方科技大學等聯合團隊的新研究：讓AI智能體在「練習」中順便學會理解世界

這項由南方科技大學、香港科技大學、香港科技大學（廣州）、香港理工大學以及LIGHTSPEED聯合開展的研究，以預印本形式發布於2026年6月，論文編號為arXiv:2606.02388，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

當我們談論AI智能體的時候，腦海中浮現的往往是那種能夠自主操作網頁、在虛擬房間裡完成任務、或者幫你搜索資訊的"數字助手"。訓練這類助手的主流方式，叫做強化學習——說白了，就是讓AI不斷嘗試，做對了就給獎勵，做錯了就扣分，慢慢學會哪些行動能拿到高分。這套邏輯聽起來很像訓練小狗：做對了給零食，做錯了不給。

然而問題來了：小狗做了某個動作之後，它會立刻看到環境的反應——你皺了眉頭，或者開心地摸了摸它。但用強化學習訓練的AI智能體，接收到的只是"任務完成"或"任務失敗"這樣的最終評分。至於它每一步操作到底對世界造成了什麼影響，它幾乎一無所知。這就像一個廚師只知道最後這道菜被評了幾分，卻完全不清楚是哪一步下鹽、哪一步翻炒出了問題。長此以往，廚師可能偶爾做出好菜，但永遠不會真正理解烹飪的原理。

研究團隊正是從這個痛點出發，提出了一個叫做PaW的訓練框架。PaW是"Policy and World modeling co-training"的縮寫，直譯過來就是"策略與世界建模協同訓練"。它的核心思路簡單而巧妙：AI智能體在訓練過程中本來就會產生大量"練習記錄"，每一條記錄都包含了"做了什麼動作"以及"之後環境變成了什麼樣子"。這些資訊以前只被用來計算分數，而PaW把它們變成了額外的學習材料，讓智能體同時學會"預測下一步會發生什麼"。不需要額外的數據採集，不需要單獨建造一個模擬器，也不會在實際使用時增加任何計算負擔——多餘的學習就發生在原本的訓練過程中，順手完成。

一、AI智能體的"只知道結果，不懂過程"困境

要理解為什麼PaW的出現很重要，得先搞清楚現有訓練方式的局限在哪裡。

贊助商廣告

標準的強化學習訓練，就像讓一個學生反覆做模擬考題，然後只告訴他最終成績，不給任何解析。學生會逐漸摸清楚哪類題型容易得分，但他對知識本身的理解可能依然殘缺。在AI智能體的場景里，這種缺陷體現得更為明顯：智能體可能學會了某個"規律"——比如在特定情境下輸入某個指令往往能拿高分——但它並不真正理解這個指令會對環境產生什麼影響。一旦遇到了稍微陌生的場景，或者某個操作產生了不可逆的後果，它就會陷入混亂。

研究團隊把這種缺失命名為"世界建模能力"的缺乏。所謂世界建模，說穿了就是：給智能體一個當前狀態和一個打算採取的動作，它能預測出接下來環境會變成什麼樣。這聽起來像是人類的常識——你知道打開冰箱門，冰箱裡的東西就會暴露在你面前；你知道搜索"黑色小號T恤"，網頁會返回一堆相關商品。但AI智能體如果缺乏這種預判能力，就會像一個對世界運轉毫無概念的人一樣，只能靠反覆試錯積累經驗。

為了彌補這個缺口，學術界已經有一些探索。一類方法是單獨訓練一個"世界模型"，作為模擬器來生成虛假的訓練軌跡，或者在推理時輔助規劃。這類方法的代價是：你需要額外一套模型、額外一套訓練流程，推理時還要多走一遍模擬步驟，系統複雜度大幅上升。另一類方法是先給模型灌注世界建模能力，再開始強化學習訓練，相當於分兩個階段完成。這同樣意味著更多的時間和資源投入，而且兩階段的協調本身就是個麻煩事。

PaW的思路則完全不同。研究團隊發現，強化學習的訓練過程中其實早已藏著大量的世界建模素材，只是沒人用過它們。

二、被忽視的"免費教材"：訓練軌跡里的寶藏

每一次智能體執行訓練任務，都會留下一段"軌跡記錄"，格式大致如下：當前狀態 → 執行了什麼動作 → 得到了什麼獎勵 → 環境變成了什麼新狀態。傳統的強化學習只使用前三項——狀態、動作、獎勵——來更新智能體的策略。而那個"環境變成了什麼新狀態"，也就是動作之後的觀測結果，一直被白白丟棄。

贊助商廣告

研究團隊的核心洞察在於：每一條軌跡中的"動作→新觀測"配對，天然就是一份世界建模的訓練樣本。只要讓智能體學會根據當前狀態和動作來預測下一步的觀測，它就在練習理解環境動態。而這份練習材料，每一輪訓練都在免費產生，完全不需要額外採集。

具體到技術實現，PaW的做法是：在原有的強化學習損失函數（也就是鼓勵智能體選擇高分動作的目標）之外，添加一個輔助的世界建模損失函數，要求同一個模型還要學會預測下一步的觀測文本。兩個目標共用同一套模型參數，在同一個訓練步驟里同時優化。由於語言模型天然的"因果注意力"機制——後面的文字不能影響前面的預測——世界建模部分的監督信號不會干擾策略決策部分的學習，兩者涇渭分明。而在實際使用時，模型只需要正常生成動作，完全不需要額外的模擬步驟，沒有任何推理開銷。

這就好比一個學廚的學徒，既在練習"下一步該做什麼操作"，又在練習"這個操作之後鍋里會發生什麼變化"，兩件事同時學，用的是同一套練習材料，用時不變，卻多學了一門功課。

不過，正如真實的訓練場景里總有各種干擾因素，這份"免費教材"也遠非完美乾淨。研究團隊發現了三個必須解決的實際問題，並為此分別設計了對應的解決方案。

三、三道工序，讓"免費教材"真正好用

第一個問題是：不是所有的動作都值得學。

在某些任務里，智能體會反覆執行同一類高度確定的操作，比如在虛擬房間裡一遍又一遍地走向目標物體。這類動作的結果幾乎是可以完全預料的，對學習環境動態沒有太大幫助，反而會讓模型把太多精力花在重複的、低資訊量的樣本上。

PaW的第一個設計是"基於動作熵的數據篩選"。所謂"動作熵"，可以理解為智能體在選擇這個動作時有多糾結——如果它幾乎篤定地要選某個動作，熵就低；如果它對好幾個選項都拿不準，熵就高。熵高的動作說明這個決策點更關鍵、更複雜，其對應的環境反應也更值得學習。PaW會從每輪訓練產生的所有軌跡里，只挑出熵最高的那一部分轉換樣本來做世界建模訓練，默認比例是保留75%的高熵樣本，丟棄低熵的重複操作。這樣既節省了計算資源，又保證了世界建模樣本的質量。

贊助商廣告

第二個問題是：觀測文本里經常夾雜著"噪聲"。

論文中舉了兩個生動的例子。在虛擬家務任務ALFWorld里，同樣是"打開冰箱1"這個動作，在不同的環境實例里，打開之後看到的東西完全不同——一次裡面有杯子、番茄和酒瓶，另一次裡面是碗、雞蛋和馬克杯。這種隨機性意味著觀測本身就不是完全可預測的。而在網購任務WebShop里，搜索結果里會夾雜大量商品編號（比如"B09QQP3356"這樣的ASIN碼）和品牌名稱，這些字符完全隨機，根本無法從語義上預測。

如果用標準的交叉熵損失來訓練世界建模，模型會被迫花費大量精力去"記住"這些隨機字符，因為交叉熵損失對低概率預測的懲罰成倍放大，一個幾乎不可能猜中的隨機編號會產生極大的梯度信號，把模型的優化方向帶歪。論文中的分析顯示，在WebShop的場景下，交叉熵損失中高達32%的梯度份額來自那些被定義為"噪聲"的詞元，而MAE損失只有14%。

PaW的第二個設計是用"截斷MAE損失"替代標準交叉熵。MAE損失（均絕對誤差損失）對低概率預測的懲罰是線性的而非指數級的，天然對難以預測的詞元更寬容。在此基礎上，研究團隊還加入了一個置信度截斷機制：如果模型對某個詞元的預測概率已經超過了閾值（默認0.2），就認為這個詞元已經學得足夠好了，直接從損失計算中排除，不再施加梯度壓力。這樣一來，模型會專注於那些"還沒學會但值得學"的觀測詞元，既不會在隨機噪聲上浪費力氣，也不會反覆強迫自己去"過度記憶"已經掌握的內容。

第三個問題是：世界建模的輔助訓練和強化學習的主訓練之間，力量需要動態平衡。

如果給世界建模目標設置一個固定的、較大的權重，它可能會壓過稀疏的獎勵信號，讓強化學習失去主導。但如果權重太小，輔助訓練又幾乎沒有效果。更關鍵的是，不同的任務組在不同階段對世界建模的需求是不同的——那些獎勵很差、任務幾乎全部失敗的訓練組，正處於最需要理解環境動態的階段；而那些已經大部分成功的訓練組，只需要繼續精化策略就好。

贊助商廣告

PaW的第三個設計是"獎勵自適應損失平衡"。每一組訓練軌跡都有一個平均回報，研究團隊根據這個平均回報動態計算世界建模的權重：平均回報越低，權重越大；平均回報越高（接近滿分），權重越小，讓強化學習目標自然占主導。這個機制就像一位聰明的教練，對基礎差的隊員多花時間講解戰術原理，對已經打得很好的隊員則讓他們更多地在實戰中磨練技巧，而不是反覆講理論。

三個設計組合在一起，形成了完整的PaW框架，並被編寫成一個簡潔的訓練算法：每輪訓練，先收集軌跡，然後篩選高熵轉換樣本，用截斷MAE計算世界建模損失，用獎勵自適應係數調整權重，最後和強化學習損失合併，同時更新模型參數。整個流程不需要額外的模型推理，也不需要額外的數據收集，相比基礎強化學習只增加了約2.1%的訓練時間和2.4%的GPU內存占用。

四、三個戰場，PaW的實戰成績單

研究團隊在三類不同的任務上評測了PaW的效果，使用的基礎模型涵蓋了不同規模和系列，強化學習算法也不止一種。

第一個戰場是虛擬家務任務ALFWorld。這個環境裡，智能體需要在虛擬房間中完成六類家務，包括把某件物品撿起放到指定地方、在燈下檢查物品、清洗物品、加熱物品、冷卻物品，以及一次性撿起兩件物品。任務最長可達50步，每一步的操作都會對環境狀態產生影響，是典型的長序列決策任務。

在1.5B參數規模的Qwen2.5模型上，搭配GRPO算法，PaW把整體成功率從70.0%提升到了77.9%，提升了7.9個百分點。搭配更先進的GIGPO算法，整體成功率從87.6%提升到90.4%，提升2.8個百分點。在7B參數規模的更大模型上，GRPO搭配PaW從77.6%提升到80.6%，GIGPO搭配PaW從90.8%提升到91.8%。提升幅度隨模型能力增強而有所收窄，這是合理的——越厲害的模型本身已經更接近天花板，提升空間自然更小。

第二個戰場是網購任務WebShop。這個環境裡，智能體需要在一個包含11萬多件商品的虛擬電商平台上，根據用戶的購物需求搜索併購買合適的商品，任務最長15步。這個場景的特殊性在於商品頁面包含大量隨機文本，正是前面提到的"噪聲觀測"最嚴重的地方，也是截斷MAE損失發揮作用的核心場景。

贊助商廣告

結果顯示，PaW在WebShop上帶來了更大的提升。1.5B模型上，GRPO搭配PaW的成功率從60.6%躍升至68.6%，提升8.0個百分點；GIGPO搭配PaW從66.2%提升至75.3%，提升9.1個百分點。7B模型上，兩種算法分別提升4.0和2.9個百分點。

第三個戰場是多輪搜索問答任務。這類任務要求智能體通過多輪調用搜尋引擎來回答問題，覆蓋了七個不同的問答數據集，包括單跳問答（一次搜索能回答的）和多跳問答（需要多次搜索、綜合推理才能回答的）。在3B和7B規模的Qwen2.5模型上，PaW對GRPO和GIGPO都帶來了穩定的提升，平均分提升幅度在0.9到3.0個百分點之間。

除了這三個主要戰場，研究團隊還專門測試了PaW在不同強化學習算法和不同模型家族上的泛化能力。PPO算法搭配PaW，WebShop成功率從59.1%提升到65.2%，提升6.1個百分點；RLOO算法搭配PaW從56.7%提升到61.2%，提升4.5個百分點。在模型家族方面，Qwen3-1.7B搭配PaW提升8.8個百分點，更大的Qwen2.5-14B提升2.4個百分點。這些數據表明PaW不依賴於某種特定算法或模型架構，而是一種普遍適用的增強方法。

五、當普通強化學習徹底失效，PaW依然能救場

研究中最引人關注的一個發現，是PaW在"普通強化學習根本學不動"的極端場景下的表現。

用Llama3.2-3B模型在WebShop上做GRPO訓練，結果訓練了150步，模型的成功率始終在0附近徘徊——幾乎所有的任務都失敗了，獎勵信號極度稀疏，相當於學生做了150道題，每次都是零分，完全不知道自己到底哪裡出了錯。在這種情況下，強化學習失去了可以學習的信號，訓練陷入停滯。

加入PaW之後，情況發生了戲劇性的轉變。儘管任務獎勵依然稀少，世界建模的損失卻提供了密集的學習信號——模型每一步都在嘗試預測"執行這個動作之後，購物網站會顯示什麼"，這個練習不依賴任務是否成功，只要有狀態-動作-新狀態的三元組就能進行。通過這種方式，模型逐漸積累了對環境運轉方式的理解，最終開始產生成功的購物軌跡，為強化學習提供了正向獎勵信號，訓練得以繼續推進。最終成功率從幾乎為零的4.0%躍升至62.2%，提升了驚人的58.2個百分點。

贊助商廣告

這個結果揭示了PaW的一個額外價值：它不僅僅是對已經在學的強化學習的錦上添花，還可以在稀疏獎勵的困難場景下扮演"引路人"的角色，幫助智能體從零開始找到學習的方向。

六、消融實驗：三個設計缺一不可

研究團隊還做了一系列消融實驗，專門驗證PaW三個核心設計的各自貢獻。

如果把獎勵自適應權重去掉，改為對所有訓練組使用固定的權重1，ALFWorld成功率從77.9%下降到75.5%，WebShop從68.6%下降到67.0%。兩項任務都下降了，說明自適應權重確實有助於平衡輔助訓練和主訓練之間的關係。

更大的影響來自損失函數的選擇。如果把截斷MAE損失換回標準的交叉熵損失，ALFWorld成功率從77.9%驟降至68.5%，WebShop從68.6%驟降至57.2%——後者甚至比沒有PaW的基礎GRPO（60.6%）還要差。這個結果非常鮮明：在有噪聲觀測的環境裡，錯誤的損失函數不僅幫不上忙，反而會拖累主任務的學習。交叉熵損失對隨機噪聲詞元的過度懲罰，會把模型的優化資源引向錯誤的方向，導致策略學習受損。

研究團隊還測試了熵選擇比例α和截斷閾值ρ兩個超參數的敏感性。結果顯示，在較寬的參數範圍內（α從0.25到1.0，ρ從0.0到0.8），PaW都能帶來比基礎GRPO更好的成績，最佳值分別在α=0.75和ρ=0.2附近。這意味著PaW對超參數不是特別敏感，不需要精細調整也能工作。

說到底，PaW做的事情可以用一句話概括：它發現了強化學習訓練過程中被長期忽視的"邊角料"，把它們變成了有價值的學習材料，幫助智能體在練習"做什麼"的同時順帶學會了"做了會怎樣"。這種雙管齊下的訓練方式，不需要額外的成本，卻帶來了實實在在的能力提升。

對於普通人而言，這項研究的意義在於：未來那些幫你購物、幫你查資料、幫你操作電腦的AI助手，可能會因為類似的訓練方式而變得更加聰明穩健，不僅知道該做什麼，還真正理解每一步操作會帶來什麼後果——而這種理解，正是讓AI助手在複雜、真實的任務中不出錯的關鍵。

贊助商廣告

當然，研究團隊也坦誠地指出了當前框架的局限。PaW目前只學習"下一步的觀測"，對於更長遠的多步影響鏈條，還沒有顯式建模。在某些任務里，一個動作的真正影響可能要好幾步之後才會體現，這部分能力還需要未來的工作來探索。此外，訓練軌跡中可能存在大量重複的路徑，這會使世界建模的學習樣本產生偏差，如何引入多樣性採樣也是一個值得深入的方向。感興趣的讀者可以通過arXiv:2606.02388查閱完整論文，了解所有技術細節。

Q&A

Q1：PaW框架是什麼，和普通強化學習訓練有什麼不同？

A：PaW是一種策略與世界建模協同訓練框架。普通強化學習只用"做了什麼動作、得了多少分"來更新模型，而PaW額外利用了訓練過程中產生的"動作之後環境變成什麼樣"這一資訊，讓模型同時學會預測下一步的環境狀態。整個過程共用同一套訓練數據，不需要額外的模型或數據採集，推理時也沒有任何額外開銷。

Q2：截斷MAE損失為什麼比交叉熵損失更適合世界建模訓練？

A：在網購、家務等真實環境裡，觀測文本中包含大量隨機字符（如商品編號、品牌名等），根本無法從語義上預測。標準交叉熵損失對這類低概率預測的懲罰會成倍放大，導致模型把大量優化資源花在"記噪聲"上，反而干擾了主任務的策略學習。截斷MAE損失對低概率詞元的懲罰是線性的，加上置信度截斷機制，只關注"還沒學會且值得學"的內容，避免了這種干擾，實驗顯示替換損失函數後WebShop成功率提升超過11個百分點。

Q3：PaW在強化學習完全學不動的情況下真的有效嗎？

A：有實驗證據支持。用Llama3.2-3B模型在WebShop上做普通GRPO訓練，訓練150步後成功率仍接近零，獎勵信號極度稀疏，訓練陷入停滯。加入PaW後，世界建模損失提供了密集的學習信號——每一步都在預測環境變化，不依賴任務是否成功。模型藉此積累了對環境的理解，逐漸產生成功軌跡，最終成功率從4.0%躍升至62.2%，提升了58.2個百分點。

贊助商廣告