這項由南方科技大學、香港科技大學、香港科技大學(廣州)、香港理工大學以及LIGHTSPEED聯合開展的研究,以預印本形式發布於2026年6月,論文編號為arXiv:2606.02388,有興趣深入了解的讀者可通過該編號查詢完整論文。
當我們談論AI智能體的時候,腦海中浮現的往往是那種能夠自主操作網頁、在虛擬房間裡完成任務、或者幫你搜索資訊的"數字助手"。訓練這類助手的主流方式,叫做強化學習——說白了,就是讓AI不斷嘗試,做對了就給獎勵,做錯了就扣分,慢慢學會哪些行動能拿到高分。這套邏輯聽起來很像訓練小狗:做對了給零食,做錯了不給。
然而問題來了:小狗做了某個動作之後,它會立刻看到環境的反應——你皺了眉頭,或者開心地摸了摸它。但用強化學習訓練的AI智能體,接收到的只是"任務完成"或"任務失敗"這樣的最終評分。至於它每一步操作到底對世界造成了什麼影響,它幾乎一無所知。這就像一個廚師只知道最後這道菜被評了幾分,卻完全不清楚是哪一步下鹽、哪一步翻炒出了問題。長此以往,廚師可能偶爾做出好菜,但永遠不會真正理解烹飪的原理。
研究團隊正是從這個痛點出發,提出了一個叫做PaW的訓練框架。PaW是"Policy and World modeling co-training"的縮寫,直譯過來就是"策略與世界建模協同訓練"。它的核心思路簡單而巧妙:AI智能體在訓練過程中本來就會產生大量"練習記錄",每一條記錄都包含了"做了什麼動作"以及"之後環境變成了什麼樣子"。這些資訊以前只被用來計算分數,而PaW把它們變成了額外的學習材料,讓智能體同時學會"預測下一步會發生什麼"。不需要額外的數據採集,不需要單獨建造一個模擬器,也不會在實際使用時增加任何計算負擔——多餘的學習就發生在原本的訓練過程中,順手完成。
一、AI智能體的"只知道結果,不懂過程"困境
要理解為什麼PaW的出現很重要,得先搞清楚現有訓練方式的局限在哪裡。
標準的強化學習訓練,就像讓一個學生反覆做模擬考題,然後只告訴他最終成績,不給任何解析。學生會逐漸摸清楚哪類題型容易得分,但他對知識本身的理解可能依然殘缺。在AI智能體的場景里,這種缺陷體現得更為明顯:智能體可能學會了某個"規律"——比如在特定情境下輸入某個指令往往能拿高分——但它並不真正理解這個指令會對環境產生什麼影響。一旦遇到了稍微陌生的場景,或者某個操作產生了不可逆的後果,它就會陷入混亂。
研究團隊把這種缺失命名為"世界建模能力"的缺乏。所謂世界建模,說穿了就是:給智能體一個當前狀態和一個打算採取的動作,它能預測出接下來環境會變成什麼樣。這聽起來像是人類的常識——你知道打開冰箱門,冰箱裡的東西就會暴露在你面前;你知道搜索"黑色小號T恤",網頁會返回一堆相關商品。但AI智能體如果缺乏這種預判能力,就會像一個對世界運轉毫無概念的人一樣,只能靠反覆試錯積累經驗。
為了彌補這個缺口,學術界已經有一些探索。一類方法是單獨訓練一個"世界模型",作為模擬器來生成虛假的訓練軌跡,或者在推理時輔助規劃。這類方法的代價是:你需要額外一套模型、額外一套訓練流程,推理時還要多走一遍模擬步驟,系統複雜度大幅上升。另一類方法是先給模型灌注世界建模能力,再開始強化學習訓練,相當於分兩個階段完成。這同樣意味著更多的時間和資源投入,而且兩階段的協調本身就是個麻煩事。
PaW的思路則完全不同。研究團隊發現,強化學習的訓練過程中其實早已藏著大量的世界建模素材,只是沒人用過它們。
二、被忽視的"免費教材":訓練軌跡里的寶藏
每一次智能體執行訓練任務,都會留下一段"軌跡記錄",格式大致如下:當前狀態 → 執行了什麼動作 → 得到了什麼獎勵 → 環境變成了什麼新狀態。傳統的強化學習只使用前三項——狀態、動作、獎勵——來更新智能體的策略。而那個"環境變成了什麼新狀態",也就是動作之後的觀測結果,一直被白白丟棄。
研究團隊的核心洞察在於:每一條軌跡中的"動作→新觀測"配對,天然就是一份世界建模的訓練樣本。只要讓智能體學會根據當前狀態和動作來預測下一步的觀測,它就在練習理解環境動態。而這份練習材料,每一輪訓練都在免費產生,完全不需要額外採集。
具體到技術實現,PaW的做法是:在原有的強化學習損失函數(也就是鼓勵智能體選擇高分動作的目標)之外,添加一個輔助的世界建模損失函數,要求同一個模型還要學會預測下一步的觀測文本。兩個目標共用同一套模型參數,在同一個訓練步驟里同時優化。由於語言模型天然的"因果注意力"機制——後面的文字不能影響前面的預測——世界建模部分的監督信號不會干擾策略決策部分的學習,兩者涇渭分明。而在實際使用時,模型只需要正常生成動作,完全不需要額外的模擬步驟,沒有任何推理開銷。
這就好比一個學廚的學徒,既在練習"下一步該做什麼操作",又在練習"這個操作之後鍋里會發生什麼變化",兩件事同時學,用的是同一套練習材料,用時不變,卻多學了一門功課。
不過,正如真實的訓練場景里總有各種干擾因素,這份"免費教材"也遠非完美乾淨。研究團隊發現了三個必須解決的實際問題,並為此分別設計了對應的解決方案。
三、三道工序,讓"免費教材"真正好用
第一個問題是:不是所有的動作都值得學。
在某些任務里,智能體會反覆執行同一類高度確定的操作,比如在虛擬房間裡一遍又一遍地走向目標物體。這類動作的結果幾乎是可以完全預料的,對學習環境動態沒有太大幫助,反而會讓模型把太多精力花在重複的、低資訊量的樣本上。
PaW的第一個設計是"基於動作熵的數據篩選"。所謂"動作熵",可以理解為智能體在選擇這個動作時有多糾結——如果它幾乎篤定地要選某個動作,熵就低;如果它對好幾個選項都拿不準,熵就高。熵高的動作說明這個決策點更關鍵、更複雜,其對應的環境反應也更值得學習。PaW會從每輪訓練產生的所有軌跡里,只挑出熵最高的那一部分轉換樣本來做世界建模訓練,默認比例是保留75%的高熵樣本,丟棄低熵的重複操作。這樣既節省了計算資源,又保證了世界建模樣本的質量。
第二個問題是:觀測文本里經常夾雜著"噪聲"。
論文中舉了兩個生動的例子。在虛擬家務任務ALFWorld里,同樣是"打開冰箱1"這個動作,在不同的環境實例里,打開之後看到的東西完全不同——一次裡面有杯子、番茄和酒瓶,另一次裡面是碗、雞蛋和馬克杯。這種隨機性意味著觀測本身就不是完全可預測的。而在網購任務WebShop里,搜索結果里會夾雜大量商品編號(比如"B09QQP3356"這樣的ASIN碼)和品牌名稱,這些字符完全隨機,根本無法從語義上預測。
如果用標準的交叉熵損失來訓練世界建模,模型會被迫花費大量精力去"記住"這些隨機字符,因為交叉熵損失對低概率預測的懲罰成倍放大,一個幾乎不可能猜中的隨機編號會產生極大的梯度信號,把模型的優化方向帶歪。論文中的分析顯示,在WebShop的場景下,交叉熵損失中高達32%的梯度份額來自那些被定義為"噪聲"的詞元,而MAE損失只有14%。
PaW的第二個設計是用"截斷MAE損失"替代標準交叉熵。MAE損失(均絕對誤差損失)對低概率預測的懲罰是線性的而非指數級的,天然對難以預測的詞元更寬容。在此基礎上,研究團隊還加入了一個置信度截斷機制:如果模型對某個詞元的預測概率已經超過了閾值(默認0.2),就認為這個詞元已經學得足夠好了,直接從損失計算中排除,不再施加梯度壓力。這樣一來,模型會專注於那些"還沒學會但值得學"的觀測詞元,既不會在隨機噪聲上浪費力氣,也不會反覆強迫自己去"過度記憶"已經掌握的內容。
第三個問題是:世界建模的輔助訓練和強化學習的主訓練之間,力量需要動態平衡。
如果給世界建模目標設置一個固定的、較大的權重,它可能會壓過稀疏的獎勵信號,讓強化學習失去主導。但如果權重太小,輔助訓練又幾乎沒有效果。更關鍵的是,不同的任務組在不同階段對世界建模的需求是不同的——那些獎勵很差、任務幾乎全部失敗的訓練組,正處於最需要理解環境動態的階段;而那些已經大部分成功的訓練組,只需要繼續精化策略就好。
PaW的第三個設計是"獎勵自適應損失平衡"。每一組訓練軌跡都有一個平均回報,研究團隊根據這個平均回報動態計算世界建模的權重:平均回報越低,權重越大;平均回報越高(接近滿分),權重越小,讓強化學習目標自然占主導。這個機制就像一位聰明的教練,對基礎差的隊員多花時間講解戰術原理,對已經打得很好的隊員則讓他們更多地在實戰中磨練技巧,而不是反覆講理論。
三個設計組合在一起,形成了完整的PaW框架,並被編寫成一個簡潔的訓練算法:每輪訓練,先收集軌跡,然後篩選高熵轉換樣本,用截斷MAE計算世界建模損失,用獎勵自適應係數調整權重,最後和強化學習損失合併,同時更新模型參數。整個流程不需要額外的模型推理,也不需要額外的數據收集,相比基礎強化學習只增加了約2.1%的訓練時間和2.4%的GPU內存占用。
四、三個戰場,PaW的實戰成績單
研究團隊在三類不同的任務上評測了PaW的效果,使用的基礎模型涵蓋了不同規模和系列,強化學習算法也不止一種。
第一個戰場是虛擬家務任務ALFWorld。這個環境裡,智能體需要在虛擬房間中完成六類家務,包括把某件物品撿起放到指定地方、在燈下檢查物品、清洗物品、加熱物品、冷卻物品,以及一次性撿起兩件物品。任務最長可達50步,每一步的操作都會對環境狀態產生影響,是典型的長序列決策任務。
在1.5B參數規模的Qwen2.5模型上,搭配GRPO算法,PaW把整體成功率從70.0%提升到了77.9%,提升了7.9個百分點。搭配更先進的GIGPO算法,整體成功率從87.6%提升到90.4%,提升2.8個百分點。在7B參數規模的更大模型上,GRPO搭配PaW從77.6%提升到80.6%,GIGPO搭配PaW從90.8%提升到91.8%。提升幅度隨模型能力增強而有所收窄,這是合理的——越厲害的模型本身已經更接近天花板,提升空間自然更小。
第二個戰場是網購任務WebShop。這個環境裡,智能體需要在一個包含11萬多件商品的虛擬電商平台上,根據用戶的購物需求搜索併購買合適的商品,任務最長15步。這個場景的特殊性在於商品頁面包含大量隨機文本,正是前面提到的"噪聲觀測"最嚴重的地方,也是截斷MAE損失發揮作用的核心場景。
結果顯示,PaW在WebShop上帶來了更大的提升。1.5B模型上,GRPO搭配PaW的成功率從60.6%躍升至68.6%,提升8.0個百分點;GIGPO搭配PaW從66.2%提升至75.3%,提升9.1個百分點。7B模型上,兩種算法分別提升4.0和2.9個百分點。
第三個戰場是多輪搜索問答任務。這類任務要求智能體通過多輪調用搜尋引擎來回答問題,覆蓋了七個不同的問答數據集,包括單跳問答(一次搜索能回答的)和多跳問答(需要多次搜索、綜合推理才能回答的)。在3B和7B規模的Qwen2.5模型上,PaW對GRPO和GIGPO都帶來了穩定的提升,平均分提升幅度在0.9到3.0個百分點之間。
除了這三個主要戰場,研究團隊還專門測試了PaW在不同強化學習算法和不同模型家族上的泛化能力。PPO算法搭配PaW,WebShop成功率從59.1%提升到65.2%,提升6.1個百分點;RLOO算法搭配PaW從56.7%提升到61.2%,提升4.5個百分點。在模型家族方面,Qwen3-1.7B搭配PaW提升8.8個百分點,更大的Qwen2.5-14B提升2.4個百分點。這些數據表明PaW不依賴於某種特定算法或模型架構,而是一種普遍適用的增強方法。
五、當普通強化學習徹底失效,PaW依然能救場
研究中最引人關注的一個發現,是PaW在"普通強化學習根本學不動"的極端場景下的表現。
用Llama3.2-3B模型在WebShop上做GRPO訓練,結果訓練了150步,模型的成功率始終在0附近徘徊——幾乎所有的任務都失敗了,獎勵信號極度稀疏,相當於學生做了150道題,每次都是零分,完全不知道自己到底哪裡出了錯。在這種情況下,強化學習失去了可以學習的信號,訓練陷入停滯。
加入PaW之後,情況發生了戲劇性的轉變。儘管任務獎勵依然稀少,世界建模的損失卻提供了密集的學習信號——模型每一步都在嘗試預測"執行這個動作之後,購物網站會顯示什麼",這個練習不依賴任務是否成功,只要有狀態-動作-新狀態的三元組就能進行。通過這種方式,模型逐漸積累了對環境運轉方式的理解,最終開始產生成功的購物軌跡,為強化學習提供了正向獎勵信號,訓練得以繼續推進。最終成功率從幾乎為零的4.0%躍升至62.2%,提升了驚人的58.2個百分點。
這個結果揭示了PaW的一個額外價值:它不僅僅是對已經在學的強化學習的錦上添花,還可以在稀疏獎勵的困難場景下扮演"引路人"的角色,幫助智能體從零開始找到學習的方向。
六、消融實驗:三個設計缺一不可
研究團隊還做了一系列消融實驗,專門驗證PaW三個核心設計的各自貢獻。
如果把獎勵自適應權重去掉,改為對所有訓練組使用固定的權重1,ALFWorld成功率從77.9%下降到75.5%,WebShop從68.6%下降到67.0%。兩項任務都下降了,說明自適應權重確實有助於平衡輔助訓練和主訓練之間的關係。
更大的影響來自損失函數的選擇。如果把截斷MAE損失換回標準的交叉熵損失,ALFWorld成功率從77.9%驟降至68.5%,WebShop從68.6%驟降至57.2%——後者甚至比沒有PaW的基礎GRPO(60.6%)還要差。這個結果非常鮮明:在有噪聲觀測的環境裡,錯誤的損失函數不僅幫不上忙,反而會拖累主任務的學習。交叉熵損失對隨機噪聲詞元的過度懲罰,會把模型的優化資源引向錯誤的方向,導致策略學習受損。
研究團隊還測試了熵選擇比例α和截斷閾值ρ兩個超參數的敏感性。結果顯示,在較寬的參數範圍內(α從0.25到1.0,ρ從0.0到0.8),PaW都能帶來比基礎GRPO更好的成績,最佳值分別在α=0.75和ρ=0.2附近。這意味著PaW對超參數不是特別敏感,不需要精細調整也能工作。
說到底,PaW做的事情可以用一句話概括:它發現了強化學習訓練過程中被長期忽視的"邊角料",把它們變成了有價值的學習材料,幫助智能體在練習"做什麼"的同時順帶學會了"做了會怎樣"。這種雙管齊下的訓練方式,不需要額外的成本,卻帶來了實實在在的能力提升。
對於普通人而言,這項研究的意義在於:未來那些幫你購物、幫你查資料、幫你操作電腦的AI助手,可能會因為類似的訓練方式而變得更加聰明穩健,不僅知道該做什麼,還真正理解每一步操作會帶來什麼後果——而這種理解,正是讓AI助手在複雜、真實的任務中不出錯的關鍵。
當然,研究團隊也坦誠地指出了當前框架的局限。PaW目前只學習"下一步的觀測",對於更長遠的多步影響鏈條,還沒有顯式建模。在某些任務里,一個動作的真正影響可能要好幾步之後才會體現,這部分能力還需要未來的工作來探索。此外,訓練軌跡中可能存在大量重複的路徑,這會使世界建模的學習樣本產生偏差,如何引入多樣性採樣也是一個值得深入的方向。感興趣的讀者可以通過arXiv:2606.02388查閱完整論文,了解所有技術細節。
Q&A
Q1:PaW框架是什麼,和普通強化學習訓練有什麼不同?
A:PaW是一種策略與世界建模協同訓練框架。普通強化學習只用"做了什麼動作、得了多少分"來更新模型,而PaW額外利用了訓練過程中產生的"動作之後環境變成什麼樣"這一資訊,讓模型同時學會預測下一步的環境狀態。整個過程共用同一套訓練數據,不需要額外的模型或數據採集,推理時也沒有任何額外開銷。
Q2:截斷MAE損失為什麼比交叉熵損失更適合世界建模訓練?
A:在網購、家務等真實環境裡,觀測文本中包含大量隨機字符(如商品編號、品牌名等),根本無法從語義上預測。標準交叉熵損失對這類低概率預測的懲罰會成倍放大,導致模型把大量優化資源花在"記噪聲"上,反而干擾了主任務的策略學習。截斷MAE損失對低概率詞元的懲罰是線性的,加上置信度截斷機制,只關注"還沒學會且值得學"的內容,避免了這種干擾,實驗顯示替換損失函數後WebShop成功率提升超過11個百分點。
Q3:PaW在強化學習完全學不動的情況下真的有效嗎?
A:有實驗證據支持。用Llama3.2-3B模型在WebShop上做普通GRPO訓練,訓練150步後成功率仍接近零,獎勵信號極度稀疏,訓練陷入停滯。加入PaW後,世界建模損失提供了密集的學習信號——每一步都在預測環境變化,不依賴任務是否成功。模型藉此積累了對環境的理解,逐漸產生成功軌跡,最終成功率從4.0%躍升至62.2%,提升了58.2個百分點。






