復旦大學團隊揭秘：為什麼推薦系統總愛給你推"無聊"的長列表？這項新研究找到了根本原因

這項由復旦大學數據科學學院主導的研究，發表於2026年第43屆國際機器學習大會（ICML 2026，Seoul, South Korea, PMLR 306），論文編號為arXiv:2605.28293，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

你有沒有遇到過這樣的場景：你一直在某影片平台刷科幻電影，突然有一天平台想向你推薦一部喜劇片，但你對喜劇完全沒有興趣，直接划走了。平台的運營同學急得抓耳撓腮——他們手裡有一部很好的喜劇，用戶卻完全不買賬。硬推不行，軟推又不知道怎麼軟。

這個困境，正是這篇論文要解決的核心問題。

一支來自復旦大學數據科學學院的研究團隊，構建了一個叫做"ProRL"的推薦系統，它的核心思路不是硬塞內容給用戶，而是像一個耐心的導遊，先陪你走一段你熟悉的路，再一步一步把你引向你未曾踏足的新地方。更重要的是，團隊在研究過程中發現了一個此前被忽視的關鍵漏洞：用來訓練這類系統的標準強化學習方法，竟然存在兩個根本性的缺陷，會讓整個訓練過程跑偏。他們深入剖析了這兩個缺陷，並給出了精準的修複方案。

一、推薦系統界的"溫水煮青蛙"策略

要理解這項研究的價值，得先聊聊"主動推薦系統"是什麼。

普通的推薦系統就像一面鏡子，你喜歡什麼，它就給你看什麼。你愛看科幻，它永遠給你推科幻；你愛吃川菜，它永遠給你推火鍋。這當然沒問題，用戶體驗不錯，但平台有時候有自己的小算盤——它新簽了一批喜劇版權，或者上了一條新的美食頻道，需要用戶去探索新的內容領域。

直接把新內容塞到推薦位？大多數時候用戶會無情地划過去，因為和自己的口味完全不搭。

"主動推薦系統"（Proactive Recommender System，簡稱PRS）提供了一種更溫柔的解法：與其一步跨越到目標內容，不如規劃一條"過渡路徑"，先推一部融合了科幻和動畫元素的《瓦力》，再推一部融合了動畫和喜劇元素的《動物方城市》，最後才引入那部純喜劇。每一步都在用戶的接受範圍之內，卻在悄悄地把用戶的偏好向目標方向撥動。這就是論文開頭用《瓦力》→《動物方城市》→《白日夢想家》這條路徑來舉例說明的核心邏輯。

贊助商廣告

這種"溫水煮青蛙"式的策略，需要同時滿足兩個要求。第一是路徑上每一步的推薦都得讓用戶願意點擊，保持用戶的持續參與；第二是整條路徑走完之後，用戶對目標內容的興趣要真的有所提升。這兩個目標必須同時優化，任何一個方面的妥協都會讓整條路徑失效。

二、強化學習本是解題妙手，卻暗藏兩個致命漏洞

面對"規劃一條最優過渡路徑"這個問題，研究團隊自然想到了強化學習。這個方法的思路可以用"圍棋訓練"來理解：系統不斷地生成推薦路徑，然後根據路徑的最終效果（用戶是否真的對目標內容產生了興趣）來判斷這條路走得好不好，再調整下一次的策略。不斷試錯，不斷進步。

這種方法理論上非常適合這類序列決策問題，因為每條路徑的"好壞"可以用一個綜合分數來量化——既考慮了每步是否被用戶接受，也考慮了整體引導效果。

然而，當研究團隊真正把標準的強化學習算法套到主動推薦任務上之後，他們發現了一個令人沮喪的現象：系統很快就學會了一種"投機取巧"的策略，而且在不同數據集、不同獎勵設置下，這個問題幾乎無一例外地出現。

具體來說，訓練過程中，系統生成的推薦路徑越來越長，逼近預設的最大長度上限；與此同時，生成的路徑越來越雷同，多樣性急劇下降。換句話說，不管是哪個用戶，不管目標是什麼內容，系統最終都吐出一條又長又千篇一律的推薦路徑。這顯然毫無意義。

研究團隊沒有簡單地把這個現象歸結為"調參問題"，而是深挖背後的數學原因，最終找到了兩個根本性的缺陷。

第一個缺陷叫做"長度捷徑"。原來，用于衡量路徑質量的綜合獎勵分數，可以被拆解成每一步的小獎勵之和。而每一步的小獎勵，平均來說是正數。這就產生了一個微妙但致命的後果：從數學期望上看，路徑越長，總得分越高。對強化學習算法來說，這相當於發現了一個"作弊方法"——不需要真正思考每步推薦什麼內容，只需要讓路徑變得更長，分數就會自動提升。算法發現這個規律之後，當然會一頭扎進去，不停地延長路徑，完全放棄了對"推薦什麼"的深入探索。

贊助商廣告

研究團隊還為這個現象提供了嚴格的數學證明。他們構建了一個簡化模型，理論上推導出：只要每步獎勵的期望值大於零，強化學習的梯度更新就會系統性地降低"停止生成"的概率，讓路徑無止境地延長。而且這個下降的速度遵循O(1/s)的規律，意思是隨著訓練步驟的推進，停止概率以一種穩定的速率趨向於零，這是結構性的必然結果，不是偶然的訓練不穩定。

第二個缺陷叫做"高梯度方差"。梯度在強化學習中扮演著"指路牌"的角色，告訴模型應該往哪個方向調整參數才能生成更好的路徑。然而，標準算法用整條路徑的總分來給每一步的推薦評分，這就相當於：第一步推薦了《瓦力》，它的好壞卻被整條路徑（包括第五步、第八步）的總分來評判。但第一步的選擇根本不影響它之後的歷史，這種"連坐"式的評分引入了大量無關的噪音，導致"指路牌"東倒西歪，模型很難從中獲得清晰穩定的學習信號。

三、ProRL的兩劑精準藥方

正是基於對上述兩個缺陷的深刻理解，研究團隊提出了ProRL框架，其中包含兩個量身定製的修復機制。

第一個機制叫做"逐步獎勵中心化"。解決"長度捷徑"的關鍵，就是讓路徑延長這件事本身不再帶來額外的期望收益。做法聽起來簡單，卻直擊要害：在計算每一步的獎勵時，減去該步獎勵的平均值。這個操作的效果是，原本每步都有正向平均期望的獎勵，變成了圍繞零點波動的獎勵。延長路徑不再自動帶來更高的期望總分，算法必須真正靠著選擇好的內容來提升分數。

在實際操作中，研究團隊先跑一個"熱身輪次"，收集大量路徑樣本，統計出每一步獎勵的均值和方差，然後把這些統計量固定下來，在後續所有訓練中使用。這裡有個技術細節值得一提：如果讓均值和方差隨著模型的不斷改進而動態更新，就會產生"校準目標一直在移動"的不穩定問題，所以用早期樣本固定下來是更穩健的做法。

贊助商廣告

針對多個獎勵目標並存的情況（既要考慮點擊率，又要考慮興趣增量，還要考慮排名變化），團隊進一步把"中心化"擴展為"歸一化"：不僅減去每個目標的均值，還除以其標準差，讓不同量級的獎勵信號都縮放到可以比較的範圍內。這樣三個獎勵目標就可以平等地參與訓練，不會讓某一個因為數值特別大而主導整個優化過程。

第二個機制叫做"位置特定優勢估計"。要解決梯度方差高的問題，核心思路是讓每一步的評分只考慮"它能影響的未來"，而不是用整條路徑的總分來評判。

在強化學習領域，"從當前步到路徑結束的累計獎勵"被稱為"獎勵到去"，使用它來代替總路徑獎勵，本身就已經能有效減少噪音。但研究團隊在此基礎上又進了一步：他們發現，路徑中不同位置的"獎勵到去"期望值是不同的。越靠近路徑末尾的步驟，未來可以積累的獎勵自然越少。如果用一個統一的基線值來評判所有位置，就會產生系統性的偏差。

ProRL的做法是，針對路徑中的每個位置，分別計算一個"基準值"：把同一批採樣路徑中，到達該位置的所有路徑在該位置之後的平均累計獎勵，作為評判該位置選擇好壞的參照點。第一步的選擇和其他第一步比，第五步的選擇和其他第五步比，這樣才公平。

這種位置特定的基線，無需額外訓練一個專門的"評論家網路"（在傳統的A2C算法中，通常需要這樣一個輔助模型），完全依賴當前批次的採樣統計來計算，既簡單又穩定。

四、實驗數據：數字背後的真實差距

研究團隊在三個真實世界的數據集上對ProRL進行了全面測試，分別是電影領域的MovieLens-1M、遊戲領域的Steam，以及電商領域的Amazon-Book。

評估指標有四個維度。"興趣增量"衡量用戶看完引導路徑後對目標內容的興趣是否真正提升了（數值越高越好）。"排名提升"衡量目標內容在用戶個性化推薦列表中的排名提升了多少位（數值越高越好）。"點擊率"衡量路徑中每一步的推薦內容是否被用戶接受（越高越好）。"語義連貫性"衡量路徑中相鄰推薦內容之間是否具有自然的關聯（越高越好）。

贊助商廣告

對比的基準方法涵蓋了四大類：以GRU4Rec、BERT4Rec、LightSANs、FEARec為代表的傳統序列推薦方法；以IRN為代表的監督學習主動推薦方法；以IPG和ITMPRec為代表的啟發式貪心方法；以及以LLM-IPP和T-PRA為代表的大語言模型方法。

ProRL在幾乎所有指標上都拿到了第一名，差距尤為顯著。以MovieLens-1M為例，ProRL的點擊率達到0.8543，而最強的競爭對手IRN僅有0.8398；興趣增量方面ProRL達到2.8504，而最好的競爭對手LLM-IPP和T-PRA分別只有2.4680和2.4867；排名提升方面ProRL達到728.18，而T-PRA的355.16是第二名，ProRL幾乎是其兩倍。在Amazon-Book數據集上，ProRL的排名提升高達1383.41，而同類方法中最好的ITMPRec僅有472.50，差距更為懸殊。

有一個現象特別值得關註：語義連貫性這個指標，完全沒有被納入訓練的獎勵函數中，ProRL並沒有被"教導"要生成連貫的路徑。但實驗結果顯示，ProRL在這個指標上同樣大幅領先所有基準方法。在MovieLens-1M上，ProRL的語義連貫性達到0.8422，而得分最高的競爭對手LLM-IPP只有0.6288。這說明ProRL學到的是真正高質量的路徑規劃原則，而不僅僅是在擬合訓練獎勵。

五、消融實驗：拆開來看，哪塊是真正的功臣

為了驗證ProRL中每個組件的實際貢獻，研究團隊做了系統的消融實驗，也就是逐個去掉某個組件，看性能如何變化。

去掉"逐步獎勵中心化"之後，一個有趣的現象出現了：點擊率反而比完整ProRL更高！在MovieLens-1M上甚至達到了0.9731。但代價是興趣增量和排名提升大幅下滑。這個現象恰好印證了團隊的診斷：沒有中心化機制，系統在訓練時被點擊率獎勵的正向平均值所主導，一門心思優化短期的用戶點擊，完全忽略了更難獲取但更重要的引導效果信號。系統產生了嚴重的目標偏移，優化了一個容易優化的目標，卻犧牲了真正想要的目標。

去掉"位置特定優勢估計"之後，三項指標都有所下降，其中引導效果類指標的下降幅度尤為明顯。這證實了減少梯度方差對於讓模型學到正確的路徑策略至關重要。

贊助商廣告

研究團隊還專門比較了五種不同的梯度估計方法：標準REINFORCE、獎勵到去、GRPO（借鑑自大語言模型對齊領域）、A2C（使用神經網路評論家），以及ProRL自己的位置特定優勢估計。實驗發現，標準REINFORCE會導致路徑長度在訓練早期快速坍縮到只有1到2步；GRPO則相反，路徑長度始終卡在最大長度10步，全程沒有變化；A2C表現介於兩者之間，但梯度方差在訓練過程中反而越來越大（因為評論家網路無法跟上快速變化的策略）；只有ProRL的獎勵到去和位置特定優勢估計組合，能夠讓路徑長度穩定在3到4步這個合理區間，梯度方差也持續保持在最低水平，約為標準REINFORCE的5%。

六、預訓練與強化學習的分工協作

ProRL的訓練分為兩個階段，兩者缺一不可，分工明確。

第一階段是監督預訓練。研究團隊首先從歷史交互數據中挖掘出高質量的"平滑引導軌跡"——那些相鄰內容之間具有自然關聯的用戶行為序列。他們用兩種方式來判斷"相鄰內容有沒有關聯"：在有知識圖譜的數據集中，判斷兩個內容是否共享至少一個屬性（比如類型、導演等）；在沒有結構化元數據的場景下，則用大語言模型來判斷兩個內容之間的過渡是否自然。這些篩選後的數據被用來預訓練一個輕量級的編碼器-解碼器模型，讓它先學會"怎麼樣的路徑是合理的"。

研究團隊發現，預訓練的完成度對後續強化學習的效果有決定性影響。只用1%的預訓練數據初始化的模型，在強化學習階段幾乎學不到任何有用的東西，興趣增量接近於零；而用完整100%數據預訓練的模型，強化學習階段的效果顯著優於66%和33%預訓練完成度的版本。這說明預訓練不只是一個熱身步驟，而是為強化學習提供了一張"語義地圖"，讓模型在一個合理的搜索空間內探索，而不是在茫茫無際的路徑空間中盲目亂撞。

第二階段是強化學習優化。在預訓練模型的基礎上，用ProRL的兩個修復機制來引導模型向"路徑真正有效"的方向進化。這一階段的效果在數據上體現得非常清晰：預訓練結束後，模型的點擊率已經相當不錯（MovieLens-1M上達到0.8671），但興趣增量只有0.8600，排名提升只有254；經過強化學習優化之後，興趣增量跳升到2.8504，排名提升跳升到728。

贊助商廣告

一個有趣的補充實驗進一步揭示了強化學習的本質作用。研究團隊從預訓練模型中同時採樣10條路徑，記錄其中最好的興趣增量和排名提升，結果發現這些"最優樣本"的指標幾乎和完整ProRL的最終效果相當（最優興趣增量達到3.3585，最優排名提升達到851）。這說明強化學習並沒有憑空給模型灌輸新能力，而是把原本存在於預訓練模型"潛力庫"里的優秀路徑，從低概率區域"打撈"出來，讓模型在實際推理時就能更高概率地生成這類優質路徑。

七、泛化能力：換個評判標準還能贏嗎

有一種擔憂是：推薦系統的評估依賴於一個"用戶模擬器"（在這項研究中是SASRec模型），模型在訓練時的優化目標和評估標準高度一致，會不會只是學會了"迎合這個特定的評判者"，換一個評判者就不行了？

為了驗證這一點，研究團隊用三個在訓練過程中完全沒有見過的推薦模型（GRU4Rec、BERT4Rec、LightSANs）作為"陌生評判者"來重新評估所有方法。結果顯示，ProRL在這些陌生評判者下同樣保持了全面領先的優勢。例如以LightSANs為評判者時，ProRL的排名提升在MovieLens-1M上達到755.83，在Amazon-Book上達到1286.74，依然大幅超越所有競爭對手。這說明ProRL學到的是具有普遍性的引導原則，而不是針對某個特定評估模型的"刷分技巧"。

此外，研究團隊還測試了ProRL在不同目標難度下的魯棒性。他們選取了不同"用戶本來就對目標內容有多少興趣"的測試樣本，從相對容易引導的（用戶已經有一定興趣）到相對困難的（用戶對目標內容幾乎沒有興趣），結果顯示ProRL在各種難度下都保持了穩定的領先優勢，沒有出現"容易的情況表現好、困難的情況崩盤"的問題。

歸根結底，這項研究做了一件很有價值的事：它不滿足於"提出一個新方法然後看它好用"，而是深入追問"為什麼舊方法不好用"，找到了兩個具體的、可以用數學語言精確描述的缺陷，然後給出了針對性的修複方案，並用嚴格的實驗來驗證每個修復點的獨立貢獻。

贊助商廣告

從實際應用的角度看，ProRL用的基礎模型非常輕量——只有大約200萬參數，遠比大語言模型方法便宜。它既不依賴昂貴的大模型推理，也不需要在線的真實用戶反饋，所有評估都依賴預先訓練好的用戶模擬器離線完成。這些特性讓它在實際部署中具有相當的可行性。

當然，這項研究也有其邊界。用戶模擬器本身的質量決定了整個系統的上限——如果模擬器對用戶偏好的估計本身就不準確，強化學習優化的方向就可能跑偏。另外，現實世界中用戶的偏好是動態變化的，而這套框架目前更偏向於靜態的偏好建模。如何把動態偏好演變融入進來，或許是未來值得探索的方向。

這項研究還提出了一個更廣泛的思考：在很多序列生成任務中，獎勵的分解結構很可能導致類似的"長度捷徑"問題，不只是推薦系統領域。研究團隊提出的"讓路徑延長帶來零期望收益"這一原則，或許在其他應用強化學習的序列決策場景中同樣具有參考價值。

對"主動推薦"感興趣的讀者，有興趣進一步研讀原始論文的話，可以通過arXiv編號2605.28293獲取全文，論文同時提供了完整的代碼實現，可在GitHub上通過搜索"ProRL"找到。

---

Q&A

Q1：主動推薦系統和普通推薦系統有什麼區別？

A：普通推薦系統就像一面鏡子，你喜歡什麼它就給你看什麼，目標是精準匹配已有偏好。主動推薦系統（PRS）則更像一個導遊，它有一個平台指定的"目標內容"，會規劃一條由中間過渡內容組成的路徑，一步步把用戶的興趣從當前偏好引導到目標內容，整個過程中每一步都要保持用戶願意點擊。

Q2：ProRL中的"長度捷徑"問題是怎麼產生的？

A：主動推薦的路徑總獎勵可以拆解為每步小獎勵的累加，而每步獎勵的期望值通常是正數。這就造成了一個數學上的漏洞：路徑越長，期望總分越高。強化學習算法發現這個規律後，會一味延長路徑來提升分數，而不去認真探索每步推薦什麼內容，最終導致生成又長又雷同的低質量路徑。

贊助商廣告

Q3：ProRL為什麼在語義連貫性這個沒有被訓練的指標上也表現突出？

A：ProRL通過"逐步獎勵中心化"和"位置特定優勢估計"兩個機制，消除了梯度估計中的噪音和偏差，讓模型真正學到了高質量路徑的規劃原則，而不是單純擬合訓練獎勵。加上預訓練階段使用了基於語義關聯篩選的高質量數據，模型內化了"相鄰內容應當自然銜接"的原則，因此在沒有被明確獎勵的連貫性指標上也表現出色。