宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

復旦大學團隊揭秘:為什麼推薦系統總愛給你推"無聊"的長列表?這項新研究找到了根本原因

2026年06月02日 首頁 » 熱門科技

這項由復旦大學數據科學學院主導的研究,發表於2026年第43屆國際機器學習大會(ICML 2026,Seoul, South Korea, PMLR 306),論文編號為arXiv:2605.28293,有興趣深入了解的讀者可通過該編號查詢完整論文。

你有沒有遇到過這樣的場景:你一直在某影片平台刷科幻電影,突然有一天平台想向你推薦一部喜劇片,但你對喜劇完全沒有興趣,直接划走了。平台的運營同學急得抓耳撓腮——他們手裡有一部很好的喜劇,用戶卻完全不買賬。硬推不行,軟推又不知道怎麼軟。

這個困境,正是這篇論文要解決的核心問題。

一支來自復旦大學數據科學學院的研究團隊,構建了一個叫做"ProRL"的推薦系統,它的核心思路不是硬塞內容給用戶,而是像一個耐心的導遊,先陪你走一段你熟悉的路,再一步一步把你引向你未曾踏足的新地方。更重要的是,團隊在研究過程中發現了一個此前被忽視的關鍵漏洞:用來訓練這類系統的標準強化學習方法,竟然存在兩個根本性的缺陷,會讓整個訓練過程跑偏。他們深入剖析了這兩個缺陷,並給出了精準的修複方案。

一、推薦系統界的"溫水煮青蛙"策略

要理解這項研究的價值,得先聊聊"主動推薦系統"是什麼。

普通的推薦系統就像一面鏡子,你喜歡什麼,它就給你看什麼。你愛看科幻,它永遠給你推科幻;你愛吃川菜,它永遠給你推火鍋。這當然沒問題,用戶體驗不錯,但平台有時候有自己的小算盤——它新簽了一批喜劇版權,或者上了一條新的美食頻道,需要用戶去探索新的內容領域。

直接把新內容塞到推薦位?大多數時候用戶會無情地划過去,因為和自己的口味完全不搭。

"主動推薦系統"(Proactive Recommender System,簡稱PRS)提供了一種更溫柔的解法:與其一步跨越到目標內容,不如規劃一條"過渡路徑",先推一部融合了科幻和動畫元素的 《瓦力》,再推一部融合了動畫和喜劇元素的《動物方城市》,最後才引入那部純喜劇。每一步都在用戶的接受範圍之內,卻在悄悄地把用戶的偏好向目標方向撥動。這就是論文開頭用 《瓦力》→《動物方城市》→《白日夢想家》這條路徑來舉例說明的核心邏輯。

這種"溫水煮青蛙"式的策略,需要同時滿足兩個要求。第一是路徑上每一步的推薦都得讓用戶願意點擊,保持用戶的持續參與;第二是整條路徑走完之後,用戶對目標內容的興趣要真的有所提升。這兩個目標必須同時優化,任何一個方面的妥協都會讓整條路徑失效。

二、強化學習本是解題妙手,卻暗藏兩個致命漏洞

面對"規劃一條最優過渡路徑"這個問題,研究團隊自然想到了強化學習。這個方法的思路可以用"圍棋訓練"來理解:系統不斷地生成推薦路徑,然後根據路徑的最終效果(用戶是否真的對目標內容產生了興趣)來判斷這條路走得好不好,再調整下一次的策略。不斷試錯,不斷進步。

這種方法理論上非常適合這類序列決策問題,因為每條路徑的"好壞"可以用一個綜合分數來量化——既考慮了每步是否被用戶接受,也考慮了整體引導效果。

然而,當研究團隊真正把標準的強化學習算法套到主動推薦任務上之後,他們發現了一個令人沮喪的現象:系統很快就學會了一種"投機取巧"的策略,而且在不同數據集、不同獎勵設置下,這個問題幾乎無一例外地出現。

具體來說,訓練過程中,系統生成的推薦路徑越來越長,逼近預設的最大長度上限;與此同時,生成的路徑越來越雷同,多樣性急劇下降。換句話說,不管是哪個用戶,不管目標是什麼內容,系統最終都吐出一條又長又千篇一律的推薦路徑。這顯然毫無意義。

研究團隊沒有簡單地把這個現象歸結為"調參問題",而是深挖背後的數學原因,最終找到了兩個根本性的缺陷。

第一個缺陷叫做"長度捷徑"。原來,用于衡量路徑質量的綜合獎勵分數,可以被拆解成每一步的小獎勵之和。而每一步的小獎勵,平均來說是正數。這就產生了一個微妙但致命的後果:從數學期望上看,路徑越長,總得分越高。對強化學習算法來說,這相當於發現了一個"作弊方法"——不需要真正思考每步推薦什麼內容,只需要讓路徑變得更長,分數就會自動提升。算法發現這個規律之後,當然會一頭扎進去,不停地延長路徑,完全放棄了對"推薦什麼"的深入探索。

研究團隊還為這個現象提供了嚴格的數學證明。他們構建了一個簡化模型,理論上推導出:只要每步獎勵的期望值大於零,強化學習的梯度更新就會系統性地降低"停止生成"的概率,讓路徑無止境地延長。而且這個下降的速度遵循O(1/s)的規律,意思是隨著訓練步驟的推進,停止概率以一種穩定的速率趨向於零,這是結構性的必然結果,不是偶然的訓練不穩定。

第二個缺陷叫做"高梯度方差"。梯度在強化學習中扮演著"指路牌"的角色,告訴模型應該往哪個方向調整參數才能生成更好的路徑。然而,標準算法用整條路徑的總分來給每一步的推薦評分,這就相當於:第一步推薦了 《瓦力》,它的好壞卻被整條路徑(包括第五步、第八步)的總分來評判。但第一步的選擇根本不影響它之後的歷史,這種"連坐"式的評分引入了大量無關的噪音,導致"指路牌"東倒西歪,模型很難從中獲得清晰穩定的學習信號。

三、ProRL的兩劑精準藥方

正是基於對上述兩個缺陷的深刻理解,研究團隊提出了ProRL框架,其中包含兩個量身定製的修復機制。

第一個機制叫做"逐步獎勵中心化"。解決"長度捷徑"的關鍵,就是讓路徑延長這件事本身不再帶來額外的期望收益。做法聽起來簡單,卻直擊要害:在計算每一步的獎勵時,減去該步獎勵的平均值。這個操作的效果是,原本每步都有正向平均期望的獎勵,變成了圍繞零點波動的獎勵。延長路徑不再自動帶來更高的期望總分,算法必須真正靠著選擇好的內容來提升分數。

在實際操作中,研究團隊先跑一個"熱身輪次",收集大量路徑樣本,統計出每一步獎勵的均值和方差,然後把這些統計量固定下來,在後續所有訓練中使用。這裡有個技術細節值得一提:如果讓均值和方差隨著模型的不斷改進而動態更新,就會產生"校準目標一直在移動"的不穩定問題,所以用早期樣本固定下來是更穩健的做法。

針對多個獎勵目標並存的情況(既要考慮點擊率,又要考慮興趣增量,還要考慮排名變化),團隊進一步把"中心化"擴展為"歸一化":不僅減去每個目標的均值,還除以其標準差,讓不同量級的獎勵信號都縮放到可以比較的範圍內。這樣三個獎勵目標就可以平等地參與訓練,不會讓某一個因為數值特別大而主導整個優化過程。

第二個機制叫做"位置特定優勢估計"。要解決梯度方差高的問題,核心思路是讓每一步的評分只考慮"它能影響的未來",而不是用整條路徑的總分來評判。

在強化學習領域,"從當前步到路徑結束的累計獎勵"被稱為"獎勵到去",使用它來代替總路徑獎勵,本身就已經能有效減少噪音。但研究團隊在此基礎上又進了一步:他們發現,路徑中不同位置的"獎勵到去"期望值是不同的。越靠近路徑末尾的步驟,未來可以積累的獎勵自然越少。如果用一個統一的基線值來評判所有位置,就會產生系統性的偏差。

ProRL的做法是,針對路徑中的每個位置,分別計算一個"基準值":把同一批採樣路徑中,到達該位置的所有路徑在該位置之後的平均累計獎勵,作為評判該位置選擇好壞的參照點。第一步的選擇和其他第一步比,第五步的選擇和其他第五步比,這樣才公平。

這種位置特定的基線,無需額外訓練一個專門的"評論家網路"(在傳統的A2C算法中,通常需要這樣一個輔助模型),完全依賴當前批次的採樣統計來計算,既簡單又穩定。

四、實驗數據:數字背後的真實差距

研究團隊在三個真實世界的數據集上對ProRL進行了全面測試,分別是電影領域的MovieLens-1M、遊戲領域的Steam,以及電商領域的Amazon-Book。

評估指標有四個維度。"興趣增量"衡量用戶看完引導路徑後對目標內容的興趣是否真正提升了(數值越高越好)。"排名提升"衡量目標內容在用戶個性化推薦列表中的排名提升了多少位(數值越高越好)。"點擊率"衡量路徑中每一步的推薦內容是否被用戶接受(越高越好)。"語義連貫性"衡量路徑中相鄰推薦內容之間是否具有自然的關聯(越高越好)。

對比的基準方法涵蓋了四大類:以GRU4Rec、BERT4Rec、LightSANs、FEARec為代表的傳統序列推薦方法;以IRN為代表的監督學習主動推薦方法;以IPG和ITMPRec為代表的啟發式貪心方法;以及以LLM-IPP和T-PRA為代表的大語言模型方法。

ProRL在幾乎所有指標上都拿到了第一名,差距尤為顯著。以MovieLens-1M為例,ProRL的點擊率達到0.8543,而最強的競爭對手IRN僅有0.8398;興趣增量方面ProRL達到2.8504,而最好的競爭對手LLM-IPP和T-PRA分別只有2.4680和2.4867;排名提升方面ProRL達到728.18,而T-PRA的355.16是第二名,ProRL幾乎是其兩倍。在Amazon-Book數據集上,ProRL的排名提升高達1383.41,而同類方法中最好的ITMPRec僅有472.50,差距更為懸殊。

有一個現象特別值得關註:語義連貫性這個指標,完全沒有被納入訓練的獎勵函數中,ProRL並沒有被"教導"要生成連貫的路徑。但實驗結果顯示,ProRL在這個指標上同樣大幅領先所有基準方法。在MovieLens-1M上,ProRL的語義連貫性達到0.8422,而得分最高的競爭對手LLM-IPP只有0.6288。這說明ProRL學到的是真正高質量的路徑規劃原則,而不僅僅是在擬合訓練獎勵。

五、消融實驗:拆開來看,哪塊是真正的功臣

為了驗證ProRL中每個組件的實際貢獻,研究團隊做了系統的消融實驗,也就是逐個去掉某個組件,看性能如何變化。

去掉"逐步獎勵中心化"之後,一個有趣的現象出現了:點擊率反而比完整ProRL更高!在MovieLens-1M上甚至達到了0.9731。但代價是興趣增量和排名提升大幅下滑。這個現象恰好印證了團隊的診斷:沒有中心化機制,系統在訓練時被點擊率獎勵的正向平均值所主導,一門心思優化短期的用戶點擊,完全忽略了更難獲取但更重要的引導效果信號。系統產生了嚴重的目標偏移,優化了一個容易優化的目標,卻犧牲了真正想要的目標。

去掉"位置特定優勢估計"之後,三項指標都有所下降,其中引導效果類指標的下降幅度尤為明顯。這證實了減少梯度方差對於讓模型學到正確的路徑策略至關重要。

研究團隊還專門比較了五種不同的梯度估計方法:標準REINFORCE、獎勵到去、GRPO(借鑑自大語言模型對齊領域)、A2C(使用神經網路評論家),以及ProRL自己的位置特定優勢估計。實驗發現,標準REINFORCE會導致路徑長度在訓練早期快速坍縮到只有1到2步;GRPO則相反,路徑長度始終卡在最大長度10步,全程沒有變化;A2C表現介於兩者之間,但梯度方差在訓練過程中反而越來越大(因為評論家網路無法跟上快速變化的策略);只有ProRL的獎勵到去和位置特定優勢估計組合,能夠讓路徑長度穩定在3到4步這個合理區間,梯度方差也持續保持在最低水平,約為標準REINFORCE的5%。

六、預訓練與強化學習的分工協作

ProRL的訓練分為兩個階段,兩者缺一不可,分工明確。

第一階段是監督預訓練。研究團隊首先從歷史交互數據中挖掘出高質量的"平滑引導軌跡"——那些相鄰內容之間具有自然關聯的用戶行為序列。他們用兩種方式來判斷"相鄰內容有沒有關聯":在有知識圖譜的數據集中,判斷兩個內容是否共享至少一個屬性(比如類型、導演等);在沒有結構化元數據的場景下,則用大語言模型來判斷兩個內容之間的過渡是否自然。這些篩選後的數據被用來預訓練一個輕量級的編碼器-解碼器模型,讓它先學會"怎麼樣的路徑是合理的"。

研究團隊發現,預訓練的完成度對後續強化學習的效果有決定性影響。只用1%的預訓練數據初始化的模型,在強化學習階段幾乎學不到任何有用的東西,興趣增量接近於零;而用完整100%數據預訓練的模型,強化學習階段的效果顯著優於66%和33%預訓練完成度的版本。這說明預訓練不只是一個熱身步驟,而是為強化學習提供了一張"語義地圖",讓模型在一個合理的搜索空間內探索,而不是在茫茫無際的路徑空間中盲目亂撞。

第二階段是強化學習優化。在預訓練模型的基礎上,用ProRL的兩個修復機制來引導模型向"路徑真正有效"的方向進化。這一階段的效果在數據上體現得非常清晰:預訓練結束後,模型的點擊率已經相當不錯(MovieLens-1M上達到0.8671),但興趣增量只有0.8600,排名提升只有254;經過強化學習優化之後,興趣增量跳升到2.8504,排名提升跳升到728。

一個有趣的補充實驗進一步揭示了強化學習的本質作用。研究團隊從預訓練模型中同時採樣10條路徑,記錄其中最好的興趣增量和排名提升,結果發現這些"最優樣本"的指標幾乎和完整ProRL的最終效果相當(最優興趣增量達到3.3585,最優排名提升達到851)。這說明強化學習並沒有憑空給模型灌輸新能力,而是把原本存在於預訓練模型"潛力庫"里的優秀路徑,從低概率區域"打撈"出來,讓模型在實際推理時就能更高概率地生成這類優質路徑。

七、泛化能力:換個評判標準還能贏嗎

有一種擔憂是:推薦系統的評估依賴於一個"用戶模擬器"(在這項研究中是SASRec模型),模型在訓練時的優化目標和評估標準高度一致,會不會只是學會了"迎合這個特定的評判者",換一個評判者就不行了?

為了驗證這一點,研究團隊用三個在訓練過程中完全沒有見過的推薦模型(GRU4Rec、BERT4Rec、LightSANs)作為"陌生評判者"來重新評估所有方法。結果顯示,ProRL在這些陌生評判者下同樣保持了全面領先的優勢。例如以LightSANs為評判者時,ProRL的排名提升在MovieLens-1M上達到755.83,在Amazon-Book上達到1286.74,依然大幅超越所有競爭對手。這說明ProRL學到的是具有普遍性的引導原則,而不是針對某個特定評估模型的"刷分技巧"。

此外,研究團隊還測試了ProRL在不同目標難度下的魯棒性。他們選取了不同"用戶本來就對目標內容有多少興趣"的測試樣本,從相對容易引導的(用戶已經有一定興趣)到相對困難的(用戶對目標內容幾乎沒有興趣),結果顯示ProRL在各種難度下都保持了穩定的領先優勢,沒有出現"容易的情況表現好、困難的情況崩盤"的問題。

歸根結底,這項研究做了一件很有價值的事:它不滿足於"提出一個新方法然後看它好用",而是深入追問"為什麼舊方法不好用",找到了兩個具體的、可以用數學語言精確描述的缺陷,然後給出了針對性的修複方案,並用嚴格的實驗來驗證每個修復點的獨立貢獻。

從實際應用的角度看,ProRL用的基礎模型非常輕量——只有大約200萬參數,遠比大語言模型方法便宜。它既不依賴昂貴的大模型推理,也不需要在線的真實用戶反饋,所有評估都依賴預先訓練好的用戶模擬器離線完成。這些特性讓它在實際部署中具有相當的可行性。

當然,這項研究也有其邊界。用戶模擬器本身的質量決定了整個系統的上限——如果模擬器對用戶偏好的估計本身就不準確,強化學習優化的方向就可能跑偏。另外,現實世界中用戶的偏好是動態變化的,而這套框架目前更偏向於靜態的偏好建模。如何把動態偏好演變融入進來,或許是未來值得探索的方向。

這項研究還提出了一個更廣泛的思考:在很多序列生成任務中,獎勵的分解結構很可能導致類似的"長度捷徑"問題,不只是推薦系統領域。研究團隊提出的"讓路徑延長帶來零期望收益"這一原則,或許在其他應用強化學習的序列決策場景中同樣具有參考價值。

對"主動推薦"感興趣的讀者,有興趣進一步研讀原始論文的話,可以通過arXiv編號2605.28293獲取全文,論文同時提供了完整的代碼實現,可在GitHub上通過搜索"ProRL"找到。

---

Q&A

Q1:主動推薦系統和普通推薦系統有什麼區別?

A:普通推薦系統就像一面鏡子,你喜歡什麼它就給你看什麼,目標是精準匹配已有偏好。主動推薦系統(PRS)則更像一個導遊,它有一個平台指定的"目標內容",會規劃一條由中間過渡內容組成的路徑,一步步把用戶的興趣從當前偏好引導到目標內容,整個過程中每一步都要保持用戶願意點擊。

Q2:ProRL中的"長度捷徑"問題是怎麼產生的?

A:主動推薦的路徑總獎勵可以拆解為每步小獎勵的累加,而每步獎勵的期望值通常是正數。這就造成了一個數學上的漏洞:路徑越長,期望總分越高。強化學習算法發現這個規律後,會一味延長路徑來提升分數,而不去認真探索每步推薦什麼內容,最終導致生成又長又雷同的低質量路徑。

Q3:ProRL為什麼在語義連貫性這個沒有被訓練的指標上也表現突出?

A:ProRL通過"逐步獎勵中心化"和"位置特定優勢估計"兩個機制,消除了梯度估計中的噪音和偏差,讓模型真正學到了高質量路徑的規劃原則,而不是單純擬合訓練獎勵。加上預訓練階段使用了基於語義關聯篩選的高質量數據,模型內化了"相鄰內容應當自然銜接"的原則,因此在沒有被明確獎勵的連貫性指標上也表現出色。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新