這項由中國人民大學高嶺人工智慧學院與阿里巴巴集團聯合完成的研究,於2026年4月以預印本形式發布,論文編號為arXiv:2604.19550,有興趣深入了解的讀者可通過該編號查詢完整論文。
每天打開淘寶、刷抖音或者瀏覽京東,背後都有一套龐大的推薦系統在悄悄運轉,決定你能看到什麼商品、什麼影片。這套系統的核心任務,是預測你對某個商品"點擊"還是"略過",專業上稱之為點擊率預測(CTR預測)。這件事聽起來簡單,實際上需要極其複雜的計算——系統要同時讀懂你的歷史行為、你現在想買什麼、你在哪裡、用什麼手機,再結合商品本身的特徵,瞬間給出一個判斷。
近年來,研究人員普遍採用一種叫做Transformer的神經網路結構來完成這個任務。Transformer最早因為在語言翻譯和寫作上的出色表現而聲名大噪——ChatGPT背後的核心技術就是它。自然地,大家開始把這套技術搬到推薦系統里,而且發現一個規律:網路越大、層數越多、參數越多,推薦效果就越好。這個規律被稱為"規模定律"。
然而,這條路走著走著就出現了一個現實困境。參數堆得越多,模型就越重,部署到線上伺服器的成本越來越高,而推薦系統對速度要求極為苛刻——用戶滑動螢幕的那一刻,系統必須在幾毫秒內完成對成百上千個候選商品的評分。當模型越來越臃腫,這個時間窗口就變得越來越難以滿足。
研究團隊面對這個矛盾,提出了一個新思路:能不能讓模型"反覆思考同一件事",而不是"請更多專家來處理"?這就是LoopCTR的核心想法——通過讓模型循環使用同一套參數來增加計算深度,而不是堆砌更多參數。這種方式讓訓練時的計算量可以大幅增加,但模型本身的參數量卻幾乎不變,從而在效果和效率之間找到了一條新路。
一、推薦系統的"塞車難題":規模越大,部署越難
以一輛城市公交車來理解當前推薦系統的處境。過去,工程師們通過不斷增加車廂(參數)來提升運力(模型性能),但城市道路(伺服器的內存和計算資源)是有限的,車廂太多反而造成擁堵,導致乘客等待時間(推薦延遲)急劇上升。在實際工業部署中,推薦系統每次響應用戶請求,通常要在幾十毫秒內完成對數百到數千個候選商品的評分,任何超時都意味著糟糕的用戶體驗甚至直接損失收入。
目前主流的擴展方式有三種。第一種是"深度擴展",通過堆疊更多的網路層來加深模型,類似於建更多樓層;第二種是"寬度擴展",把每個神經元的向量維度放大,讓每一層能處理更豐富的資訊;第三種是"輸入擴展",把用戶的歷史行為序列做得更長,讓模型能參考更多歷史數據。代表性工作包括Facebook的HSTU、美團的MTGR,以及OneTrans等。這些方向的規律相當一致:沿著任何一個維度擴展,效果都會提升,但代價是參數量、數據量或者計算量的同步上漲。
這就形成了一個兩難局面:研究層面的"想要更好"和工程層面的"無法承受"之間的裂縫越來越大。LoopCTR的研究團隊正是看到了這條裂縫,才選擇去探索一個不同的方向——把計算量和參數量這兩件事徹底拆開。
二、核心突破:讓同一套"大腦"反覆思考,而非請更多專家
LoopCTR的根本思路,可以用一道數學題來理比喻。假設你面對一道複雜的應用題,有兩種解法:第一種是找10個人同時解,每人負責一部分,但你需要協調10個人,成本很高;第二種是找1個聰明的人,讓他先讀題,想一想,再想一想,再想一想,經過多輪推敲得出答案,整個過程只花了1個人的開銷。LoopCTR選擇的就是第二種路線。
具體來說,傳統做法是堆疊多個各自獨立、參數不共享的網路層,每一層都有自己的一套"思考方式"。LoopCTR則設計了一個"循環模組"——這個模組的參數在多次疊代中完全共享,每次疊代讀入上一輪的輸出,再吐出更精煉的表示。訓練時可以運行3次、5次甚至更多次循環,讓模型積累更深的計算;部署時,甚至可以完全跳過這個循環模組,直接用一次前向傳播就完成預測。
這種設計帶來了兩個天然好處。其一,參數量與循環次數無關——不管訓練時跑了多少圈,部署的模型大小不變。其二,循環共享參數相當於一種隱式的正則化:模型被迫學習在不同疊代深度下都有效的通用特徵,這對推薦系統這種天然存在數據稀疏問題的場景尤為有益,能有效抑制過擬合。
不過,研究團隊很快遇到了兩道攔路虎。第一道是"表達力瓶頸":普通的Transformer層在反覆應用時,表達能力不足,無法在每一輪疊代中產生有效的資訊增量。第二道是"效率瓶頸":如果推理時也要跑多輪循環,延遲會成比例增加,依然無法滿足線上要求。為了解決這兩個問題,研究團隊在LoopCTR中設計了三個配套機制,並將它們編織進一個名為"三明治架構"的整體框架里。
三、三明治架構:入口、循環與出口各司其職
LoopCTR的整體架構被研究團隊形象地稱為"三明治",由三層組成:入口模組(Entry Block)、循環模組(Loop Block)和出口模組(Exit Block)。這三層就像一個精心設計的流水線——第一層負責把雜亂的原始特徵整理清楚,第二層負責反覆"深度思考",第三層負責把思考結果轉化為最終的點擊率預測。
入口模組的任務是處理異構特徵。推薦系統的輸入極為複雜,涵蓋用戶畫像(年齡、性別、城市)、商品屬性(類目、價格、商家)、短期行為序列(最近點了哪些商品)、長期行為序列(歷史上有哪些偏好)、上下文資訊(設備類型、時間戳)以及交叉特徵(預計算的用戶-商品親和度統計量)。這些資訊的性質差異極大,把它們一股腦丟進同一個投影矩陣會造成特徵污染。入口模組為每一組特徵準備一套專屬的投影參數,把不同來源的特徵分別映射到統一的向量空間,再在各組內部獨立做自注意力計算。特別地,對於可能長達1024個時間步的長期行為序列,直接處理代價太高,研究團隊借鑑了視覺語言模型BLIP-2的思路,用一組可學習的"查詢向量"通過交叉注意力機制把長序列壓縮成16個緊湊的表示,同時保留關鍵的長期偏好信號。
循環模組是整個架構的核心。它採用一種叫"前綴注意力"的特殊機制:序列類特徵(短期行為、壓縮後的長期行為)只在自己這個群體內互相注意,而全局特徵(用戶畫像、商品屬性等)則可以同時關注序列特徵和其他全局特徵。這種不對稱的注意力設計有一個非常重要的工程價值:序列特徵的計算完全獨立於商品特徵,因此在服務一個用戶請求時,序列部分的鍵值緩存可以計算一次後被所有候選商品復用,大幅減少了冗餘計算。循環模組在訓練時被重複調用L次,每次讀入上一輪的輸出,生成更精煉的表示。
出口模組則相對簡潔:全局特徵通過交叉注意力機制從序列特徵中匯聚資訊,隨後把拼接後的全局表示送入一個多層感知機,輸出最終的點擊概率。
四、超連接殘差:讓反覆思考真正"有新意"
解決"表達力瓶頸"的第一個武器,是研究團隊設計的"超連接殘差"機制(Hyper-Connected Residuals,簡稱HCR)。
傳統Transformer中,每一層的輸出等於當前層的計算結果加上輸入本身,像一條固定的"傳送帶",把舊資訊原封不動地帶入下一層。這種固定的1:1混合方式在普通的多層網路中問題不大,但在循環共享參數的場景下卻很受限:同一套參數在第1輪和第3輪執行時,面對的問題複雜度可能截然不同,但資訊流動的方式卻完全相同,無法自適應地調整。
超連接殘差的做法是把單條"傳送帶"擴展為多條並行的資訊流,並引入根據當前輸入內容動態調整的混合係數。研究團隊用矩陣來控制這些資訊流之間的權重,而這些權重不是固定的,而是由當前隱藏狀態經過一個小型網路動態生成的。這樣一來,循環模組在第1輪疊代時可以選擇更激進地更新資訊,在第3輪資訊已經比較收斂時則更溫和地微調,就像一個有經驗的編輯在第一遍大刀闊斧刪改,第三遍只做細節潤色。
在初始化時,研究團隊把動態部分的權重全部設為零,確保訓練剛開始時超連接殘差退化為普通的前置歸一化殘差,這樣模型可以穩定起步,隨著訓練推進再逐漸發揮動態調節的優勢。
五、專家混合層:一套參數,多種"專業能力"
解決"表達力瓶頸"的第二個武器,是把推薦系統領域常用的"專家混合"機制(Mixture-of-Experts,簡稱MoE)引入循環模組。
MoE的邏輯類比一家諮詢公司的工作方式。公司里有很多專家,但每次客戶來訪,不需要全體專家都出動,而是由一個分配員根據客戶的具體需求,選出最合適的2到3位專家來處理。這樣做的好處是:公司總體的專業能力(參數量)可以非常豐富,但每次實際動用的資源(計算量)卻相當有限。
在LoopCTR中,MoE被施加在注意力機制的值投影層、輸出投影層,以及前饋網路上。每次一個特徵向量經過這些層時,路由器會根據該特徵的內容決定激活哪2個專家(共有4個專家可選),未被選中的專家不參與計算。兩個共享同一路由器的MoE層會自動選擇同一組專家,減少路由開銷。
為了防止所有特徵都集中湧向少數幾個"明星專家"而讓其他專家閒置(這種現象叫"專家崩潰"),訓練時還加入了一個負載均衡輔助損失,鼓勵每個專家被大致均等地使用。敏感度實驗發現,每次激活2個(共4個)專家的配置表現最佳——只激活1個缺少多樣性,激活全部4個則失去了稀疏化帶來的正則化效果。
六、過程監督:讓"零輪推理"也能拿出好成績
解決"效率瓶頸"的關鍵武器,是"過程監督"(process supervision)策略。
這裡有一個類似於老師批改作業的比喻。假設一名學生做一道多步驟的數學題,傳統做法是老師只看最終答案對不對,學生在中間步驟怎麼推演並不重要。但在LoopCTR的訓練方式下,老師會在每一個中間步驟都給出反饋:做完第一步就評分一次,做完第二步再評分一次,一直到最後。每一步的表示都會被輸入出口模組,生成一個獨立的預測,這個預測都會被拿去和真實標籤比較,計算損失。最終的訓練損失是所有深度的損失之和取平均。
這種做法的深遠影響在於:循環模組的共享參數被迫變得"在任意深度下都能產生有意義的表示",包括完全沒有經過任何循環的深度0(即只經過入口模組的輸出)。當推理時跳過循環模組直接使用深度0的輸出時,模型已經通過訓練把多輪疊代積累的"見識"編碼進了共享參數,即便不執行實際的循環計算,也能輸出有競爭力的預測結果。這就是"訓練多輪循環,推理零輪循環"策略的底層邏輯。
七、實驗證明:不僅更快,效果還更好
研究團隊在四個數據集上做了全面評測。三個是公開學術基準:來自亞馬遜的電子產品評論數據集(約300萬條交互)、淘寶廣告數據集(約2500萬條交互)以及快手影片數據集(約1366萬條交互)。第四個是研究團隊從某頭部電商平台2026年1月21日至29日的生產日誌中採樣構建的內部數據集(約611萬條交互),這個數據集的特殊之處在於包含長達1024步的長期行為序列,更貼近真實工業場景。
評測指標使用了推薦領域標準的三項:AUC(曲線下面積,越高越好)、GAUC(按用戶分組的AUC均值,更能反映個性化質量)和NE(歸一化熵,越低越好)。在CTR預測領域,AUC提升0.001就被視為統計顯著且具有實際意義的進步。
對比基線涵蓋三大類共11個方法,從傳統的DNN方法(DLRM、DIN、DCNv2、Wukong)到基於Transformer的特徵交互方法(DHEN、AutoInt、HiFormer),再到統一序列與特徵建模的最新方法(InterFormer、OneTrans、HSTU、MTGR)。為了公平比較,研究團隊還設置了一個名為StackCTR的專項對照模型:它把循環模組替換為3個參數各異的普通層,與LoopCTR(3/3)的浮點計算量(FLOPs)完全相同,直接驗證"循環共享參數"對比"堆疊獨立層"的優劣。
實驗結果相當有說服力。LoopCTR的各變體在四個數據集上全面領跑,包攬了AUC和NE的最佳和次佳位置。以最受關注的幾組數字為例:在亞馬遜數據集上,LoopCTR(1/3)的AUC達到0.8728,比次佳的OneTrans高出0.0039;在快手數據集上,AUC為0.7450,超過DIN的0.7430;在內部數據集上,LoopCTR(0/3)的AUC為0.7007,同樣排名第一。
最令人印象深刻的是"零輪推理"的表現。LoopCTR(0/3)——這個在推理時完全跳過循環模組的版本——在所有四個數據集上的AUC和NE都超過了全部對比基線。在內部數據集上,LoopCTR(0/3)只需要13.38M次浮點運算和9.26毫秒延遲,而HSTU需要2150M次浮點運算和775.72毫秒,OneTrans則需要417.97M次浮點運算和494.58毫秒。效率差距高達數十倍至一兩百倍,而預測質量卻更勝一籌。
參數共享對比堆疊層的比較同樣一目了然。LoopCTR(3/3)在相同FLOPs下的AUC在四個數據集上均超過StackCTR,印證了共享參數作為更強歸納偏置的理論預期。StackCTR偶爾在個別指標上接近LoopCTR,但總體格局清晰。
八、循環越多訓練越好,但推理時一次就夠
研究團隊系統地掃描了訓練循環次數L(從0到3)和推理循環次數i(從0到3)的所有組合,結果呈現出幾條規律清晰的趨勢。
隨著訓練循環次數L增加,已實現的最佳性能穩定提升。以亞馬遜數據集為例,L=0時最佳AUC為0.8662,L=3時提升至0.8728。這證實了"循環擴展"確實是一條有效的擴展路徑,更多的訓練時計算深度能穩定提升模型質量。
然而在推理階段,額外的循環次數呈現出明顯的收益遞減。同樣在L=3配置下,i從0增加到1時AUC從0.8715跳升至0.8728,但i從1增加到2時AUC維持在0.8728不變,i=3時甚至微降至0.8726。這個規律在四個數據集上高度一致,說明推理時跑一次循環就能捕獲絕大部分的增益,多餘的循環幾乎不帶來新的提升,這進一步為"零輪或單輪推理"的實用部署提供了依據。
研究團隊還通過損失地形可視化(一種把神經網路的優化地形投影到二維平面的技術)解釋了這個現象的幾何原因。訓練循環越多的模型,其收斂點周圍的"低損失盆地"越寬、越平坦,輪廓線越稀疏均勻;訓練循環少的模型則落在一個更窄、更尖的谷底。寬平的盆地通常對應更好的泛化性能,這與LoopCTR隨L增加性能提升的觀察一致。
九、令人困惑但意義深遠的"神諭分析"
研究中最出乎意料的發現,來自一組被研究團隊稱為"神諭分析"(Oracle Analysis)的後驗實驗。
研究團隊假設存在一個全知全能的"神諭":對於測試集中的每一條樣本,這個神諭都知道應該用哪個推理深度(0輪、1輪、2輪還是3輪)才能得到該樣本最準確的預測,然後把每個樣本的最優預測匯總成整體性能。這個神諭分數代表了同一個訓練好的模型在理想調度下能達到的性能上界。
實驗結果揭示了兩個重要資訊。第一,當前最好的固定推理策略與神諭之間存在相當大的差距:在亞馬遜數據集上,神諭AUC為0.8858,而最好的實現結果(LoopCTR(1/3)或LoopCTR(2/3))為0.8728,差距達到0.013;在淘寶廣告數據集上,差距更大,為0.0231。在CTR預測領域,這是相當可觀的未挖掘潛力。
第二,一個反直覺但規律清晰的現象:訓練循環次數越少的模型,神諭上界反而越高。在亞馬遜上,L=3的神諭AUC為0.8858,L=2為0.8865,L=1為0.8885;在內部數據集上,L=3為0.7195,L=1則高達0.7306。研究團隊用損失地形來解釋:訓練循環多的模型收斂在更寬平的谷底,各循環深度的表示趨於同質化,相互之間的差異減小;訓練循環少的模型雖然落在更尖銳的谷底(泛化性略弱),但不同循環深度的表示保留了更大的多樣性,這種多樣性正是神諭進行"按樣本選深度"調度時的基礎。
神諭分析對樣本分布的觀察同樣值得關注。在L=3的配置下,36.8%的樣本在深度0時預測最准,30.9%在深度3時預測最准,深度1和深度2分別只占17.2%和15.0%。這種雙峰分布意味著樣本群體自然分裂成兩類:一類是"簡單樣本",入口模組的一次編碼已經足夠,額外的循環反而會引入干擾;另一類是"複雜樣本",必須經過充分的疊代推理才能做出準確判斷。這與大語言模型推理領域觀察到的"過度思考"現象高度對應——對於已經能直接判斷的問題,讓模型繼續"反芻"不但無益甚至有害。
十、消融實驗:每個組件都在解決不同的問題
為了驗證四個核心組件各自的貢獻,研究團隊在亞馬遜和快手數據集上逐一移除每個組件進行對照實驗。被測試的四個組件分別是:超連接殘差(HCR)、專家混合層(MoE)、過程監督(PS)和入口模組中的異構特徵投影(MP)。
在亞馬遜數據集上,移除超連接殘差導致AUC下降幅度最大,達到0.0201,說明自適應殘差流對於循環共享參數架構的有效運作至關重要。在快手數據集上,移除MoE的影響最大(AUC下降0.0060),說明對於序列模式更豐富的數據,擴展參數容量更為關鍵。過程監督和異構特徵投影在兩個數據集上都有穩定且不可忽視的貢獻,印證了每個組件都在針對性地解決循環擴展範式中的某個瓶頸,缺少任何一個都會造成可見的性能損失。
十一、工程層面:部署成本的實際數字
研究團隊還提供了詳細的效率對比數據,這些數字在工業應用背景下頗為關鍵。
LoopCTR各變體的參數量維持在0.73M到1.56M之間(M表示百萬),遠低於OneTrans(最多1.29M,但推理延遲極高)或HSTU(參數最少僅0.15M,但浮點運算量和延遲均為最高)。關鍵是,由於循環模組參數共享,LoopCTR(3/3)和LoopCTR(1/3)的活躍參數量完全相同;LoopCTR(0/3)在部署時可以直接去掉循環模組,參數量進一步縮小。
內部數據集上的延遲對比尤為直觀:LoopCTR(0/3)僅需9.26毫秒,LoopCTR(1/3)為73.65毫秒,而HSTU高達775.72毫秒,OneTrans為494.58毫秒。延遲隨推理循環次數線性增長的特性,讓工程師可以根據實際資源約束精準選擇部署配置,這種可預測的線性擴展極大地簡化了產能規劃。
說到底,LoopCTR做的事情並不神秘:它找到了一種方式,讓一個模型在訓練時"多想幾遍",把這種反覆思考的價值沉澱到參數裡,然後在真正上線時"只想一遍"甚至"不想直接給答案"。這件事的意義不僅是在推薦系統領域多刷了幾個數字,更在於它指出了一個此前被忽視的擴展維度:計算深度和參數規模未必要綁定在一起。當兩者被解耦,在參數預算有限的前提下,反覆計算同一組參數可以帶來比單次更深網路更好的效果,同時規避了堆參數帶來的儲存和部署壓力。
更有趣的是神諭分析揭示的那個未竟的疆域:現有的固定推理策略距離理論最優還差著0.02到0.04個AUC,而實現這個跨越的關鍵,是讓模型學會"知道自己什麼時候想清楚了",從而在簡單問題上省力、在複雜問題上深思。如何設計這樣的自適應推理機制,是研究團隊明確指出的下一步方向。對推薦系統感興趣的讀者,可以通過arXiv:2604.19550查閱完整論文,其中附錄部分還包含了專家路由可視化、損失地形分析以及每一循環深度的表示相似度追蹤等豐富的補充實驗。
Q&A
Q1:LoopCTR的"零輪推理"是什麼意思,為什麼不需要循環就能表現好?
A:LoopCTR在訓練時會同時監督每個循環深度的預測結果,包括完全沒有執行任何循環的深度0。這迫使模型即便在沒有循環的情況下也能輸出有效預測。訓練時多輪循環積累的"深度推理能力"會通過梯度反傳編碼進共享參數,推理時跳過循環模組直接使用入口模組輸出,性能已經超越所有對比基線,延遲也降低到了個位數毫秒級別。
Q2:LoopCTR中的超連接殘差和普通殘差連接有什麼區別?
A:普通殘差連接是把當前層的輸出和輸入以固定的1:1方式相加,資訊流動方式在整個網路中一成不變。超連接殘差把單條資訊流擴展為多條並行流,並通過由當前輸入內容動態生成的混合係數控制各條流的權重。這樣,同一套共享參數在循環的不同輪次可以自適應地調整資訊流動方式,早期疊代大幅更新,後期疊代小幅微調,克服了普通殘差在循環共享參數場景下的表達力瓶頸。
Q3:為什麼訓練循環次數少的模型,神諭性能上界反而更高?
A:訓練循環次數越多,模型收斂在更寬平的損失地形中,各循環深度的表示趨於同質化,相互差異減小;循環次數少的模型雖然泛化稍弱,但不同深度的表示保留了更大的多樣性。神諭選擇最優深度時,正是在利用這種多樣性——不同樣本可以匹配到最適合自己的那個深度。多樣性越豐富,神諭能挖掘的潛力越大,所以訓練循環少的模型神諭上界更高,但已實現的平均性能更低。






