這項由中國人民大學高嶺人工智慧學院與騰訊大語言模型部門聯合完成的研究,發表於2026年6月,論文編號為arXiv:2606.12397,有興趣深入了解的讀者可以通過這個編號查詢完整論文。
**一個被忽視已久的"調度員問題"**
現代最強大的AI大模型,比如你每天用到的各種智能助手背後的引擎,很多都採用了一種叫做"混合專家"的架構。這個名字聽起來很玄乎,但核心思路其實相當樸實:既然一個人不可能精通所有領域,那就組建一支專家團隊——有的專家擅長理解語法,有的擅長處理數字,有的擅長理解常識——然後根據每個問題的特點,把它分派給最合適的專家去處理。
這種架構讓模型可以在不消耗更多計算資源的前提下,擁有更強大的綜合能力。DeepSeek
、GPT等頂級大模型都在大量使用這種技術。
然而,在這套精密的分工體系里,有一個至關重要的角色長期以來被人忽視——那就是負責"分派任務"的調度員,在技術上稱為"路由器"(Router)。路由器的工作聽起來很簡單:每當一段文字輸入進來,它負責判斷這段文字應該交給哪幾位專家處理。但問題在於,這位調度員對每位專家的了解有多深?它手裡拿著的那份"專家簡歷",是否真實準確地反映了每位專家的能力特長?
長期以來,研究者們設計路由器的方式,就像是隨便給每位專家貼了一張名片,然後靠模型訓練過程中的自然磨合,希望這張名片最終能變得準確。然而,沒有任何明確的機制去保證這一點。中國人民大學的研究團隊注意到了這個漏洞,並提出了一套名為"流形冪疊代"(Manifold Power Iteration,簡稱MPI)的路由器重設計方案,用一種數學上極為優雅的方式,讓路由器真正"讀懂"每一位專家。
**一、調度員的困境:名片上寫的是什麼?**
為了理解這項研究解決的問題,可以用一個生活中的場景來類比。假設你是一家大型諮詢公司的前台接待,你的工作是把客戶的諮詢需求分配給公司里最合適的顧問。公司里有64位顧問,每個人都精通不同的領域。你手邊有一張顧問花名冊,上面有每個人的簡介——這就相當於路由器里的"權重矩陣",每一行對應一位專家的"代理向量"。
你的判斷邏輯是:把客戶的需求(即輸入的文字)和花名冊上每位顧問的簡介做對比,哪幾位顧問的簡介和這個需求最吻合,就把任務分給他們。這種對比在數學上叫做"內積"或"點積"。
問題就在這裡——花名冊上的簡介,是怎麼來的?在傳統的混合專家模型里,這份簡介是通過模型整體訓練自然"湧現"出來的,沒有任何明確的規則要求它必須準確反映顧問的實際能力。結果就是,一位實際上專精金融分析的顧問,他的簡介可能只是模糊地寫著"善於解決複雜問題"——這種描述太籠統,前台根據它做出的分配決策自然也會有所偏差。
從數學的角度說,每一位"專家"本質上是一個矩陣(一組參數),而調度員手裡的那張"名片"只是一個向量(一行數字)。要用一個向量來概括一個矩陣,就必須問:這個矩陣最本質、最有代表性的特徵是什麼?
數學家們早就有了答案:一個矩陣最有代表性的方向,叫做它的"主奇異方向"(Principal Singular Direction)。你可以把它理解成,如果一個矩陣是一張橢圓形的地毯,那它的主奇異方向就是這張橢圓地毯最長的那條軸線的方向。這個方向承載了矩陣里最密集、最重要的資訊。用這個方向來作為專家的"名片",在數學上是最優的選擇。
中國人民大學的團隊由此提出了一個核心主張:路由器里每一行的代理向量,都應該與對應專家矩陣的主奇異方向保持對齊。這就是MPI方案的根本動機。
**二、怎麼找到矩陣的"最長軸":冪疊代的妙用**
找到矩陣的主奇異方向,標準的數學工具是"奇異值分解"(SVD)。這種方法可以精確地找到矩陣的每一條軸以及對應的重要程度,就像精確測量地毯每條軸的長度。然而,對一個大型神經網路來說,每次訓練步驟都對每一位專家的矩陣做完整的奇異值分解,計算代價極為昂貴——這就好比每天上班前都要把整間辦公室的家具精確測量一遍,顯然不現實。
研究團隊選擇了一種輕量級的替代方案——"冪疊代"(Power Iteration)。這種方法的思路非常直覺化:如果你反覆用一個矩陣去"揉搓"一個向量,這個向量最終會自然而然地朝著矩陣最主要的方向倒去,就像把一根隨機放置的鐵棒放在一個有方向的磁場裡,它最終會順著磁場方向躺平。
具體做法是:對於路由器里的第i行代理向量,先拿出對應第i號專家的權重矩陣,然後讓代理向量"穿越"專家矩陣一次——先乘以專家矩陣,再乘以專家矩陣的轉置。這個操作在數學上寫作:
$hat{R}_{[i]} = R_{[i]} W_g^i W_g^{i op}$
這一步就是所謂的"冪"操作。每次訓練都執行這個操作,積累足夠多的步驟之後,代理向量就會越來越接近專家矩陣的主奇異方向。
然而,反覆執行這個操作會帶來一個副作用:向量的長度(L2範數)可能會不受控制地膨脹,就像反覆揉搓橡皮泥,它會越來越大塊。如果任由這種情況發展,訓練過程會變得極不穩定,出現數值爆炸或崩潰。
為了應對這個問題,研究團隊在每次冪操作之後,立即加入了一步"收縮"操作——把向量的長度強制歸一化到一個由超參數C控制的固定值。這一步在數學上叫做"回縮"(Retraction),把向量拉回到一個固定半徑的球面上,保證訓練的數值穩定性。這兩步操作合在一起,就構成了方法名字中"冪-後-回縮"(Power-then-Retract)範式,也就是"流形冪疊代"這個名字的來源。
關於超參數C應該取多大,研究團隊也給出了一個有數學依據的設計原則。路由器的輸出(logits)應該保持在一個穩定的量級,不能隨著專家數量N的增加而爆炸。經過推導,C應該與$rac{1}{sqrt{N}}$成正比——專家越多,每個代理向量的"音量"就越小,這樣所有專家疊加起來的總"噪音"才能保持平穩。具體實現中,定義$C = rac{C'}{sqrt{N}}$,其中$C'$是一個與專家數量無關的全局超參數,方便跨規模遷移使用。
**三、這套方案的數學靈魂:它在優化什麼?**
研究團隊不僅給出了操作方法,還從優化理論的角度,對這套方案的本質做了深入的數學解析。這部分內容乍看晦澀,但其核心思想其實頗為直觀。
他們證明了:MPI的每一步更新,等價於在一個特殊約束下的"最速上升"優化。所謂約束,就是代理向量必須始終保持在一個固定大小的球面上(這正是回縮操作所保證的)。所謂"最速上升",就是每一步都朝著最大化"代理向量在專家矩陣行空間上的投影"這個目標,邁出最大可能的步伐。
在數學上,這個優化目標可以寫成最大化瑞利商(Rayleigh Quotient):
$max_{R_{[i]}} phi(W_*^i, R_{[i]}) = rac{|R_{[i]} W_*^i|_2^2}{|R_{[i]}|_2^2}$
這個式子的含義是:讓代理向量在專家矩陣上的"投影面積"最大。當這個值達到最大時,代理向量恰好與專家矩陣的主奇異方向對齊。
更有趣的是,MPI的更新方式是一種"自適應步長"的優化。當代理向量還距離主奇異方向很遠時,每步更新的步伐很大,更新很"積極";當代理向量已經接近對齊狀態時,步伐會自動變小,更新變得更加"謹慎"。這種自適應機制保證了整個對齊過程既高效又穩健,不會因為步子邁得太大而越過目標。
研究團隊還從SVD的角度給出了補充解釋:經過足夠多輪的冪疊代之後,向量會趨向專家矩陣的主奇異向量,而每次更新的方向則指向"當前代理向量與主奇異向量之間的殘差"——也就是說,每一步都在修正代理向量的偏差,逐步把它旋轉到正確的方向上。
**四、實驗怎麼做的:從1B到11B的全面檢驗**
任何理論上的優雅,都需要經過實驗的檢驗。研究團隊設計了一系列由小到大的預訓練實驗,來驗證MPI在實踐中的效果。
第一組實驗在1B參數規模的混合專家模型上進行,目的是驗證MPI是否是一種與優化器無關的通用改進。研究團隊使用了四種不同的優化器:AdamW(最經典的大模型訓練優化器)、Muon(一種較新的、基於動量正交化的優化器)、以及它們各自對應的"超球面"變體AdamH和MuonH。這四種優化器在參數更新的哲學上有顯著差異,是很好的對照組。
結果是,在所有四種優化器下,加入MPI的模型相比不加MPI的基線模型,都取得了更低的訓練損失和更好的下游任務表現。以MuonH為例,MPI帶來了0.013的訓練損失降低,在涵蓋25個基準測試的平均準確率上,從42.78%提升到43.98%。這種一致性表明,MPI是路由器設計層面的本質改進,而不是依賴某種特定優化器的技巧。
基於1B規模的驗證結果,研究團隊進一步將實驗擴展到3B和11B兩個更大規模。所有模型在FineWeb-Edu數據集上預訓練3500億個token,再在Olmo-3的數據集上進行100億token的中期訓練。
在11B規模的收斂曲線對比中,加入MPI的模型始終保持訓練損失的優勢,並且這種優勢隨著訓練進行沒有消失——事實上,MPI模型實現了約1.04倍的等效訓練加速,也就是說,用更少的數據就能達到基線模型需要更多數據才能達到的性能水平。
在下游任務的評測中,結果同樣令人信服。以3B規模為例,在ARC-Challenge(科學推理)、MMLU(多領域知識)、TriviaQA(問答)、NaturalQuestions(開放問答)、BBH(邏輯推理)、GSM8K(數學應用題)、MBPP(代碼生成)等多個具有代表性的測試上,MPI版本都超過了基線版本,綜合平均準確率從36.37%提升到38.70%。11B規模下,平均準確率從40.92%提升到42.76%。
在語言建模的困惑度(PPL,越低越好)指標上,無論是通用驗證集、數學專項集還是代碼專項集,MPI版本都取得了更低的困惑度,說明它的改進是全面的,並非專注於某類任務而犧牲另一類。
**五、意外的驚喜:負載均衡也變好了**
除了預期的性能提升,研究團隊還發現了一個意外的收穫:MPI對模型的"負載均衡"有積極影響。
在混合專家系統里,負載均衡是一個長期令工程師頭疼的問題。理想狀態下,所有專家應該被大致均等地使用——每個專家都有事做,沒有人被過度使用或閒置。但在實際訓練中,路由器往往會形成"偏好",把大量任務集中分配給少數幾位專家,導致負載不均,既浪費了其他專家的能力,也可能讓熱門專家過載。
研究人員觀察到,在引入MPI之後,模型的負載均衡損失(一種專門衡量分配均勻程度的指標)在訓練早期急劇下降,並在此後一直保持在較低水平。更嚴格的衡量指標MaxVio(最大違規量,衡量最不均衡的極端情況)同樣顯示,MPI版本的負載分布更加均勻:批次內最大違規量從1.133降至1.024,全局最大違規量從0.964降至0.711。
研究團隊推測,這種負載均衡的改善,可能與回縮操作有關——將每個代理向量的範數歸一化到同一量級,消除了不同專家之間因向量"音量"不同而產生的天然偏好。當所有專家的代理向量都處於同一"音量"時,路由器對不同專家的偏愛程度就更加公平,分配也就更加均衡。不過研究團隊也坦承,這背後的機制還需要更深入的研究,留作未來工作。
**六、拆解設計:每個零件都不可或缺**
任何一套方案里都可能有"關鍵零件"和"可有可無的零件"。研究團隊通過消融實驗(系統性地移除某個組件,觀察性能變化),驗證了MPI兩個核心設計的必要性。
第一組對照:只保留回縮,去掉冪疊代。也就是說,只對路由器的原始權重做行歸一化,而不做冪疊代。結果是,這個變體的性能與原始的基線模型幾乎沒有區別,說明單純的歸一化並不能帶來性能提升——性能的提升來自冪疊代帶來的方向對齊,而不是歸一化本身。
第二組對照:只保留冪疊代,去掉回縮。這個變體在使用AdamW和Muon優化器時會出現明顯的訓練不穩定現象——損失出現尖峰波動,梯度出現異常。即使換用具有內置權重約束的超球面優化器(AdamH和MuonH),訓練雖然可以進行,但相比完整的MPI方案,預訓練損失也會升高約0.003。這說明回縮操作不只是"錦上添花",而是維持訓練穩定性的必要保障,尤其對於缺乏權重約束的優化器來說更是不可或缺。
研究團隊還驗證了超參數C'的敏感性。在一組使用256個專家的小規模模型上,對C'取1、2、4、8進行了網格搜索,發現驗證集困惑度在C'=4時最優(0.8533),但即便是最差的C'=1(0.8896),也比不使用MPI的基線(0.8884)好。這說明MPI的改進效果對超參數的選擇相當穩健,不需要精確調參就能發揮作用。
此外,研究團隊還探索了對哪個專家子矩陣做冪疊代的效果最好。混合專家模組的每個專家由三個子矩陣組成($W_g$、$W_p$、$W_o$),研究發現三者之間沒有顯著差異,最終選用$W_g$作為默認,因為它在當前實驗設置下有輕微優勢。
**七、與其他技術的兼容性:一個好配角**
MPI的一個重要特性是,它修改的只是路由器權重的計算方式,而不改變路由器的基本接口(輸入輸出格式不變)。這意味著它理論上可以與大多數其他路由器改進方案並行使用。
研究團隊驗證了兩種典型的兼容性場景。一是與輔助損失函數的兼容性——在標準混合專家訓練中,通常會額外加入"負載均衡損失"和"路由器z-loss"等輔助項來引導路由行為。實驗表明,MPI與這些輔助損失兼容良好,加入z-loss後下游任務平均準確率還額外提升了0.68個百分點。二是與不同激活函數的兼容性——默認使用Softmax激活,切換為Sigmoid激活後,訓練損失優勢有所收窄,但下游性能仍然改善(從41.64%到42.05%),說明MPI在不同激活函數下均有效。
**八、驗證對齊效果:數字說話**
既然MPI的核心主張是提高路由器與專家之間的對齊程度,研究團隊自然也需要直接測量這種對齊是否真的發生了。
他們定義了一個叫做λ的指標,衡量代理向量投影到專家矩陣上的歸一化得分——λ越接近1,說明代理向量與專家矩陣的主奇異方向越對齊;λ越接近0,說明兩者幾乎無關。
對比結果非常清晰。在普通混合專家模型中,從第1層到第12層,λ的均值大約在0.22到0.37之間——代理向量與專家矩陣的主奇異方向幾乎沒有特別的關聯。而在MPI版本中,λ的均值大約在0.62到0.70之間,幾乎是基線模型的兩倍多。這直接證實了MPI確實有效地將路由器代理向量導向了專家矩陣的主奇異方向。
研究團隊還測試了"如果把冪疊代次數從1次增加到10次,會不會更好?"的問題。答案是否定的:10次冪疊代讓吞吐量下降了5%,但既沒有帶來更好的訓練收斂,下游平均準確率反而下降了1.39個百分點。這表明,單次冪疊代所帶來的方向引導已經足夠,而過於激進的對齊反而會干擾路由器優化的穩定性。
**九、效率:幾乎免費的性能提升**
對於工業界來說,任何方法能否落地,效率是繞不開的話題。研究團隊對MPI的計算開銷進行了細緻分析。
在11B規模的預訓練實驗中,原始混合專家模型的吞吐量是每天349.7億個token,而加入MPI後,吞吐量下降幅度僅為0.2%——幾乎可以忽略不計。從直覺上理解,MPI在每個訓練步驟里額外計算的工作量,相當於處理N個額外的token,而實際訓練中每批次包含的token數量遠遠多於這個量。MPI不引入任何額外的通信開銷,也不與現有的訓練框架產生衝突。
更重要的是,在推理階段,MPI的代理向量可以在模型加載時一次性計算完成,儲存下來直接使用,推理期間完全沒有額外開銷。這意味著已經部署好的推理引擎無需任何修改,就可以直接運行MPI訓練出的模型。
歸根結底,MPI提供的是一種幾乎不需要付出額外代價的系統性改進。它不改變模型的基本結構,不增加推理複雜度,只是在訓練中加入了一個輕量級的方向修正機制,卻帶來了可觀的性能提升、更好的負載均衡,以及更穩定的訓練過程。
這背後的道理其實樸實:當你給系統中一個長期被忽視的組件——調度員——配上了更準確的專家簡歷,整個系統的協作自然會變得更高效。專家被派去做他們真正擅長的事情,任務完成的質量也就隨之提升。
當然,研究團隊也誠實地指出了一些尚未解答的問題:回縮操作改善負載均衡的深層機制還需要探索;多個專家子矩陣組合用於冪疊代的潛力還沒有被充分挖掘;在更大規模(比如數千億參數)上的表現還有待驗證。這些都是值得繼續深入研究的方向。
對大型語言模型感興趣的讀者,無論是研究者還是工程師,都可以通過arXiv編號2606.12397找到完整論文,查閱詳細的推導過程、實驗配置和擴展結果。
---
Q&A
Q1:混合專家模型里的路由器具體是什麼,它為什麼重要?
A:混合專家模型里包含多個功能各異的"專家"子網路,路由器的作用是決定每段輸入文字應該交給哪幾位專家處理。路由器本質上是一個矩陣,它的每一行代表一位專家的"特徵向量",通過計算輸入與每行的相似度來判斷分配方向。路由器的判斷質量直接影響整個模型的效率和能力——如果路由器的專家簡介不準確,分配就會出現偏差,專家的能力也就無法被充分發揮。
Q2:流形冪疊代為什麼只做一次冪疊代而不是多次?
A:研究團隊實驗發現,把冪疊代次數從1次增加到10次,吞吐量下降5%,但預訓練損失反而上升了0.002到0.003,下游平均準確率也下降了約1.39個百分點。原因在於,單次冪疊代提供的方向引導已經足夠推動代理向量朝著主奇異方向收斂,而過於頻繁的強制對齊會破壞路由器優化的自由度,干擾訓練的整體穩定性。一次疊代是效率與穩健性之間的最優平衡點。
Q3:MPI方案對推理階段有沒有速度影響?
A:完全沒有推理開銷。MPI修改的代理向量(即經過冪疊代和回縮處理的路由器權重)可以在模型加載到內存時一次性計算好並直接儲存,推理過程中直接使用預計算的結果,和普通路由器的推理流程完全相同。現有的任何推理引擎不需要做任何修改,就可以直接運行使用MPI訓練出來的混合專家模型。






