這項由香港中文大學、華為技術有限公司和香港大學聯合開展的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.06665。有興趣深入了解的讀者可通過該編號在arXiv平台查閱完整論文。
**當AI的"專家團隊"被困在各自的格子間裡**
假設你開了一家大型諮詢公司,公司里有幾十個樓層,每層樓都有自己的一批專家顧問。每當有客戶問題需要解答時,每層樓只能調用本層的專家,哪怕隔壁樓層有個更擅長這個問題的顧問也無法借調過來。更奇怪的是,經過一段時間,你發現各樓層的顧問竟然各自獨立研究出了相似的方案——大量精力白白重複了。
這個有些荒唐的管理模式,恰恰就是今天主流AI大語言模型(也就是我們說的大模型)所採用的內部結構方式。研究團隊針對這一長期存在的設計慣例提出了質疑,並給出了一個更聰明的解決方案——UNIPOOL(統一專家池)。
當前的大模型(尤其是所謂的"混合專家模型",英文縮寫MoE)普遍採用一種叫做"每層獨立專家組"的結構:模型有很多層,就像那棟多層樓的大樓,每層樓配備了自己專屬的一批"專家"模組負責處理資訊,各層專家互不共享。UNIPOOL的核心創新,就是把這些分散在各樓層的專家統統匯聚到一個全公司共用的"人才庫",讓每一層樓的"調度員"(路由器)都可以從這個公共人才庫中自由選取最合適的專家來處理當下的問題。
這看起來像一個簡單的管理優化,但背後需要解決兩個非常棘手的技術難題。研究團隊不僅提出了問題,還給出了一套完整的工程解決方案,並在五個不同規模的模型上進行了系統驗證,結果令人印象深刻。
**一、專家真的在各樓層重複勞動嗎——來自真實模型的驚人證據**
在正式介紹解決方案之前,我們需要先理解為什麼這個問題值得被解決。研究團隊花了大量篇幅來說明一件事:在現有的大模型里,深層樓層的專家組其實大量存在"人才浪費"現象。
他們做了一個巧妙的實驗,可以稱之為"蒙眼調度測試":在真實運行的大模型中,把某一層樓的"調度員"(路由器)蒙上眼睛,讓它不再根據學習到的經驗做決策,而是隨機把工作分配給本層任何一個專家。如果某一層的專家們各有專長、分工明確,那麼隨機分配就應該導致模型性能大幅下降——因為你隨便找個專家來處理問題,結果肯定不好。反之,如果隨機分配後性能幾乎沒變,就說明這一層的專家們其實都差不多,換誰來做都無所謂。
研究團隊在三個真實的業界頂級大模型上做了這個測試,分別是Qwen1.5-MoE、DeepSeek-V2-Lite和Qwen3-30B-A3B。測試覆蓋五個標準智力測驗,包括科學推理(ARC-Easy和ARC-Challenge)、物理直覺理解(PIQA)、長句補全(HellaSwag)和語言常識(WinoGrande)。
結果非常能說明問題:隨機分配之後,這三個模型的平均表現只分別下降了1.6分、1.2分和1.0分(滿分均為100分)。換句話說,把學了這麼久經驗的"調度員"換成一個隨機拋硬幣的機器,幾乎什麼都沒變!這就好比一個經驗豐富的項目經理認真研究了半天,把任務分配給了最合適的人,結果隨機分配也能得到九成九相同的效果——那這位項目經理的"認真研究"基本上是在浪費時間。
這個發現與其他研究的結論不謀而合。此前已有研究發現,在Qwen和DeepSeek
系列大模型中,同一層內不同專家的權重矩陣之間相似度極高(餘弦相似度超過0.9),而且這種相似性在模型越深的樓層越明顯。還有研究發現,把一個專家的任務改派給同層最相似的另一個專家,模型的表現基本不受影響,甚至可以藉此實現近兩倍的推理加速。在Mixtral 8×7B模型中,即便裁掉大約一半的專家,質量損失也只有大約8%。
這些證據拼在一起指向同一個結論:現有的"每層獨立專家組"設計,正在驅使模型在每一層樓都重新發明輪子,各自訓練出一套功能高度雷同的專家團隊,大量參數資源被用來反覆學習相似的轉換規律。問題的根源不在於專家本身不夠好,而在於這種"格子間式"的分配結構,天然地限制了專家經驗的跨層共享和復用。
**二、全公司共享人才庫——UNIPOOL的核心設計**
明確了問題所在,研究團隊的解決思路就變得直觀了:與其讓每層樓各自圈養一批專家,不如建立一個全公司統一的"人才池",讓所有樓層都可以自由調用其中的任何一位專家。
在技術語言中,一個標準的混合專家模型(MoE)有L層,每層擁有E個獨立的專家FFN模組(FFN可以理解為專門處理資訊的計算單元),每層的調度員(路由器)只能從本層的E個專家中挑選。UNIPOOL將這個結構徹底重新組織:用一個擁有M個專家的全局共享池取代各層的獨立專家組,每層的調度員保持獨立,但它們調用的都是同一個共享池裡的專家。
在參數匹配的主實驗設置中,M的取值等於8×L——也就是說,如果原本每層有8個專家、共有L層,那麼共享池裡就有8L個專家,總專家數量與原來完全相同。這樣一來,比較的基準就很公平:兩種方案用的專家數量一樣多,每處理一個輸入時激活的專家數量也一樣多(都是1個),唯一的區別就是"專家歸誰所有"以及"如何調度和平衡"。
這種設計的潛在好處顯而易見:每個專家不再只接受某一層的訓練信號,而是同時接受所有L層的訓練信號,能夠從更全局的視角發展出真正有價值的專長。而調度員(路由器)則繼續保持每層獨立,因為模型的不同深度確實需要處理不同性質的資訊,調度策略應該有所差異——只是調度的來源變成了共享池。
**三、兩大技術難關——沒有好的平衡機制,共享就會崩塌**
共享人才池的想法雖然直觀,但實際落地面臨兩個核心工程難題。如果這兩個問題沒有得到妥善處理,共享池不僅不會帶來好處,反而會導致訓練不穩定甚至性能更差。
第一個難題是**如何定義"公平使用"**。原來的混合專家模型在訓練時有一個"防止專家閒置"的機制,用專業術語叫輔助損失(auxiliary loss)——它會在每一層內部施加壓力,要求每個專家都得到一定量的工作任務,防止某些專家被完全忽視、白白占用參數。
但當專家變成全局共享之後,這個層內的平衡機制就出了問題。一個專家在第3層沒有被調用,不代表它是"閒置專家"——它可能在第7層、第15層被大量調用。如果你還是按照舊規則在每層內部強制平衡,就會發生一件奇怪的事:第3層的調度員被迫給那個"在本層沒人用"的專家分配任務,即便第3層根本不需要它的能力。這既破壞了調度的自然學習,也使得跨層復用成為奢望。
研究團隊為此設計了一個全新的**池級輔助損失(pool-level auxiliary loss)**:不再在每層內部統計專家使用情況,而是把所有層對所有專家的使用情況匯總起來,在整個池子的層面上施加平衡壓力。這樣,平衡的目標是"整個人才庫里沒有人長期閒置",而不是"每層樓都必須把本層每個人都用一遍"。各層調度員可以自由地只使用池中對當前層最有價值的那部分專家,只要從全局來看每個專家都被充分利用就好。
在計算實現上,研究團隊將每個專家的全局平均使用率(對所有層求平均)作為固定統計量,將各層調度員給各專家分配的概率作為可訓練參數,用一步延遲的方式更新全局統計(當前批次的平衡依據上一批次的使用統計),避免了跨層張量依賴對計算圖的破壞。
第二個難題是**如何讓來自不同樓層的調度員都能穩定地訪問同一個大型共享池**。在原來的方案中,每層的調度員只需要從本層8個專家裡挑1個,任務相對簡單。但在共享池方案中,調度員面對的候選池變成了8L個專家,而且來自不同深度的調度員處理的資訊尺度(數值大小分布)可能相差很大。如果使用原來的softmax調度機制,各層信號尺度的差異會被放大,導致某些層的調度過於"集中"(總是選同幾個專家),某些層的調度過於"分散"(幾乎隨機),整體訓練變得不穩定。
為此,研究團隊採用了**NormRouter**(規範化路由器)機制:調度員在評分時先對所有候選專家的分數做L2歸一化(把分數的"方向"保留,把"絕對大小"消除),再通過ReLU函數過濾掉負分(讓大約一半的專家直接得零分,天然形成稀疏性),最後乘以一個可學習的放大係數讓每層調度員自己調整調度的"果斷程度"。歸一化處理使得分數大小不再受到各層資訊尺度差異的影響,ReLU過濾使得每次調度天然地忽略大多數候選專家,可學習放大係數則給了每層調度員足夠的靈活性。此外,放大係數的初始值通過蒙特卡洛採樣方法精確校準,確保訓練初期的調度分數處於合理的數值範圍。
**四、驗證結果——五個規模都贏了,而且參數還能省下來**
研究團隊在五個不同規模的模型上進行了系統驗證,模型參數量從1.82億到9.78億不等(均為LLaMA架構),在一個叫做Pile的大型英文文本數據集上訓練了約300億個詞的數據量。
在所有五個規模下,UNIPOOL的驗證損失(衡量模型對語言的預測準確度,數值越低越好)都穩定優於結構完全對稱的原版混合專家模型。具體來看,1.82億參數模型的驗證損失從1.9317降至1.9029,差值為0.0288;4.69億參數模型從1.7982降至1.7636,差值0.0346;6.50億參數模型從1.7568降至1.7260,差值0.0308;8.30億參數模型從1.7309降至1.6923,差值0.0386;9.78億參數模型從1.7171降至1.6999,差值0.0172。兩種混合專家方案都顯著優於同規模的全密集模型(即不使用專家機制的普通模型),而UNIPOOL又在此基礎上進一步拉開了差距。
研究團隊還特別對比了8.30億參數模型和9.78億參數模型這對特別有趣的組合。8.30億模型採用了更深的網路結構(48層,隱藏維度1024),9.78億模型則採用了更寬但更淺的結構(24層,隱藏維度1536)。儘管9.78億模型在激活參數和儲存參數上都更大,但8.30億的UNIPOOL最終驗證損失(1.6923)反而比9.78億的UNIPOOL(1.6999)更低。這個結果支持了一個很有價值的判斷:對於共享專家池設計來說,網路越深、層數越多,共享機制就能創造出越多的跨層復用機會,回報率更高;而單純增加寬度並不能充分發揮這一優勢。
在七個標準零樣本測試(即不給任何例題直接作答)中,包括科學推理、物理常識理解、故事續寫、語言理解等任務,UNIPOOL在絕大多數任務上也超過了原版混合專家模型。以8.30億參數規模為例,UNIPOOL的平均得分從43.82提升至45.67,提升了將近兩個百分點。
更吸引人的是節省參數的實驗。研究團隊還測試了"用比原來少的專家做出更好的效果"這個命題。他們在每個規模下都訓練了縮小版的UNIPOOL,只保留原版參數量的一部分:在1.82億參數模型上只保留66.7%,在4.69億和6.50億參數模型上只保留50%,在8.30億參數模型上甚至只保留41.6%。結果顯示,即便用這麼少的專家參數,縮小版UNIPOOL的驗證損失仍然低於參數更多的原版混合專家模型。這意味著,在共享池設計下,專家參數量不必隨著網路深度線性增長——可以實現次線性增長,用更少的參數達到相同甚至更好的效果,省下的預算可以用來把網路做得更深或者做其他優化。
關於專家粒度的擴展實驗同樣值得一提。研究團隊在1.82億參數的模型上還測試了"更細分的專家配置"——從每層8個專家(每次選1個)擴展到每層16個專家(每次選2個)和每層32個專家(每次選4個)。在所有三種粒度配置下,UNIPOOL都優於對應的原版混合專家模型,而且隨著專家數量增加,兩種方案的性能都在提升,與此前文獻中關於細粒度專家有益的結論一致。這說明UNIPOOL的優勢並非依賴特定專家粒度,而是普遍適用的。
**五、共享之後專家不再"懶"了——來自可視化的直接證據**
研究團隊還提供了一組直觀的可視化對比,能夠非常清楚地說明為什麼池級輔助損失是整個設計的關鍵。
他們對比了兩種都使用全局共享池的配置:一種使用傳統的層內輔助損失加上softmax調度,另一種使用全新的池級輔助損失加上NormRouter調度。
使用傳統層內輔助損失時,可視化結果顯示全局專家使用情況嚴重失衡:大量的工作流量集中在極少數幾個專家上,大多數專家幾乎完全閒置。這就是"層內平衡"思路在全局共享場景下的失效:每層都被迫在本層範圍內均衡使用專家,但從全局角度來看,某些專家被每層都選中(因為它們在很多層內都排名靠前),而另一些專家則在哪層都進不了前排,最終全局閒置。
切換到池級輔助損失和NormRouter後,可視化結果完全不同:全局專家使用率分布均勻,接近理想的均勻分布線;與此同時,各層調度員仍然呈現出各自不同的偏好模式(不同層選擇不同的專家子集),說明層特異性的調度策略得到了保留。這正是設計目標所追求的:全局不浪費,局部有專長。
**六、共享之後路由決策變得更有價值了**
研究團隊還從另一個角度驗證了共享機制的效果:他們把"蒙眼調度測試"重新做了一遍,這次用的是他們自己訓練的模型。
在自己訓練的4.69億和9.78億參數原版混合專家模型上,隨機調度一個深層樓層的結果與在真實大模型上的測試一致——平均性能只下降了1.3和1.5個百分點,再次印證了深層專家高度相似、調度決策價值有限的問題。
然後他們對UNIPOOL模型做了對應的測試。由於UNIPOOL每層能從更大的池子裡選,測試時需要保持公平:不是隨機從全部專家裡選,而是先找出每層實際最常用的8個專家(相當於每層的"常用名單"),再在這8個裡隨機選。即便如此限制了隨機範圍,UNIPOOL的性能下降幅度也達到了4.1個百分點——是原版混合專家模型的三倍左右。
這個對比說明了一件很重要的事:在UNIPOOL中,各層調度員的選擇決策變得真正有意義了。因為每個專家都接受了來自所有層的訓練信號,在激烈的全局競爭中存活下來的專家都發展出了更獨特的專長,哪怕從本層最常用的8個裡隨機挑,也會造成顯著的性能損失——這意味著這8個專家之間的差異是真實的,不像原版混合專家那樣可以互相替換。共享池把"層內的冗餘競爭"轉化成了"全局的專長分化"。
**七、消融實驗——拆開每個零件看清楚**
研究團隊在1.82億參數模型上還做了系統的"拆解實驗",逐個移除或替換設計組件,驗證每個部分的具體貢獻。
把原版混合專家模型(層內輔助損失加softmax調度)的驗證損失定為基準1.9317,然後:只換上NormRouter而保持層內輔助損失和層私有結構,驗證損失反而從1.9317微升至1.9375,說明NormRouter在層私有設置下略有負面效果;換用共享池但繼續使用傳統層內輔助損失,驗證損失升至1.9480,比基準還差,印證了層內輔助損失在共享設置下確實有害;換上共享池加上池級輔助損失但仍用softmax調度,驗證損失降至1.9180,已經明顯好於基準;完整的UNIPOOL(共享池加池級輔助損失加NormRouter)驗證損失進一步降至1.9029,達到最優。
這組實驗清楚地表明,NormRouter的價值在於與共享池的配合:當面對更大、更稀疏的候選池時,L2歸一化和ReLU稀疏化的組合能夠提供更穩定有效的調度,但在層私有的小候選集上反而不夠適合。三個組件(共享池、池級輔助損失、NormRouter)是一個相互配合的設計系統,而非簡單的獨立改進疊加。
此外,研究團隊還測試了"部分共享"的中間狀態——把12層分成2組、4組或6組,每組內共享專家。結果顯示,共享範圍越大,驗證損失越低,全局共享(1組)始終是最優選擇。這個趨勢在整個訓練過程中始終如一,說明更廣泛的共享改善了優化軌跡本身,而不只是在訓練結束時恰好得到了一個更好的檢查點。
**歸根結底,這項研究說明了什麼**
說到底,這項研究做的事情,就是把大模型里一個沿用已久的默認設定重新審視了一遍,發現它並不像人們以為的那樣合理,然後設計了一套更聰明的替代方案。
專家參數不必隨網路深度線性增長,這個發現打開了一個新的設計空間:同樣的參數預算,可以拿來構建更深的網路,讓更少的專家被更多層充分復用;或者乾脆省下參數,用相同質量但更低成本的方式完成任務。這在AI模型的工程實踐中有著直接的意義,因為儲存和訓練更多專家本身就是巨大的成本。
同時,這項研究也從一個新的角度解釋了為什麼大模型的深層部分常常顯得"冗餘"——不是因為深層本質上不重要,而是因為"每層圈地養專家"的結構驅使深層專家重複學習已有的知識。換一種結構,同樣的深層反而能產生更大的價值。
當然,研究也坦誠地指出了局限性:所有實驗都在1.82億至9.78億這個相對較小的參數規模上進行,對於真正的千億級甚至更大規模模型的適用性還有待驗證。同時,目前沒有對訓練速度和內存效率做詳細的工程對比,這在實際應用中同樣重要,有待後續研究補充。
對於有興趣深入了解技術細節的讀者,完整論文可通過arXiv編號2605.06665獲取。
---
Q&A
Q1:UNIPOOL和普通的混合專家模型(MoE)在結構上有什麼本質區別?
A:普通混合專家模型(MoE)的每一層都擁有自己獨立的一批專家,跨層不能共享。UNIPOOL的改變是把所有層的專家合併成一個全局共享池,每層的調度員(路由器)仍然獨立工作,但都從同一個專家池裡選取專家。參數總量可以保持不變,每次處理資訊時激活的專家數量也不變,區別僅在於專家的"歸屬"從每層私有變成全局公用。
Q2:UNIPOOL為什麼需要專門設計新的平衡損失函數,用原來的不行嗎?
A:原來的輔助損失(auxiliary loss)是在每層內部強制要求每個專家都被均等使用,防止某些專家"閒置"。但在共享池設計下,一個專家可能在某些層很少被用、在另一些層大量被用——從全局看它並不閒置。如果繼續用層內平衡機制,就會錯誤地強迫某些層去使用它們其實不需要的專家,破壞調度學習。UNIPOOL的池級輔助損失把視角提升到整個共享池,只要從所有層匯總來看每個專家都被充分使用就達到目標,不再對單層內部的分配進行干預。
Q3:UNIPOOL說參數可以減少到原來的41.6%還能保持性能,這個節省是怎麼實現的?
A:在原版混合專家模型中,每增加一層就必須新增一批專家參數,專家總量和網路深度呈嚴格正比關係。UNIPOOL打破了這個約束:因為所有層共享同一個專家池,可以選擇讓這個池子比"每層×每層專家數"更小。實驗發現,即便共享池只有原版專家總量的41.6%(對於48層模型),UNIPOOL的效果仍然超過使用全量參數的原版方案。原因在於共享讓每個專家接受了更充分的訓練,發展出了更真實的專長,少量高質量專家的效果優於大量冗餘專家。






