這項由普林斯頓大學領導的研究發表於2026年4月,論文編號為arXiv:2604.20156v1,有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。
**AI也有"注意力不集中"的毛病**
你有沒有見過那種做事特別沒效率的員工?每隔幾秒鐘就換一個工作方式,剛拿起錘子又放下去,轉頭用螺絲刀,再換成扳手——儘管一直在"工作",卻因為頻繁切換工具而耗費了大量時間和精力。現代最先進的人工智慧模型,也有類似的問題。
今天我們要聊的,正是普林斯頓大學兩位研究者發現並解決這個問題的方法。他們的核心思路來自強化學習領域一個有趣的概念,最終讓AI模型的"專家切換頻率"從超過50%驟降至不足5%,同時幾乎不損失原有能力。
**一、為什麼AI需要那麼多"專家"?**
要理解這項研究,先從頭說起。現代大型語言模型(也就是那種能聊天、寫代碼、解數學題的AI)的規模已經大到令人咋舌。以GPT系列和DeepSeek
等為代表的前沿模型,參數量動輒數百億甚至上千億。但問題來了:這麼大的模型,每次回答問題都要把所有參數全部運轉一遍,那計算量和內存消耗將是災難性的。
為了解決這個矛盾,工程師們想出了一個聰明辦法,叫做"混合專家模型",英文縮寫是MoE(Mixture of Experts)。核心思路是:把模型里的一大塊計算能力分成許多個"專家"模組,每次處理一個詞(token)時,不需要動用所有專家,只需激活其中一小部分就夠了。
可以把這個機制類比成一家超級大的醫院。醫院裡有成百上千名專科醫生,但每個病人來看病時,只需要掛兩三個科,不必把全院醫生都叫來會診。這樣一來,醫院接診能力(相當於模型參數總量)可以很大,而每次真正出力工作的醫生數量(相當於激活參數量)卻很少,效率大幅提升。
舉個實際數字的例子:GPT系列的gpt-oss-120b模型總參數量高達120億,但每次處理一個詞時,只激活其中約51億參數。而Qwen3-Next-80B這個模型更誇張,總共有512個專家,但每次只激活10個。這種稀疏激活的設計,讓模型在保持巨大容量的同時,大幅降低了計算開銷。
**二、問題出在哪裡:每次都換一批醫生的混亂局面**
回到醫院的比喻。現在的混合專家模型有個嚴重的習慣問題:病人每說一個字,系統就重新挑一批醫生來處理。說完"我",換一批醫生;說"最",又換一批;說"近",再換一批。整個會診團隊幾乎每個字都在輪換。
研究團隊測量了三個主流開源混合專家模型的"切換頻率",結果令人吃驚。在gpt-oss-20b上,平均每處理兩個詞就要換一次專家組合,切換率高達94%到95%;gpt-oss-120b的切換率更高,接近99%;而Qwen3-Next-80B幾乎是100%,也就是說,幾乎每個詞都要換一批全新的專家。
為什麼這是個大問題?在理想情況下,如果你的電腦內存足夠大,把所有專家都放在GPU上,隨時取用,這倒也無所謂。但現實是,隨著AI模型規模不斷膨脹,專家數量越來越多,GPU內存根本放不下。一旦放不下,系統就必須把不用的專家"存到別處"(比如普通內存或硬碟),用到時再臨時搬回來。
頻繁切換專家,意味著系統需要不斷地"搬來搬去",這個過程會產生大量的時間延遲,就像你每隔幾秒鐘就要去倉庫換一套工具,效率自然很低。更糟糕的是,因為你不知道下一秒需要哪套工具,很難提前預備,"預取"優化幾乎無從下手。
研究團隊還指出,這個問題不僅僅影響推理(即AI回答問題時),在訓練階段同樣棘手。訓練時,每個詞都可能路由到任意一個專家,所有專家的參數在前向和後向傳播中都必須可訪問,內存壓力極大。此外,如果未來想要給模型持續擴充新的專家(以便學習新領域知識),頻繁切換的設計也讓這種擴展極為困難。
**三、解決思路:從強化學習里借來一把"定力鑰匙"**
面對這個問題,普通的工程解決方案通常有兩條路:一是"剪掉"一些專家,減少總數;二是設計更智能的緩存和預取策略,減少搬運的延遲。這兩條路都有效,但都是在現有問題上打補丁,治標不治本。
普林斯頓的研究團隊換了一個角度:能不能讓AI模型自己學會"專心"——即在一段時間內堅持用同一批專家,不要那麼頻繁地換?
這個想法讓他們聯想到強化學習領域裡一個叫做"選項框架"(Options Framework)的理論。在強化學習中,智能體(可以理解為學習做決策的AI)通常每走一步就做一個決策。但"選項框架"說:何不讓智能體選擇一個更高層次的"選項",然後在這個選項下持續行動好幾步?只有當效果變差,或者切換的收益明顯大於代價時,才切換到新的選項。
這就好比司機開車。一般的駕駛決策是每秒都在調整方向盤,但在高速公路直道行駛時,完全可以保持同一個方向盤角度開好幾分鐘,不需要每秒都重新決定"該打多少方向"。只有在彎道或者遇到特殊情況時,才需要真正切換狀態。
在這個框架里,還有一個關鍵機制叫做"考量成本"(deliberation cost),可以理解為切換的"懲罰"。每次切換選項,都要支付一個固定的懲罰分數,這就迫使智能體只有在切換帶來的收益能彌補懲罰時,才會選擇切換。考量成本越高,AI就越傾向于堅持用同一批專家,切換頻率就越低。
**四、把理論變成現實:控制器的設計**
理論很美好,但要真正把它塞進一個正在運行的大型語言模型里,需要一番工程設計。研究團隊提出了"時序擴展混合專家模型"(Temporally Extended Mixture-of-Experts),並為此設計了一套輕量級的控制器系統。
整個機制的運作方式如下。對於模型里的每一層MoE層(混合專家層),系統為其單獨配置一個小小的控制器模組。這個控制器就像一個"調度員",它的任務只有兩件事:第一,判斷當前激活的這批專家還能不能繼續用;第二,如果不能繼續用,應該換哪批新專家。
調度員做決策時需要參考兩類資訊。一類是"當前局面"——也就是模型在處理這個詞之前,內部產生的一種高維表示(即隱藏狀態,Hidden State),可以理解為模型對當前語境的"理解狀態";另一類是"現在在用哪批專家",這用一個集合嵌入來表達,通過一種叫做DeepSets的編碼器將當前專家組合映射成一個固定長度的向量。
將這兩類資訊拼接在一起,控制器里的"終止頭"(Termination Head)就會輸出一個0到1之間的數字,表示"現在該換專家了"的概率。系統隨機採樣,決定要不要真的換。如果決定換,另一個模組"選擇頭"(Selection Head)就會根據當前狀態,從所有專家中挑選一批新的候選專家,挑選方式採用一種叫做Plackett-Luce分布的概率模型,確保挑選過程是可微分的(即可以用梯度反向傳播來優化)。
整個控制器加上來的參數量很少,相對於整個大模型而言微乎其微,不會顯著增加模型的計算量和內存占用。此外,為了確保模型原有的參數也能適應新的路由約束,研究團隊還給模型的專家層和注意力層加了LoRA適配器——這是一種非常輕量的微調方式,只需要在原有參數旁邊附加一小塊低秩矩陣,參數量極少但效果顯著。
**五、怎麼訓練這個控制器?**
設計好了控制器,下一步是訓練它。這裡有個核心問題:訓練的目標是什麼?
研究團隊的目標很明確:在儘量減少專家切換的同時,讓模型輸出的質量儘可能接近原始沒有任何約束的模型。換句話說,他們希望把原始的gpt-oss-20b"改造"成一個時序擴展版本,但不希望它因此變蠢。
為此,他們用原始模型作為"老師",把改造後的模型作為"學生",讓學生儘量模仿老師的輸出概率分布。具體來說,每個詞的獎勵信號是:如果學生的輸出分布接近老師,就給正獎勵;反之就給負獎勵。這個獎勵在數學上等價於反向KL散度(一種衡量兩個概率分布相似程度的指標)的負值。
為了防止學生模型走捷徑——比如一直重複輸出少數幾個詞來降低損失——研究團隊在採樣時將學生模型和老師模型的分布按一定比例混合(混合比例τ=0.2,即80%來自學生,20%來自老師),並通過重要性權重來糾正採樣偏差。
在梯度更新上,研究團隊遵循了"選項-批評家"(Option-Critic)框架的A2OC算法,同時更新三類參數:批評家網路(負責評估當前局面和選項的價值)、控制器的終止頭和選擇頭、以及模型本身的LoRA參數。考量成本η作為一個顯式的懲罰項出現在終止梯度中,推動系統學會"忍住不換"。
**六、實驗結果:真的有效,而且相當驚艷**
研究團隊在4塊NVIDIA H200 GPU(每塊140GB顯存)上展開了實驗,訓練數據使用了Nemotron後訓練數據集v2,涵蓋對話、代碼、數學、理工科以及多語言等十個類別。
評估時,他們測試了三個代表性的基準:MATH(數學推理題集,每道題只有正確或錯誤兩種結果)、MMLU(覆蓋廣泛知識領域的多項選擇題)、以及MMMLU(MMLU的多語言版本,包括德語、西班牙語、法語、義大利語、日語等)。
當允許保留16個候選專家(即每次從32個專家中劃定16個可用區間)、考量成本η=0.02時,改造後的模型在MATH上得到64.0%的正確率,而原始基礎模型是71.5%。換句話說,犧牲了約7.5個百分點的數學能力,換來的是切換率從58.6%驟降至4.1%。在MMLU上,改造後得72.5%對比原始79.5%,損失約7個百分點;MMMLU得59.5%對比67.5%,損失約8個百分點。
相比之下,所有對照方法都表現極差。頻率剪枝(保留最常被用到的專家)在MATH上只有53.5%;重建損失最小化(保留讓輸出最接近原始模型的專家組合)在MATH上只有51.5%;隨機選擇專家只有15%;結構化權重剪枝(Wanda方法)則只剩3.5%,幾乎完全失去數學能力。而這些對照方法連切換率的概念都不存在,因為它們直接使用固定的專家子集,切換率本身無從比較。
當候選專家數量縮小到8個(從32個中只選8個可用)時,任務變得更困難,但改造後的模型依然顯著優於所有對照方法。在η=0.02時,MATH得27.5%,MMLU得48.5%,MMMLU得39.0%;而所有剪枝對照方法在這個更嚴格設定下幾乎全軍覆沒,Wanda方法三個基準全部得0分。
切換率的下降也隨著考量成本η的增大而更加明顯。η=0.02時,16專家設定的切換率約為4.1%;η=0.03時降至約1.3%;η=0.04時更低至約1.2%。這意味著模型可以在幾乎不切換的狀態下持續生成數十個詞,才偶爾更新一次專家組合。
訓練過程也表現出良好的穩定性。獎勵曲線(衡量模型輸出接近原始模型的程度)在訓練過程中穩步上升,困惑度(衡量模型語言流暢程度的指標)也穩步下降,沒有出現常見的崩潰或者輸出退化問題。此外,研究團隊還專門監測了"重複率"——即模型是否會陷入無休止地重複同一個詞或句子的怪圈——結果顯示,改造後的模型在整個訓練過程中重複率保持穩定,沒有出現這種失控情況。
相比之下,頻率剪枝、重建損失最小化和隨機選擇等方法的模型輸出,在給出的示例中呈現出大量亂碼(整段整段的省略號和問號)或者無限重複同一個數學表達式的慘烈景象,顯然已經完全失去正常語言能力。
**七、這個發現意味著什麼?三大應用場景**
研究團隊特別強調了這項技術在三個方向上的實際價值。
第一個是節省顯存的推理服務。由於每次只需要在GPU上保留正在使用的那批候選專家,不需要隨時待命所有專家,顯存需求可以大幅縮減。以gpt-oss-20b為例,如果從32個專家縮減到只在GPU上保留16個,可以節省約4.7GB的顯存(降低約37%);如果只保留8個,節省約7.1GB(降低約55%)。對於顯存資源日益緊張的現實情況,這是非常實質性的改善。
第二個是訓練時的分塊策略。由於同一批專家在連續若干詞之間保持不變,訓練時可以把一個長序列切成若干"塊",每塊內部只需要激活該塊對應的專家子集。不用的專家在這個塊的前向和後向傳播過程中可以暫時卸載,減少峰值顯存占用。這對於在有限資源下訓練大規模MoE模型,具有直接意義。
第三個是持續學習。當未來需要讓模型適應新領域或新任務時,可以在不增加每次激活專家數量的前提下,往模型里添加新的專家模組。控制器會自然地學習在適當的時候路由到這些新專家。由於推理時的計算量(取決於激活專家數量)不變,整個系統可以持續擴充能力而不犧牲速度。
**八、研究局限與未來方向**
研究團隊也坦誠地列舉了這項工作的局限性。
目前的實驗只是驗證了"時序擴展路由是可以學習的,並且損失是可接受的",但並沒有真正構建一個端到端的、能夠真正省錢省時的推理系統。把理論潛力轉化為實際的顯存和延遲節省,需要大量的系統工程工作,這超出了當前研究的範圍。
另外,控制器的設計是"每層獨立運作"的,即每一個MoE層的控制器獨立決定是否切換專家,不同層可能在不同的詞位置切換。理想的顯存優化場景是所有層同步切換,這樣每次只需要一次性卸載和加載整個模型的專家組合,但這會讓選項空間指數級膨脹,學習難度大幅提升。這個問題留給未來工作去解決。
此外,研究目前只在gpt-oss-20b這一個模型上進行了實驗,且評估只覆蓋了200道測試題的MATH、MMLU和MMMLU,沒有涵蓋代碼生成、長篇指令跟隨等其他重要能力維度。更全面的評估是未來工作的自然延伸。
還有一個有趣的開放問題:現在的控制器是通過後訓練加上去的,如果在預訓練階段就把時序擴展性作為目標之一,從一開始就讓模型學會"專注",會不會效果更好?自然語言本身天然有時序結構——話題、論點、推理鏈都會在一段時間內保持連貫——或許這種結構本來就和時序擴展的專家路由有內在的對應關係。
歸根結底,這項研究做了一件很有價值的事:它指出了一個大家都忽視的問題(專家切換太頻繁),找到了一個優雅的理論框架來建模和解決它(選項框架+考量成本),並在真實的大型模型上跑通了整套流程,給出了可量化的結果。這不是最終答案,但提供了一個清晰的方向和有力的初步證據。隨著AI模型規模繼續膨脹,這個問題只會變得越來越重要,這項工作的價值也會越來越凸顯。
有興趣深入了解技術細節的讀者,可以通過arXiv編號2604.20156v1找到完整論文,或者關注論文作者在普林斯頓大學的項目主頁和代碼倉庫。
---
Q&A
Q1:混合專家模型(MoE)的專家切換頻繁為什麼會是個問題?
A:當模型規模超過GPU內存上限時,頻繁切換專家意味著系統需要不斷把不同批次的專家參數在GPU和普通內存之間來回搬運。這個搬運過程會產生顯著的延遲,而且由於切換幾乎無規律,系統無法提前預判下一步需要哪些專家,傳統的"預取"優化手段幾乎失效。頻繁切換還讓訓練時的顯存管理更加困難,所有專家參數必須隨時可訪問,峰值顯存壓力極大。
Q2:時序擴展混合專家模型訓練時用的是什麼獎勵信號?
A:研究團隊採用的是"自我蒸餾"方式。具體做法是把原始的、沒有任何約束的gpt-oss-20b作為老師,改造後的模型作為學生,每個詞的獎勵信號是老師和學生輸出概率的對數差值。當學生輸出分布接近老師時,獎勵為正;偏離越大,獎勵越低。這個獎勵在期望意義上等價於反向KL散度的負值,迫使學生模型儘量模仿老師的行為,從而在減少切換的同時保留原有能力。
Q3:考量成本參數η的大小對模型有什麼影響?
A:η是調節切換頻率和能力保留之間權衡的關鍵旋鈕。η越大,控制器切換專家的"懲罰"越重,模型越傾向于堅持使用同一批專家,切換率越低,但同時也因為路由約束更嚴格,能力損失更大。在論文實驗中,η=0.02對應切換率約4.1%、MATH準確率64.0%;η=0.04對應切換率約1.2%、MATH準確率降至55.0%。模型部署者可以根據具體的顯存約束和性能要求來調整這個參數,找到合適的平衡點。






