普林斯頓大學找到了讓AI大腦"專注工作"的方法——告別每秒換專家的混亂狀態

這項由普林斯頓大學領導的研究發表於2026年4月，論文編號為arXiv:2604.20156v1，有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。

贊助商廣告

**AI也有"注意力不集中"的毛病**

你有沒有見過那種做事特別沒效率的員工？每隔幾秒鐘就換一個工作方式，剛拿起錘子又放下去，轉頭用螺絲刀，再換成扳手——儘管一直在"工作"，卻因為頻繁切換工具而耗費了大量時間和精力。現代最先進的人工智慧模型，也有類似的問題。

今天我們要聊的，正是普林斯頓大學兩位研究者發現並解決這個問題的方法。他們的核心思路來自強化學習領域一個有趣的概念，最終讓AI模型的"專家切換頻率"從超過50%驟降至不足5%，同時幾乎不損失原有能力。

**一、為什麼AI需要那麼多"專家"？**

要理解這項研究，先從頭說起。現代大型語言模型（也就是那種能聊天、寫代碼、解數學題的AI）的規模已經大到令人咋舌。以GPT系列和DeepSeek 普林斯頓大學找到了讓AI大腦專注工作的方法告別每秒換專家的混亂狀態等為代表的前沿模型，參數量動輒數百億甚至上千億。但問題來了：這麼大的模型，每次回答問題都要把所有參數全部運轉一遍，那計算量和內存消耗將是災難性的。

為了解決這個矛盾，工程師們想出了一個聰明辦法，叫做"混合專家模型"，英文縮寫是MoE（Mixture of Experts）。核心思路是：把模型里的一大塊計算能力分成許多個"專家"模組，每次處理一個詞（token）時，不需要動用所有專家，只需激活其中一小部分就夠了。

可以把這個機制類比成一家超級大的醫院。醫院裡有成百上千名專科醫生，但每個病人來看病時，只需要掛兩三個科，不必把全院醫生都叫來會診。這樣一來，醫院接診能力（相當於模型參數總量）可以很大，而每次真正出力工作的醫生數量（相當於激活參數量）卻很少，效率大幅提升。

舉個實際數字的例子：GPT系列的gpt-oss-120b模型總參數量高達120億，但每次處理一個詞時，只激活其中約51億參數。而Qwen3-Next-80B這個模型更誇張，總共有512個專家，但每次只激活10個。這種稀疏激活的設計，讓模型在保持巨大容量的同時，大幅降低了計算開銷。

贊助商廣告

**二、問題出在哪裡：每次都換一批醫生的混亂局面**

回到醫院的比喻。現在的混合專家模型有個嚴重的習慣問題：病人每說一個字，系統就重新挑一批醫生來處理。說完"我"，換一批醫生；說"最"，又換一批；說"近"，再換一批。整個會診團隊幾乎每個字都在輪換。

研究團隊測量了三個主流開源混合專家模型的"切換頻率"，結果令人吃驚。在gpt-oss-20b上，平均每處理兩個詞就要換一次專家組合，切換率高達94%到95%；gpt-oss-120b的切換率更高，接近99%；而Qwen3-Next-80B幾乎是100%，也就是說，幾乎每個詞都要換一批全新的專家。

為什麼這是個大問題？在理想情況下，如果你的電腦內存足夠大，把所有專家都放在GPU上，隨時取用，這倒也無所謂。但現實是，隨著AI模型規模不斷膨脹，專家數量越來越多，GPU內存根本放不下。一旦放不下，系統就必須把不用的專家"存到別處"（比如普通內存或硬碟），用到時再臨時搬回來。

頻繁切換專家，意味著系統需要不斷地"搬來搬去"，這個過程會產生大量的時間延遲，就像你每隔幾秒鐘就要去倉庫換一套工具，效率自然很低。更糟糕的是，因為你不知道下一秒需要哪套工具，很難提前預備，"預取"優化幾乎無從下手。

研究團隊還指出，這個問題不僅僅影響推理（即AI回答問題時），在訓練階段同樣棘手。訓練時，每個詞都可能路由到任意一個專家，所有專家的參數在前向和後向傳播中都必須可訪問，內存壓力極大。此外，如果未來想要給模型持續擴充新的專家（以便學習新領域知識），頻繁切換的設計也讓這種擴展極為困難。

**三、解決思路：從強化學習里借來一把"定力鑰匙"**

面對這個問題，普通的工程解決方案通常有兩條路：一是"剪掉"一些專家，減少總數；二是設計更智能的緩存和預取策略，減少搬運的延遲。這兩條路都有效，但都是在現有問題上打補丁，治標不治本。

贊助商廣告

普林斯頓的研究團隊換了一個角度：能不能讓AI模型自己學會"專心"——即在一段時間內堅持用同一批專家，不要那麼頻繁地換？

這個想法讓他們聯想到強化學習領域裡一個叫做"選項框架"（Options Framework）的理論。在強化學習中，智能體（可以理解為學習做決策的AI）通常每走一步就做一個決策。但"選項框架"說：何不讓智能體選擇一個更高層次的"選項"，然後在這個選項下持續行動好幾步？只有當效果變差，或者切換的收益明顯大於代價時，才切換到新的選項。

這就好比司機開車。一般的駕駛決策是每秒都在調整方向盤，但在高速公路直道行駛時，完全可以保持同一個方向盤角度開好幾分鐘，不需要每秒都重新決定"該打多少方向"。只有在彎道或者遇到特殊情況時，才需要真正切換狀態。

在這個框架里，還有一個關鍵機制叫做"考量成本"（deliberation cost），可以理解為切換的"懲罰"。每次切換選項，都要支付一個固定的懲罰分數，這就迫使智能體只有在切換帶來的收益能彌補懲罰時，才會選擇切換。考量成本越高，AI就越傾向于堅持用同一批專家，切換頻率就越低。

**四、把理論變成現實：控制器的設計**

理論很美好，但要真正把它塞進一個正在運行的大型語言模型里，需要一番工程設計。研究團隊提出了"時序擴展混合專家模型"（Temporally Extended Mixture-of-Experts），並為此設計了一套輕量級的控制器系統。

整個機制的運作方式如下。對於模型里的每一層MoE層（混合專家層），系統為其單獨配置一個小小的控制器模組。這個控制器就像一個"調度員"，它的任務只有兩件事：第一，判斷當前激活的這批專家還能不能繼續用；第二，如果不能繼續用，應該換哪批新專家。

調度員做決策時需要參考兩類資訊。一類是"當前局面"——也就是模型在處理這個詞之前，內部產生的一種高維表示（即隱藏狀態，Hidden State），可以理解為模型對當前語境的"理解狀態"；另一類是"現在在用哪批專家"，這用一個集合嵌入來表達，通過一種叫做DeepSets的編碼器將當前專家組合映射成一個固定長度的向量。

贊助商廣告

將這兩類資訊拼接在一起，控制器里的"終止頭"（Termination Head）就會輸出一個0到1之間的數字，表示"現在該換專家了"的概率。系統隨機採樣，決定要不要真的換。如果決定換，另一個模組"選擇頭"（Selection Head）就會根據當前狀態，從所有專家中挑選一批新的候選專家，挑選方式採用一種叫做Plackett-Luce分布的概率模型，確保挑選過程是可微分的（即可以用梯度反向傳播來優化）。

整個控制器加上來的參數量很少，相對於整個大模型而言微乎其微，不會顯著增加模型的計算量和內存占用。此外，為了確保模型原有的參數也能適應新的路由約束，研究團隊還給模型的專家層和注意力層加了LoRA適配器——這是一種非常輕量的微調方式，只需要在原有參數旁邊附加一小塊低秩矩陣，參數量極少但效果顯著。

**五、怎麼訓練這個控制器？**

設計好了控制器，下一步是訓練它。這裡有個核心問題：訓練的目標是什麼？

研究團隊的目標很明確：在儘量減少專家切換的同時，讓模型輸出的質量儘可能接近原始沒有任何約束的模型。換句話說，他們希望把原始的gpt-oss-20b"改造"成一個時序擴展版本，但不希望它因此變蠢。

為此，他們用原始模型作為"老師"，把改造後的模型作為"學生"，讓學生儘量模仿老師的輸出概率分布。具體來說，每個詞的獎勵信號是：如果學生的輸出分布接近老師，就給正獎勵；反之就給負獎勵。這個獎勵在數學上等價於反向KL散度（一種衡量兩個概率分布相似程度的指標）的負值。

為了防止學生模型走捷徑——比如一直重複輸出少數幾個詞來降低損失——研究團隊在採樣時將學生模型和老師模型的分布按一定比例混合（混合比例τ=0.2，即80%來自學生，20%來自老師），並通過重要性權重來糾正採樣偏差。

在梯度更新上，研究團隊遵循了"選項-批評家"（Option-Critic）框架的A2OC算法，同時更新三類參數：批評家網路（負責評估當前局面和選項的價值）、控制器的終止頭和選擇頭、以及模型本身的LoRA參數。考量成本η作為一個顯式的懲罰項出現在終止梯度中，推動系統學會"忍住不換"。

贊助商廣告

**六、實驗結果：真的有效，而且相當驚艷**

研究團隊在4塊NVIDIA H200 GPU（每塊140GB顯存）上展開了實驗，訓練數據使用了Nemotron後訓練數據集v2，涵蓋對話、代碼、數學、理工科以及多語言等十個類別。

評估時，他們測試了三個代表性的基準：MATH（數學推理題集，每道題只有正確或錯誤兩種結果）、MMLU（覆蓋廣泛知識領域的多項選擇題）、以及MMMLU（MMLU的多語言版本，包括德語、西班牙語、法語、義大利語、日語等）。

當允許保留16個候選專家（即每次從32個專家中劃定16個可用區間）、考量成本η=0.02時，改造後的模型在MATH上得到64.0%的正確率，而原始基礎模型是71.5%。換句話說，犧牲了約7.5個百分點的數學能力，換來的是切換率從58.6%驟降至4.1%。在MMLU上，改造後得72.5%對比原始79.5%，損失約7個百分點；MMMLU得59.5%對比67.5%，損失約8個百分點。

相比之下，所有對照方法都表現極差。頻率剪枝（保留最常被用到的專家）在MATH上只有53.5%；重建損失最小化（保留讓輸出最接近原始模型的專家組合）在MATH上只有51.5%；隨機選擇專家只有15%；結構化權重剪枝（Wanda方法）則只剩3.5%，幾乎完全失去數學能力。而這些對照方法連切換率的概念都不存在，因為它們直接使用固定的專家子集，切換率本身無從比較。

當候選專家數量縮小到8個（從32個中只選8個可用）時，任務變得更困難，但改造後的模型依然顯著優於所有對照方法。在η=0.02時，MATH得27.5%，MMLU得48.5%，MMMLU得39.0%；而所有剪枝對照方法在這個更嚴格設定下幾乎全軍覆沒，Wanda方法三個基準全部得0分。

切換率的下降也隨著考量成本η的增大而更加明顯。η=0.02時，16專家設定的切換率約為4.1%；η=0.03時降至約1.3%；η=0.04時更低至約1.2%。這意味著模型可以在幾乎不切換的狀態下持續生成數十個詞，才偶爾更新一次專家組合。

訓練過程也表現出良好的穩定性。獎勵曲線（衡量模型輸出接近原始模型的程度）在訓練過程中穩步上升，困惑度（衡量模型語言流暢程度的指標）也穩步下降，沒有出現常見的崩潰或者輸出退化問題。此外，研究團隊還專門監測了"重複率"——即模型是否會陷入無休止地重複同一個詞或句子的怪圈——結果顯示，改造後的模型在整個訓練過程中重複率保持穩定，沒有出現這種失控情況。

贊助商廣告

相比之下，頻率剪枝、重建損失最小化和隨機選擇等方法的模型輸出，在給出的示例中呈現出大量亂碼（整段整段的省略號和問號）或者無限重複同一個數學表達式的慘烈景象，顯然已經完全失去正常語言能力。

**七、這個發現意味著什麼？三大應用場景**

研究團隊特別強調了這項技術在三個方向上的實際價值。

第一個是節省顯存的推理服務。由於每次只需要在GPU上保留正在使用的那批候選專家，不需要隨時待命所有專家，顯存需求可以大幅縮減。以gpt-oss-20b為例，如果從32個專家縮減到只在GPU上保留16個，可以節省約4.7GB的顯存（降低約37%）；如果只保留8個，節省約7.1GB（降低約55%）。對於顯存資源日益緊張的現實情況，這是非常實質性的改善。

第二個是訓練時的分塊策略。由於同一批專家在連續若干詞之間保持不變，訓練時可以把一個長序列切成若干"塊"，每塊內部只需要激活該塊對應的專家子集。不用的專家在這個塊的前向和後向傳播過程中可以暫時卸載，減少峰值顯存占用。這對於在有限資源下訓練大規模MoE模型，具有直接意義。

第三個是持續學習。當未來需要讓模型適應新領域或新任務時，可以在不增加每次激活專家數量的前提下，往模型里添加新的專家模組。控制器會自然地學習在適當的時候路由到這些新專家。由於推理時的計算量（取決於激活專家數量）不變，整個系統可以持續擴充能力而不犧牲速度。

**八、研究局限與未來方向**

研究團隊也坦誠地列舉了這項工作的局限性。

目前的實驗只是驗證了"時序擴展路由是可以學習的，並且損失是可接受的"，但並沒有真正構建一個端到端的、能夠真正省錢省時的推理系統。把理論潛力轉化為實際的顯存和延遲節省，需要大量的系統工程工作，這超出了當前研究的範圍。

另外，控制器的設計是"每層獨立運作"的，即每一個MoE層的控制器獨立決定是否切換專家，不同層可能在不同的詞位置切換。理想的顯存優化場景是所有層同步切換，這樣每次只需要一次性卸載和加載整個模型的專家組合，但這會讓選項空間指數級膨脹，學習難度大幅提升。這個問題留給未來工作去解決。

贊助商廣告

此外，研究目前只在gpt-oss-20b這一個模型上進行了實驗，且評估只覆蓋了200道測試題的MATH、MMLU和MMMLU，沒有涵蓋代碼生成、長篇指令跟隨等其他重要能力維度。更全面的評估是未來工作的自然延伸。

還有一個有趣的開放問題：現在的控制器是通過後訓練加上去的，如果在預訓練階段就把時序擴展性作為目標之一，從一開始就讓模型學會"專注"，會不會效果更好？自然語言本身天然有時序結構——話題、論點、推理鏈都會在一段時間內保持連貫——或許這種結構本來就和時序擴展的專家路由有內在的對應關係。

歸根結底，這項研究做了一件很有價值的事：它指出了一個大家都忽視的問題（專家切換太頻繁），找到了一個優雅的理論框架來建模和解決它（選項框架+考量成本），並在真實的大型模型上跑通了整套流程，給出了可量化的結果。這不是最終答案，但提供了一個清晰的方向和有力的初步證據。隨著AI模型規模繼續膨脹，這個問題只會變得越來越重要，這項工作的價值也會越來越凸顯。

有興趣深入了解技術細節的讀者，可以通過arXiv編號2604.20156v1找到完整論文，或者關注論文作者在普林斯頓大學的項目主頁和代碼倉庫。

---

Q&A

Q1：混合專家模型（MoE）的專家切換頻繁為什麼會是個問題？

A：當模型規模超過GPU內存上限時，頻繁切換專家意味著系統需要不斷把不同批次的專家參數在GPU和普通內存之間來回搬運。這個搬運過程會產生顯著的延遲，而且由於切換幾乎無規律，系統無法提前預判下一步需要哪些專家，傳統的"預取"優化手段幾乎失效。頻繁切換還讓訓練時的顯存管理更加困難，所有專家參數必須隨時可訪問，峰值顯存壓力極大。

Q2：時序擴展混合專家模型訓練時用的是什麼獎勵信號？

A：研究團隊採用的是"自我蒸餾"方式。具體做法是把原始的、沒有任何約束的gpt-oss-20b作為老師，改造後的模型作為學生，每個詞的獎勵信號是老師和學生輸出概率的對數差值。當學生輸出分布接近老師時，獎勵為正；偏離越大，獎勵越低。這個獎勵在期望意義上等價於反向KL散度的負值，迫使學生模型儘量模仿老師的行為，從而在減少切換的同時保留原有能力。

贊助商廣告

Q3：考量成本參數η的大小對模型有什麼影響？

A：η是調節切換頻率和能力保留之間權衡的關鍵旋鈕。η越大，控制器切換專家的"懲罰"越重，模型越傾向于堅持使用同一批專家，切換率越低，但同時也因為路由約束更嚴格，能力損失更大。在論文實驗中，η=0.02對應切換率約4.1%、MATH準確率64.0%；η=0.04對應切換率約1.2%、MATH準確率降至55.0%。模型部署者可以根據具體的顯存約束和性能要求來調整這個參數，找到合適的平衡點。