亞馬遜科研團隊的「最優快遞員」：如何把一個臃腫的AI大腦變成高效的專家小組

這項由亞馬遜研究團隊完成的工作發表於2026年第43屆國際機器學習大會（ICML 2026），會議地點為韓國首爾，收錄於PMLR第306卷。論文編號為arXiv:2606.01666，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

當你打開手機上的AI助手，向它提問一個問題時，背後那個"大腦"——也就是大型語言模型——需要在零點幾秒內激活數十億個參數來回答你。這就像一家萬人企業，每次接一個小訂單，都要全體員工放下手頭工作同時上陣。效率低、耗電多、成本高，這是當前AI大模型最真實的困境。亞馬遜的研究團隊決定對這種工作方式動一次根本性的手術。

一、大公司的效率難題：為什麼AI模型這麼"費電"

現代大型語言模型，比如驅動各種AI助手的那些系統，通常擁有幾十億甚至上百億個參數。每次你輸入一句話，模型就需要把所有這些參數都"轉動一遍"來生成回答。這種方式被研究者稱為"稠密激活"——不管你問的是"今天天氣怎麼樣"還是"請幫我推導量子力學公式"，同樣數量的計算資源都會被調用。

研究者很早就意識到這種方式過於浪費。以最近發布的Qwen3-30B-A3B模型為例，它擁有305億個參數，但每次回答一個問題時，實際被用到的只有33億個。換句話說，九成的"員工"在摸魚。這種架構被稱為"混合專家模型"（Mixture of Experts，簡稱MoE），它的核心思想是把大模型拆分成許多小的"專家小組"，每次只讓最合適的幾組專家來處理當前的問題。

然而，從頭訓練一個MoE模型並不是件容易的事。這個過程不穩定、數據需求量極大，還需要複雜的"負載均衡"機制來防止某幾個專家被過度使用而其他專家無事可做。於是，研究者們開始探索另一條路：能不能把一個已經訓練好的普通大模型，直接改造成MoE模型？這個過程被稱為"MoE化"。

問題的核心在於：改造的時候，怎麼決定哪些神經元歸哪個專家管？這個分組決策至關重要，分得好，改造後的模型依然聰明；分得不好，模型就會像一個被隨意拆散的團隊，不知道該怎麼協作。亞馬遜的研究團隊在這裡找到了一個新穎的切入點，他們把這個分組問題類比成了一個經典的物流問題——最優運輸問題。

贊助商廣告

二、前人的方法：靠"感覺"分組的隱患

在亞馬遜團隊提出新方法之前，已有幾種主流的"MoE化"方案，但它們都有一個共同的軟肋。

最簡單粗暴的方式是隨機分組，就像把一個公司的員工隨機打散成若干個小隊。LLaMA-MoE就採用了這種方式，隨機把神經元塞進不同的專家裡，然後再花費大量算力重新訓練來彌補隨機分組帶來的損失。這種方式耗時耗力，而且分組本身沒有任何道理可言。

更聰明一點的方式是根據神經元的"性格相似性"來分組。有的方法看神經元處理輸入時的權重是否相近（權重聚類），有的方法看哪些神經元傾向於同時被激活（共激活聚類）。CMoE這個方法就用了平衡K均值聚類算法，把同時活躍的神經元歸為一組。

這些方法聽起來很合理，但亞馬遜團隊指出了一個被所有人忽視的根本問題：這些方法都在優化"中間過程"，而不是"最終結果"。

用一個具體的例子來理解這個問題。大模型里的前饋網路層（FFN）處理資訊的方式是兩步：第一步，把輸入信號變換成一個中間表示；第二步，把這個中間表示再變換成輸出。現有方法在分組神經元時，只看了第一步里神經元的行為，卻沒有考慮第二步——也就是這些神經元最終如何影響輸出結果。這就好比給餐廳的廚師分組時，只看誰的刀法相似，卻不看誰做出來的菜最受顧客歡迎。

為了驗證這個問題有多嚴重，研究團隊做了一個精準的單層重建實驗：把模型的某一層單獨拿出來，用不同方法分好專家組後，直接測量"改造後的輸出"和"原始輸出"之間的誤差。結果觸目驚心。在LLaMA-2模型上，隨機分組的誤差是亞馬遜新方法的36倍，而最好的對比方法CMoE的誤差也有2倍多。在LLaMA-3模型上，這個差距更是高達41倍對比2倍。

這個實驗清楚地證明：看"誰和誰長得像"完全不夠，關鍵要看"誰和誰搭檔，能產出最好的結果"。

三、核心創意：把分組問題變成快遞派單問題

贊助商廣告

亞馬遜團隊的新方法叫做DOT-MoE，其中"DOT"代表"可微分最優運輸"（Differentiable Optimal Transport）。

最優運輸問題是數學領域的一個經典概念，可以用一個非常直觀的場景來理解：假設城市裡有若干個倉庫和若干個零售商，每個倉庫有一批貨物，每個零售商需要特定數量的貨物。最優運輸問題就是要找到一個調貨方案，使得總的運輸成本最低，同時每個倉庫的貨物全部送完，每個零售商的需求全部滿足。

在DOT-MoE里，"倉庫"變成了神經元，"零售商"變成了專家組，"運輸"變成了神經元歸屬某個專家組的決定，"運輸成本"變成了這種歸屬方式導致的輸出誤差。研究團隊的目標就是找到一個分配方案，讓每個神經元都有歸屬，每個專家組的神經元數量恰好相等，同時整體的輸出誤差最小。

然而，這個問題有一個技術上的挑戰：每個神經元只能屬於一個專家組，這是一個"非此即彼"的離散決策，而神經網路的訓練需要能夠順滑地計算梯度（可以理解為"調整方向的指示信號"）。一旦決策是離散的，這個信號就會消失，訓練無法進行。

研究團隊用了一個叫做"熵正則化"的數學技巧來繞過這個障礙。簡單說，他們在最優化目標里加入了一個"允許模糊"的成分，讓分配方案在訓練過程中可以是"60%屬於專家A，40%屬於專家B"這樣的模糊概率，而不是非此即彼的硬性歸屬。這個模糊分配通過一種叫做"Sinkhorn-Knopp疊代"的算法來計算——這個算法的工作方式類似於反覆校準，交替保證每行的概率之和為1（每個神經元只被分配一次）和每列的概率之和為固定值（每個專家組的容量相等）。為了數值穩定，整個計算在對數域進行，避免了數值過小導致的下溢問題。

等到訓練完成後，再把這個模糊的分配方案"硬化"成明確的歸屬：按照分配概率從高到低排序，依次確認每個神經元的最終歸屬，同時確保每個專家組不超載。這個"硬化"過程本身不能傳遞梯度，於是研究團隊又用了一個叫做"直通估計器"（Straight-Through Estimator，STE）的技巧：前向計算時用硬化後的結果，反向傳播梯度時假裝用的是軟分配，讓優化信號能夠順利傳回去更新分配邏輯。

贊助商廣告

這整個設計的精妙之處在於它同時解決了三件事：分配是可以學習的（不靠啟發式規則），分配是平衡的（每個專家組神經元數量相等，通過Sinkhorn嚴格保證），優化目標是輸出級別的誤差（不是中間表示的相似度）。

四、路由器的設計：誰來決定每個問題找哪個專家

光有專家分組還不夠，還需要一個"調度員"來決定每個輸入問題應該找哪幾個專家組來處理。這個調度員在MoE架構里叫做"路由器"。

DOT-MoE的路由器設計很直接：給定一段輸入文字，路由器把每個詞（token）映射到一個概率分布，表示這個詞應該由哪些專家組來處理的可能性有多大。然後選出概率最高的前k個專家組，只激活這k組專家來處理這個詞。

路由器的訓練同樣面臨離散決策的梯度問題——"選前k個"這個操作也是不可微的。於是研究團隊對路由器也應用了直通估計器：前向計算用真正的離散選擇結果（某個詞就是被分配給了這k個專家），反向傳播時假裝用的是softmax輸出的連續概率值來傳遞梯度。

最關鍵的創新點在於：神經元分組的學習和路由器的學習是同時進行的，相互影響，共同優化。之前的方法通常是先固定分組，再訓練路由器；而DOT-MoE允許兩者在訓練過程中互相適應。分組方式影響路由器應該把什麼樣的輸入路由給哪個專家，路由器的偏好反過來又會影響什麼樣的分組更合理。這種協同優化讓最終結果更加自洽。

五、訓練過程：在不改變大模型本身的情況下完成改造

DOT-MoE的訓練分為兩個階段：對齊階段和微調階段。

對齊階段是整個方法的核心。在這個階段，大模型原有的所有權重全部凍結，一個參數都不動，只訓練兩組新引入的參數：神經元與專家組之間的親和度矩陣（用於Sinkhorn計算的原始分數）以及路由器的權重。訓練用了一個叫做Dolmino-mix的數據集，在8塊H100 GPU上跑了3500步，整個過程不到3小時。

贊助商廣告

訓練時的目標函數結合了多個成分。第一個成分是讓改造後的MoE模型的輸出概率分布儘可能接近原始稠密大模型的輸出——這是知識蒸餾的思路，讓稠密模型作為"老師"，MoE模型作為"學生"。第二個成分是標準的語言建模損失，確保模型依然會"說話"。第三個成分是路由器Z-loss，懲罰過大的路由分數，防止數值不穩定。第四個成分是負載均衡損失，鼓勵所有專家組被大致均勻地使用，防止出現少數專家被過度使用、其餘專家閒置的"專家崩塌"現象。

對齊階段結束後，提取最終的神經元分配矩陣，把原來的稠密FFN權重真正拆分成E個獨立的專家FFN模組，得到一個標準的MoE架構模型。接下來可以選擇進行微調階段，用更多數據進一步恢復和提升模型性能。研究團隊統一用12億個token進行了微調，以便與其他基線方法做公平比較。

在訓練過程中模擬稀疏計算的方式也很巧妙：並不真的把權重拆開，而是通過一個掩碼操作，把不屬於當前激活專家的神經元的中間激活值直接置零，再進行後續的矩陣乘法。這樣既模擬了稀疏MoE的計算效果，又能在原有的稠密權重上完成梯度計算。

六、實驗結果：數字背後的真實差距

研究團隊在三個主流開源大模型上驗證了DOT-MoE的效果：LLaMA-2-7B、LLaMA-3-8B和Qwen2.5-7B。評測覆蓋了六個常識推理基準：ARC-Challenge（科學題）、Winogrande（常識填空）、HellaSwag（情境理解）、PIQA（物理常識）、SciQ（科學問答）和BoolQ（是非判斷）。

在最嚴格的零樣本評測中（不給任何參考示例，直接答題），DOT-MoE的表現相當突出。以LLaMA-2-7B為例，把模型壓縮到原來一半參數量後，DOT-MoE的六項平均準確率達到61.5%，而同樣設置下CMoE只有44.5%，DISP-LLM（一種結構化剪枝方法）達到57.4%。在LLaMA-3-8B上，DOT-MoE零樣本均值59.8%，CMoE只有41.8%。在Qwen2.5-7B上，DOT-MoE在較大參數預算下達到72.3%，遠超CMoE的55.5%和DISP-LLM的66.7%。

贊助商廣告

與結構化剪枝方法的比較同樣引人關注。結構化剪枝是另一類壓縮大模型的主流方法，它的做法是直接永久性地刪除一部分參數，從而減小模型體積。在LLaMA-2-7B上，DOT-MoE在WikiText-2語料上的困惑度（衡量語言模型"迷惑程度"的指標，越低越好）達到7.99，而當前最優的結構化剪枝方法DISP-LLM是9.84，半結構化剪枝方法SparseGPT是10.17，Wanda是11.02。數字越小意味著模型對語言的理解越好，DOT-MoE在這裡處於領先位置。

加入12億token的微調後，差距進一步擴大。在LLaMA-3-8B上，用相同的12億token微調後，DOT-MoE均值67.8%，CMoE是64.7%。當微調數據量擴大到70億token時，DOT-MoE進一步提升到71.0%，超過了同樣用70億token微調的LLaMA-MoE-v2（66.8%）。在Qwen2.5-7B上，較大參數量版本的DOT-MoE微調後達到73.4%，而原始稠密模型是80.6%，差距被大幅縮小。

七、消融實驗：拆解每個設計決策的貢獻

研究團隊做了一系列精心設計的消融實驗，驗證每個設計選擇背後的道理。

第一組實驗研究專家粒度的影響。總專家數量分別設為16、37、74、148、256，同時保持每次激活的參數比例不變（始終用25%的FFN參數）。結果顯示，專家數量從16增加到148時，模型性能穩步提升；但超過148之後，收益趨於飽和。這與OpenAI和AllenAI等機構在訓練MoE模型時觀察到的規律一致：專家粒度越細，路由決策就越精準，但過於碎片化的專家會帶來邊際效益遞減。對比方法CMoE在專家數量增加到37時性能直接崩潰，WikiText困惑度超過5000，而DOT-MoE在這個規模下依然運行良好，說明其路由機制對高專家數量有更強的適應性。

第二組實驗研究推理時的靈活性。研究團隊訓練了兩個版本的Qwen2.5-7B模型，分別在50%和75%的FFN稀疏度下進行對齊訓練，然後分別在30%、50%、75%、90%四個不同的推理時稀疏度下進行評測。結果很有規律：在75%稀疏度下訓練的模型，在所有推理稀疏度設置下都比在50%下訓練的模型表現更好。在極端的90%稀疏度推理時（只激活10%的FFN參數），75%稀疏度訓練版本的平均準確率是39.12%，而50%稀疏度訓練版本只有36.38%。研究團隊解釋這種現象的原因是：當訓練時可用的激活神經元更少，每個專家被迫學會更高效地編碼資訊，最終形成更緊湊、更具區分度的專家表示。這對實際部署意味著一個實用的好消息：在高稀疏度下訓練一次，就能靈活調整推理時的計算預算，無需重新訓練。

贊助商廣告

第三組實驗研究專家粒度對推理速度的影響。使用vLLM這個高性能推理框架，在4種專家數量（8、16、74、148）和3種批次大小（1024、2048、4096）下測量吞吐量（每秒處理的token數）。結果顯示，專家數量從8增加到148，吞吐量幾乎沒有變化。原因在於vLLM的融合MoE核心實現：所有專家的權重被拼接儲存，通過token重排序，整個計算等效於一次大矩陣乘法，專家數量的變化不影響GEMM運算的規模，因此不影響速度。這意味著使用更細粒度的專家分組不會帶來性能代價。

第四組實驗研究不同初始化策略對後續微調的影響。在相同訓練數據和相同超參數下，分別用DOT-MoE、CMoE和LLaMA-MoE-v2初始化LLaMA-3-8B，然後追蹤訓練過程中的訓練損失、WikiText困惑度和HellaSwag準確率。DOT-MoE從訓練起點就有明顯優勢：初始訓練損失更低，WikiText困惑度更低。隨著訓練進行，CMoE和LLaMA-MoE-v2出現了一個令人擔憂的現象：訓練損失繼續下降，但WikiText困惑度和HellaSwag準確率不再進步，甚至略有下滑，這是過擬合的典型信號。DOT-MoE則在兩個維度上都持續改善。這說明更好的初始專家分組不僅提供了更好的起點，還帶來了更好的泛化能力。

八、延伸應用：同樣的思路也能用在注意力機制上

除了前饋網路層，研究團隊還把同樣的最優運輸框架擴展到了Transformer的另一個核心組件——多頭注意力機制。

注意力機制的工作原理是把輸入的每個詞同時與多個"注意力頭"進行交互，每個頭關注輸入序列的不同方面。類似地，可以把這些注意力頭分成若干個專家組，每次只激活其中幾組來處理當前輸入。分組的優化邏輯與FFN完全相同：引入親和度矩陣，用Sinkhorn疊代找到平衡分配，用直通估計器處理離散選擇。

在Qwen2.5-7B上，注意力層的50%稀疏度實驗中，OT分組方式的平均準確率是64.1%，而隨機分組加訓練路由器的基線只有46.2%，差距達到17.9個百分點。值得注意的是，注意力參數大約只占模型總參數的三分之一，所以僅對注意力層做MoE化的整體壓縮效果有限；將注意力MoE和FFN MoE結合起來是一個自然的擴展方向。

贊助商廣告

九、規模擴展性驗證

為了證明DOT-MoE不只在7-8B參數規模的模型上有效，研究團隊還在Qwen2.5-32B這個更大的模型上進行了測試，同樣目標是激活25%的參數。結果顯示，DOT-MoE的零樣本平均準確率達到73.1%，而CMoE只有38.8%，差距擴大到34.3個百分點。這說明隨著模型規模增加，OT分組方式的優勢不僅沒有縮小，反而有所擴大。

在序列長度的魯棒性方面，研究團隊測試了從2048到32768個token的不同上下文窗口長度。DOT-MoE在所有長度下相比CMoE保持約2個困惑度點的優勢，說明每個token獨立做路由決策的設計天然適合長上下文場景。

在訓練開銷方面，研究團隊也做了詳細的性能分析。Sinkhorn疊代只占總訓練時間的約2%。DOT-MoE特有的所有操作（包括親和矩陣計算、硬化分配、直通估計器）合計帶來約15%的額外開銷，主要來源是貪婪取整操作目前在CPU上運行，存在CPU到GPU的數據傳輸開銷。一旦這個操作改用GPU專用核心實現，開銷可以大幅降低。更重要的是，這些開銷只在對齊訓練階段產生，推理時的模型已經是標準MoE架構，沒有任何額外計算。

說到底，DOT-MoE做的事情可以用一句話概括：它找到了一種有數學依據的方式，把一個"全體員工同時上崗"的大公司，改造成了一個"根據訂單智能派遣專屬小團隊"的高效企業，而且改造過程不需要重建公司（凍結原有權重），只需要重新規劃部門劃分和調度系統。

這項研究的意義不只是一個學術上的方法改進。歸根結底，讓AI模型變得更高效，意味著它可以部署在算力更有限的設備上，意味著更低的伺服器成本，意味著更低的碳排放。每次你用手機上的AI功能，背後都需要遠程伺服器的大量計算——如果這些計算可以減少一半，影響是相當現實的。

當然，這項研究也有明確的局限性和未來方向。親和度矩陣目前是隨機初始化的，如果能利用權重相關性或預計算的激活統計量來初始化，可能加速Sinkhorn收斂並得到更好的初始分組。另外，對於訓練中長期閒置的專家，可以考慮直接剪除，進一步壓縮模型的內存占用。在更大規模（如千億參數量）的模型上進行驗證也是自然的下一步。對這些問題感興趣的讀者，可以通過arXiv:2606.01666找到完整論文，深入了解所有技術細節和實驗設置。

贊助商廣告

Q&A

Q1：DOT-MoE和普通剪枝方法有什麼區別？

A：普通剪枝是永久性地刪除模型參數，就像直接裁員，被刪的知識就消失了。DOT-MoE不刪任何參數，而是把所有參數分成若干個"專家小組"，每次只激活幾組來處理當前問題，全部知識都保留著，只是按需調用。兩者都能減少推理計算量，但DOT-MoE在保留模型能力方面更有優勢，特別是在長尾知識方面。

Q2：DOT-MoE改造一個大模型需要多少計算資源？

A：資源需求相對較低。對齊訓練階段凍結了原始模型的全部權重，只訓練不到2%的新參數（親和度矩陣和路由器權重），在8塊H100 GPU上只需不到3小時就能完成LLaMA-3-8B的改造。後續微調階段用了12億個token，規模也遠小於從頭訓練。整體來看，比從頭訓練MoE模型節省了大量資源。

Q3：改造後的模型在實際推理時速度會更快嗎？

A：是的，激活參數減少50%意味著每個token的計算量減半，實際推理速度有實質性提升。實驗表明，使用vLLM的融合MoE核心時，專家數量的增加不會帶來額外的速度損失，因為所有專家的計算被合併成高效的矩陣運算。模型部署後是標準的MoE架構，與主流推理框架完全兼容。