宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

亞馬遜科研團隊的「最優快遞員」:如何把一個臃腫的AI大腦變成高效的專家小組

2026年06月08日 首頁 » 熱門科技

這項由亞馬遜研究團隊完成的工作發表於2026年第43屆國際機器學習大會(ICML 2026),會議地點為韓國首爾,收錄於PMLR第306卷。論文編號為arXiv:2606.01666,有興趣深入了解的讀者可通過該編號查詢完整論文。

當你打開手機上的AI助手,向它提問一個問題時,背後那個"大腦"——也就是大型語言模型——需要在零點幾秒內激活數十億個參數來回答你。這就像一家萬人企業,每次接一個小訂單,都要全體員工放下手頭工作同時上陣。效率低、耗電多、成本高,這是當前AI大模型最真實的困境。亞馬遜的研究團隊決定對這種工作方式動一次根本性的手術。

一、大公司的效率難題:為什麼AI模型這麼"費電"

現代大型語言模型,比如驅動各種AI助手的那些系統,通常擁有幾十億甚至上百億個參數。每次你輸入一句話,模型就需要把所有這些參數都"轉動一遍"來生成回答。這種方式被研究者稱為"稠密激活"——不管你問的是"今天天氣怎麼樣"還是"請幫我推導量子力學公式",同樣數量的計算資源都會被調用。

研究者很早就意識到這種方式過於浪費。以最近發布的Qwen3-30B-A3B模型為例,它擁有305億個參數,但每次回答一個問題時,實際被用到的只有33億個。換句話說,九成的"員工"在摸魚。這種架構被稱為"混合專家模型"(Mixture of Experts,簡稱MoE),它的核心思想是把大模型拆分成許多小的"專家小組",每次只讓最合適的幾組專家來處理當前的問題。

然而,從頭訓練一個MoE模型並不是件容易的事。這個過程不穩定、數據需求量極大,還需要複雜的"負載均衡"機制來防止某幾個專家被過度使用而其他專家無事可做。於是,研究者們開始探索另一條路:能不能把一個已經訓練好的普通大模型,直接改造成MoE模型?這個過程被稱為"MoE化"。

問題的核心在於:改造的時候,怎麼決定哪些神經元歸哪個專家管?這個分組決策至關重要,分得好,改造後的模型依然聰明;分得不好,模型就會像一個被隨意拆散的團隊,不知道該怎麼協作。亞馬遜的研究團隊在這裡找到了一個新穎的切入點,他們把這個分組問題類比成了一個經典的物流問題——最優運輸問題。

二、前人的方法:靠"感覺"分組的隱患

在亞馬遜團隊提出新方法之前,已有幾種主流的"MoE化"方案,但它們都有一個共同的軟肋。

最簡單粗暴的方式是隨機分組,就像把一個公司的員工隨機打散成若干個小隊。LLaMA-MoE就採用了這種方式,隨機把神經元塞進不同的專家裡,然後再花費大量算力重新訓練來彌補隨機分組帶來的損失。這種方式耗時耗力,而且分組本身沒有任何道理可言。

更聰明一點的方式是根據神經元的"性格相似性"來分組。有的方法看神經元處理輸入時的權重是否相近(權重聚類),有的方法看哪些神經元傾向於同時被激活(共激活聚類)。CMoE這個方法就用了平衡K均值聚類算法,把同時活躍的神經元歸為一組。

這些方法聽起來很合理,但亞馬遜團隊指出了一個被所有人忽視的根本問題:這些方法都在優化"中間過程",而不是"最終結果"。

用一個具體的例子來理解這個問題。大模型里的前饋網路層(FFN)處理資訊的方式是兩步:第一步,把輸入信號變換成一個中間表示;第二步,把這個中間表示再變換成輸出。現有方法在分組神經元時,只看了第一步里神經元的行為,卻沒有考慮第二步——也就是這些神經元最終如何影響輸出結果。這就好比給餐廳的廚師分組時,只看誰的刀法相似,卻不看誰做出來的菜最受顧客歡迎。

為了驗證這個問題有多嚴重,研究團隊做了一個精準的單層重建實驗:把模型的某一層單獨拿出來,用不同方法分好專家組後,直接測量"改造後的輸出"和"原始輸出"之間的誤差。結果觸目驚心。在LLaMA-2模型上,隨機分組的誤差是亞馬遜新方法的36倍,而最好的對比方法CMoE的誤差也有2倍多。在LLaMA-3模型上,這個差距更是高達41倍對比2倍。

這個實驗清楚地證明:看"誰和誰長得像"完全不夠,關鍵要看"誰和誰搭檔,能產出最好的結果"。

三、核心創意:把分組問題變成快遞派單問題

亞馬遜團隊的新方法叫做DOT-MoE,其中"DOT"代表"可微分最優運輸"(Differentiable Optimal Transport)。

最優運輸問題是數學領域的一個經典概念,可以用一個非常直觀的場景來理解:假設城市裡有若干個倉庫和若干個零售商,每個倉庫有一批貨物,每個零售商需要特定數量的貨物。最優運輸問題就是要找到一個調貨方案,使得總的運輸成本最低,同時每個倉庫的貨物全部送完,每個零售商的需求全部滿足。

在DOT-MoE里,"倉庫"變成了神經元,"零售商"變成了專家組,"運輸"變成了神經元歸屬某個專家組的決定,"運輸成本"變成了這種歸屬方式導致的輸出誤差。研究團隊的目標就是找到一個分配方案,讓每個神經元都有歸屬,每個專家組的神經元數量恰好相等,同時整體的輸出誤差最小。

然而,這個問題有一個技術上的挑戰:每個神經元只能屬於一個專家組,這是一個"非此即彼"的離散決策,而神經網路的訓練需要能夠順滑地計算梯度(可以理解為"調整方向的指示信號")。一旦決策是離散的,這個信號就會消失,訓練無法進行。

研究團隊用了一個叫做"熵正則化"的數學技巧來繞過這個障礙。簡單說,他們在最優化目標里加入了一個"允許模糊"的成分,讓分配方案在訓練過程中可以是"60%屬於專家A,40%屬於專家B"這樣的模糊概率,而不是非此即彼的硬性歸屬。這個模糊分配通過一種叫做"Sinkhorn-Knopp疊代"的算法來計算——這個算法的工作方式類似於反覆校準,交替保證每行的概率之和為1(每個神經元只被分配一次)和每列的概率之和為固定值(每個專家組的容量相等)。為了數值穩定,整個計算在對數域進行,避免了數值過小導致的下溢問題。

等到訓練完成後,再把這個模糊的分配方案"硬化"成明確的歸屬:按照分配概率從高到低排序,依次確認每個神經元的最終歸屬,同時確保每個專家組不超載。這個"硬化"過程本身不能傳遞梯度,於是研究團隊又用了一個叫做"直通估計器"(Straight-Through Estimator,STE)的技巧:前向計算時用硬化後的結果,反向傳播梯度時假裝用的是軟分配,讓優化信號能夠順利傳回去更新分配邏輯。

這整個設計的精妙之處在於它同時解決了三件事:分配是可以學習的(不靠啟發式規則),分配是平衡的(每個專家組神經元數量相等,通過Sinkhorn嚴格保證),優化目標是輸出級別的誤差(不是中間表示的相似度)。

四、路由器的設計:誰來決定每個問題找哪個專家

光有專家分組還不夠,還需要一個"調度員"來決定每個輸入問題應該找哪幾個專家組來處理。這個調度員在MoE架構里叫做"路由器"。

DOT-MoE的路由器設計很直接:給定一段輸入文字,路由器把每個詞(token)映射到一個概率分布,表示這個詞應該由哪些專家組來處理的可能性有多大。然後選出概率最高的前k個專家組,只激活這k組專家來處理這個詞。

路由器的訓練同樣面臨離散決策的梯度問題——"選前k個"這個操作也是不可微的。於是研究團隊對路由器也應用了直通估計器:前向計算用真正的離散選擇結果(某個詞就是被分配給了這k個專家),反向傳播時假裝用的是softmax輸出的連續概率值來傳遞梯度。

最關鍵的創新點在於:神經元分組的學習和路由器的學習是同時進行的,相互影響,共同優化。之前的方法通常是先固定分組,再訓練路由器;而DOT-MoE允許兩者在訓練過程中互相適應。分組方式影響路由器應該把什麼樣的輸入路由給哪個專家,路由器的偏好反過來又會影響什麼樣的分組更合理。這種協同優化讓最終結果更加自洽。

五、訓練過程:在不改變大模型本身的情況下完成改造

DOT-MoE的訓練分為兩個階段:對齊階段和微調階段。

對齊階段是整個方法的核心。在這個階段,大模型原有的所有權重全部凍結,一個參數都不動,只訓練兩組新引入的參數:神經元與專家組之間的親和度矩陣(用於Sinkhorn計算的原始分數)以及路由器的權重。訓練用了一個叫做Dolmino-mix的數據集,在8塊H100 GPU上跑了3500步,整個過程不到3小時。

訓練時的目標函數結合了多個成分。第一個成分是讓改造後的MoE模型的輸出概率分布儘可能接近原始稠密大模型的輸出——這是知識蒸餾的思路,讓稠密模型作為"老師",MoE模型作為"學生"。第二個成分是標準的語言建模損失,確保模型依然會"說話"。第三個成分是路由器Z-loss,懲罰過大的路由分數,防止數值不穩定。第四個成分是負載均衡損失,鼓勵所有專家組被大致均勻地使用,防止出現少數專家被過度使用、其餘專家閒置的"專家崩塌"現象。

對齊階段結束後,提取最終的神經元分配矩陣,把原來的稠密FFN權重真正拆分成E個獨立的專家FFN模組,得到一個標準的MoE架構模型。接下來可以選擇進行微調階段,用更多數據進一步恢復和提升模型性能。研究團隊統一用12億個token進行了微調,以便與其他基線方法做公平比較。

在訓練過程中模擬稀疏計算的方式也很巧妙:並不真的把權重拆開,而是通過一個掩碼操作,把不屬於當前激活專家的神經元的中間激活值直接置零,再進行後續的矩陣乘法。這樣既模擬了稀疏MoE的計算效果,又能在原有的稠密權重上完成梯度計算。

六、實驗結果:數字背後的真實差距

研究團隊在三個主流開源大模型上驗證了DOT-MoE的效果:LLaMA-2-7B、LLaMA-3-8B和Qwen2.5-7B。評測覆蓋了六個常識推理基準:ARC-Challenge(科學題)、Winogrande(常識填空)、HellaSwag(情境理解)、PIQA(物理常識)、SciQ(科學問答)和BoolQ(是非判斷)。

在最嚴格的零樣本評測中(不給任何參考示例,直接答題),DOT-MoE的表現相當突出。以LLaMA-2-7B為例,把模型壓縮到原來一半參數量後,DOT-MoE的六項平均準確率達到61.5%,而同樣設置下CMoE只有44.5%,DISP-LLM(一種結構化剪枝方法)達到57.4%。在LLaMA-3-8B上,DOT-MoE零樣本均值59.8%,CMoE只有41.8%。在Qwen2.5-7B上,DOT-MoE在較大參數預算下達到72.3%,遠超CMoE的55.5%和DISP-LLM的66.7%。

與結構化剪枝方法的比較同樣引人關注。結構化剪枝是另一類壓縮大模型的主流方法,它的做法是直接永久性地刪除一部分參數,從而減小模型體積。在LLaMA-2-7B上,DOT-MoE在WikiText-2語料上的困惑度(衡量語言模型"迷惑程度"的指標,越低越好)達到7.99,而當前最優的結構化剪枝方法DISP-LLM是9.84,半結構化剪枝方法SparseGPT是10.17,Wanda是11.02。數字越小意味著模型對語言的理解越好,DOT-MoE在這裡處於領先位置。

加入12億token的微調後,差距進一步擴大。在LLaMA-3-8B上,用相同的12億token微調後,DOT-MoE均值67.8%,CMoE是64.7%。當微調數據量擴大到70億token時,DOT-MoE進一步提升到71.0%,超過了同樣用70億token微調的LLaMA-MoE-v2(66.8%)。在Qwen2.5-7B上,較大參數量版本的DOT-MoE微調後達到73.4%,而原始稠密模型是80.6%,差距被大幅縮小。

七、消融實驗:拆解每個設計決策的貢獻

研究團隊做了一系列精心設計的消融實驗,驗證每個設計選擇背後的道理。

第一組實驗研究專家粒度的影響。總專家數量分別設為16、37、74、148、256,同時保持每次激活的參數比例不變(始終用25%的FFN參數)。結果顯示,專家數量從16增加到148時,模型性能穩步提升;但超過148之後,收益趨於飽和。這與OpenAI和AllenAI等機構在訓練MoE模型時觀察到的規律一致:專家粒度越細,路由決策就越精準,但過於碎片化的專家會帶來邊際效益遞減。對比方法CMoE在專家數量增加到37時性能直接崩潰,WikiText困惑度超過5000,而DOT-MoE在這個規模下依然運行良好,說明其路由機制對高專家數量有更強的適應性。

第二組實驗研究推理時的靈活性。研究團隊訓練了兩個版本的Qwen2.5-7B模型,分別在50%和75%的FFN稀疏度下進行對齊訓練,然後分別在30%、50%、75%、90%四個不同的推理時稀疏度下進行評測。結果很有規律:在75%稀疏度下訓練的模型,在所有推理稀疏度設置下都比在50%下訓練的模型表現更好。在極端的90%稀疏度推理時(只激活10%的FFN參數),75%稀疏度訓練版本的平均準確率是39.12%,而50%稀疏度訓練版本只有36.38%。研究團隊解釋這種現象的原因是:當訓練時可用的激活神經元更少,每個專家被迫學會更高效地編碼資訊,最終形成更緊湊、更具區分度的專家表示。這對實際部署意味著一個實用的好消息:在高稀疏度下訓練一次,就能靈活調整推理時的計算預算,無需重新訓練。

第三組實驗研究專家粒度對推理速度的影響。使用vLLM這個高性能推理框架,在4種專家數量(8、16、74、148)和3種批次大小(1024、2048、4096)下測量吞吐量(每秒處理的token數)。結果顯示,專家數量從8增加到148,吞吐量幾乎沒有變化。原因在於vLLM的融合MoE核心實現:所有專家的權重被拼接儲存,通過token重排序,整個計算等效於一次大矩陣乘法,專家數量的變化不影響GEMM運算的規模,因此不影響速度。這意味著使用更細粒度的專家分組不會帶來性能代價。

第四組實驗研究不同初始化策略對後續微調的影響。在相同訓練數據和相同超參數下,分別用DOT-MoE、CMoE和LLaMA-MoE-v2初始化LLaMA-3-8B,然後追蹤訓練過程中的訓練損失、WikiText困惑度和HellaSwag準確率。DOT-MoE從訓練起點就有明顯優勢:初始訓練損失更低,WikiText困惑度更低。隨著訓練進行,CMoE和LLaMA-MoE-v2出現了一個令人擔憂的現象:訓練損失繼續下降,但WikiText困惑度和HellaSwag準確率不再進步,甚至略有下滑,這是過擬合的典型信號。DOT-MoE則在兩個維度上都持續改善。這說明更好的初始專家分組不僅提供了更好的起點,還帶來了更好的泛化能力。

八、延伸應用:同樣的思路也能用在注意力機制上

除了前饋網路層,研究團隊還把同樣的最優運輸框架擴展到了Transformer的另一個核心組件——多頭注意力機制。

注意力機制的工作原理是把輸入的每個詞同時與多個"注意力頭"進行交互,每個頭關注輸入序列的不同方面。類似地,可以把這些注意力頭分成若干個專家組,每次只激活其中幾組來處理當前輸入。分組的優化邏輯與FFN完全相同:引入親和度矩陣,用Sinkhorn疊代找到平衡分配,用直通估計器處理離散選擇。

在Qwen2.5-7B上,注意力層的50%稀疏度實驗中,OT分組方式的平均準確率是64.1%,而隨機分組加訓練路由器的基線只有46.2%,差距達到17.9個百分點。值得注意的是,注意力參數大約只占模型總參數的三分之一,所以僅對注意力層做MoE化的整體壓縮效果有限;將注意力MoE和FFN MoE結合起來是一個自然的擴展方向。

九、規模擴展性驗證

為了證明DOT-MoE不只在7-8B參數規模的模型上有效,研究團隊還在Qwen2.5-32B這個更大的模型上進行了測試,同樣目標是激活25%的參數。結果顯示,DOT-MoE的零樣本平均準確率達到73.1%,而CMoE只有38.8%,差距擴大到34.3個百分點。這說明隨著模型規模增加,OT分組方式的優勢不僅沒有縮小,反而有所擴大。

在序列長度的魯棒性方面,研究團隊測試了從2048到32768個token的不同上下文窗口長度。DOT-MoE在所有長度下相比CMoE保持約2個困惑度點的優勢,說明每個token獨立做路由決策的設計天然適合長上下文場景。

在訓練開銷方面,研究團隊也做了詳細的性能分析。Sinkhorn疊代只占總訓練時間的約2%。DOT-MoE特有的所有操作(包括親和矩陣計算、硬化分配、直通估計器)合計帶來約15%的額外開銷,主要來源是貪婪取整操作目前在CPU上運行,存在CPU到GPU的數據傳輸開銷。一旦這個操作改用GPU專用核心實現,開銷可以大幅降低。更重要的是,這些開銷只在對齊訓練階段產生,推理時的模型已經是標準MoE架構,沒有任何額外計算。

說到底,DOT-MoE做的事情可以用一句話概括:它找到了一種有數學依據的方式,把一個"全體員工同時上崗"的大公司,改造成了一個"根據訂單智能派遣專屬小團隊"的高效企業,而且改造過程不需要重建公司(凍結原有權重),只需要重新規劃部門劃分和調度系統。

這項研究的意義不只是一個學術上的方法改進。歸根結底,讓AI模型變得更高效,意味著它可以部署在算力更有限的設備上,意味著更低的伺服器成本,意味著更低的碳排放。每次你用手機上的AI功能,背後都需要遠程伺服器的大量計算——如果這些計算可以減少一半,影響是相當現實的。

當然,這項研究也有明確的局限性和未來方向。親和度矩陣目前是隨機初始化的,如果能利用權重相關性或預計算的激活統計量來初始化,可能加速Sinkhorn收斂並得到更好的初始分組。另外,對於訓練中長期閒置的專家,可以考慮直接剪除,進一步壓縮模型的內存占用。在更大規模(如千億參數量)的模型上進行驗證也是自然的下一步。對這些問題感興趣的讀者,可以通過arXiv:2606.01666找到完整論文,深入了解所有技術細節和實驗設置。

Q&A

Q1:DOT-MoE和普通剪枝方法有什麼區別?

A:普通剪枝是永久性地刪除模型參數,就像直接裁員,被刪的知識就消失了。DOT-MoE不刪任何參數,而是把所有參數分成若干個"專家小組",每次只激活幾組來處理當前問題,全部知識都保留著,只是按需調用。兩者都能減少推理計算量,但DOT-MoE在保留模型能力方面更有優勢,特別是在長尾知識方面。

Q2:DOT-MoE改造一個大模型需要多少計算資源?

A:資源需求相對較低。對齊訓練階段凍結了原始模型的全部權重,只訓練不到2%的新參數(親和度矩陣和路由器權重),在8塊H100 GPU上只需不到3小時就能完成LLaMA-3-8B的改造。後續微調階段用了12億個token,規模也遠小於從頭訓練。整體來看,比從頭訓練MoE模型節省了大量資源。

Q3:改造後的模型在實際推理時速度會更快嗎?

A:是的,激活參數減少50%意味著每個token的計算量減半,實際推理速度有實質性提升。實驗表明,使用vLLM的融合MoE核心時,專家數量的增加不會帶來額外的速度損失,因為所有專家的計算被合併成高效的矩陣運算。模型部署後是標準的MoE架構,與主流推理框架完全兼容。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新