亞馬遜AI團隊找到了讓大模型「廉價擴容」的秘密武器

這篇研究來自亞馬遜商店基礎AI團隊，以預印本形式發布於2026年4月21日，論文編號為arXiv:2604.19835。感興趣的讀者可通過該編號在arXiv平台檢索原文。

贊助商廣告

當你買了一輛小排量的車，用了幾年之後發現它確實很好開，但動力還是不夠用——這時你面臨兩個選擇：要麼賣掉舊車重新買輛大排量的，要麼把現有的發動機改造升級一下。買新車固然能得到全新的大排量體驗，但花費是全額的；改造升級則能保留你熟悉的駕駛感和已經磨合好的零件，同時花費更少。

大型AI模型的訓練成本，正面臨著類似的兩難困境。而亞馬遜的研究團隊提出的"專家升級復用"（Expert Upcycling）方法，正是那條"改造升級"的路。

一、你不得不知道的AI模型成本難題

要理解這項研究，得先聊聊現在最流行的大模型架構——混合專家模型，英文叫Mixture-of-Experts，簡稱MoE。

普通的AI模型每次處理一個詞（或者說"token"），都要把模型里所有的"神經元"全部激活、全部計算一遍。這就像一家餐廳，不管客人點什麼，後廚所有廚師都要全員上陣，哪怕客人只要了一碗麵。混合專家模型則更聰明：它把模型拆分成很多個"專家模組"，每次只激活其中少數幾個最合適的專家來處理當前的詞。就像客人點了麵條，只有麵點師傅出來幹活，其他廚師可以先歇著。

這種做法的好處是顯而易見的：模型可以有海量的專家（意味著總體知識量很大），但每次計算只用幾個（意味著推理速度很快、成本很低）。當今世界上最強的開源大模型都採用了這種架構，比如DeepSeek-V3 亞馬遜AI團隊找到了讓大模型廉價擴容的秘密武器有6710億個參數，但每次處理一個詞只激活370億個；阿里巴巴的Qwen3有2350億個參數，激活量只有220億；最誇張的Kimi K2甚至擁有高達1萬億個參數，每次激活卻僅有320億。

問題來了：雖然每次計算只用少數專家，但這些專家的參數全部都要存在顯卡內存里，訓練時也都要計算梯度和優化器狀態。這意味著專家越多，訓練所需的顯卡數量和專家之間通信的開銷就越大。研究表明，專家間的數據傳輸甚至可以占掉總訓練時間的45%到50%。所以，訓一個專家很多的大MoE模型，代價極為高昂。

贊助商廣告

亞馬遜團隊面對的正是這樣的困境：你已經知道增加專家數量能顯著提升模型質量，但從頭訓練一個專家數量翻倍的模型，成本也幾乎翻倍。有沒有一種方法，能在不承擔全部訓練成本的前提下，獲得"大專家數量"帶來的質量提升呢？

二、從"分身術"到"真正的獨立專家"

亞馬遜團隊的解決思路，可以用中國功夫里的"分身術"來理解。

他們的方法分三步走，就像給那輛小排量的車做一次有計劃的改造升級。

第一步，先正常訓練一個有E個專家的MoE模型，讓它在大量數據上充分學習。這個階段就像培養一批有真本事的廚師，每個人都有紮實的基礎技能。

第二步，在訓練了τ步之後，執行"專家復用"操作：把現有的每個專家都複製一份（或者多份），讓專家總數從E擴展到mE（m是擴展倍數，比如2表示翻倍）。同時，負責"分配工作"的路由器也跟著擴展，新複製的專家槽位加上一點點微小的隨機噪聲。此刻，每個新專家和它的"原型"是完全一樣的，就像複印出來的一份一樣。這個擴展操作不改變每次計算激活的專家數量（top-K不變），所以推理成本完全不變。

第三步，在擴展後的大模型上繼續訓練T-τ步。由於加了噪聲，相同的輸入會以略微不同的方式路由到兩個"雙胞胎"專家那裡；它們接收到的數據不完全相同，計算出的梯度也不完全相同，於是開始朝著不同方向演化，逐漸"各有專精"，成為真正獨立的專家。

這個過程的核心優勢在於：擴展之後的大模型，它的"起點"損失（衡量模型當前表現的指標）只比原來的小模型略高一點點，而不是從零開始的隨機損失。打個比方，從頭訓練一個新的64位專家模型，剛開始時它什麼都不懂，損失值可以高達10.5。但通過專家復用擴展得到的64專家模型，由於繼承了32專家模型的所有知識，起點損失只有1.38，而原來的32專家模型本身是1.32。研究團隊將這一特性稱為"溫啟動"（warm initialization）——模型不是從冷冰冰的零起步，而是帶著滿滿的已有知識繼續學習。

贊助商廣告

三、省了多少錢？效果損失了多少？

說到這裡，關鍵問題來了：這麼做到底能省多少訓練成本？質量上又會有多大損失？

研究團隊用7B（70億）到13B（130億）總參數規模的實驗給出了明確答案。他們訓練了一個32專家的7B模型，用了380億個詞的數據。然後對比了三種方案：一直用32專家的小模型訓練完（這是下限）；從一開始就用64專家的13B模型訓練完（這是上限，也是標準方案）；以及用專家復用的方法，先訓32專家，然後擴展到64專家繼續訓練（這是他們的新方法）。

三種方案處理的總詞數相同。但從計算成本看，64專家模型每一步訓練都比32專家模型貴——研究中測量到大約是1.9倍的時間差。標準方案需要全程用64專家跑完所有步驟；專家復用方案則是前三分之二時間用便宜的32專家跑，後三分之一時間才切換到貴的64專家。算下來，專家復用總共只需要27888個GPU小時，而從頭訓練64專家模型需要41328個GPU小時，節省了約32%。

質量方面呢？在全量CPT（繼續預訓練）條件下，專家復用得到的模型在驗證集損失上是1.263，而從頭訓練的64專家模型是1.267——不僅沒有損失，反而略好一點點。在11個下游任務的綜合測試中，專家復用模型平均得分56.4分，從頭訓練的64專家模型是56.7分，差距微乎其微，遠超過32專家小模型的52.9分。在常識推理、語言理解等任務上（HellaSwag、PIQA、Social IQA等），專家復用模型甚至直接超過了從頭訓練的大模型。在需要更多專業知識的任務上（MMLU、BBH、GSM8K等），兩者也差距極小。

更誘人的是，如果你已經有一個訓練好的MoE模型（比如下載了某個開源模型），那訓練成本就可以按"沉沒成本"來算——你根本不需要重算前期訓練的代價，只需要承擔擴展後繼續訓練的部分。這樣算下來，相比從頭訓練大模型，節省的GPU小時高達約67%。

四、哪些"分身"更值得多複製幾份？

贊助商廣告

均勻複製是最簡單的做法：每個專家都複製同樣的份數。但亞馬遜團隊更進一步，提出了一種"看人下菜碟"的聰明策略——不是給所有專家平等的複製份數，而是優先多複製那些對模型"最重要"的專家。

怎麼判斷一個專家重不重要？研究團隊從結構化剪枝領域借來了一套工具：梯度（gradient）資訊。梯度可以理解為"損失值對每個參數的敏感程度"——如果某個專家的參數稍微一變，模型的損失就大幅波動，那說明這個專家在當前數據下極為關鍵，改動它的代價很大。

具體來說，他們用兩種評分方式：一種叫"梯度範數平方"，記為||g||?，衡量的是模型對該專家的參數多敏感；另一種叫"權重梯度顯著性"，記為||w||·||g||，同時考慮參數量級和梯度大小，相當於糾正了單純用梯度評分時可能對"參數值比較大的專家"有所偏差的問題。兩種方法都比均勻複製效果好，其中||g||?略勝一籌，是推薦的默認選項。

這個效果在CPT預算有限時尤為明顯。當繼續訓練的時間只有正常訓練的25%時，均勻複製只能彌合8.2%的質量差距（和從頭訓練的大模型相比），而基於梯度的智能複製能彌合26.5%的差距，效率直接提升了三倍多。

團隊還測試了另一類思路：與其選擇複製哪些專家，不如在複製的同時對新生成的"分身"做一些擾動，讓它們一開始就有所差異，比如加入隨機噪聲、重新初始化部分權重、做奇異值分解（SVD）後混合不同專家的成分等等。他們測試了10種專家級別的初始化策略和10種路由器級別的策略，結果發現幾乎沒有任何一種能夠明顯超過簡單的"直接複製"。原因在於：任何擾動都會拉高"分身"的初始損失，讓模型在訓練初期忙於"恢復狀態"而不是"學習新內容"。研究人員通過計算65組實驗結果的斯皮爾曼秩相關係數（一種衡量兩組排名是否一致的統計量），發現驗證損失排名的相關係數高達0.80——也就是說，誰在復用的第一刻損失越低，訓練結束時損失也越低。開局決定終局，溫啟動比人為製造多樣性更重要。

贊助商廣告

五、理論上，這件事為什麼能成功？

研究團隊不滿足於"做出來效果好就行"，他們還從數學上分析了這個方法成功的原因。

他們藉助在線凸優化（OCO）理論，把"專家復用模型與從頭訓練大模型之間的質量差距"分解成兩項之和。

第一項叫"容量差距"。這一項描述的是：在擴展之前，專家復用方案一直在用一個更小、容量更有限的模型學習，而從頭訓練的大模型從一開始就有更強的表達能力。在這段時間裡，小模型能學到的"最優損失"比大模型能達到的"最優損失"要高，差值就是容量差距。這一項始終是非負的——它在拖專家復用的後腿。好在，CPT訓練的時間越長，這一項的"權重"就越小，因為擴展後訓練的步驟越來越占總步驟的大頭。

第二項叫"初始化增益"。這一項描述的是：擴展之後，專家復用模型的新參數（也就是那些"分身"專家的參數）距離最優解有多近，相比於從頭訓練的大模型從隨機初始化開始有多遠。只要溫啟動的效果足夠好——也就是說，繼承來的參數比隨機初始化更接近最終最優解——這一項就是負數，幫專家復用拉分。

兩項加起來，如果初始化增益足夠大，把容量差距抵消掉，那專家復用就能和從頭訓練的大模型打個平手甚至更好。這個理論框架不僅解釋了"為什麼專家復用可行"，還給出了幾個可操作的預測：CPT時間越長，質量越接近大模型；擴展前的源模型訓練越充分，效果越好（但也不是越晚擴展越好，因為那會壓縮CPT的時間）；在已經是MoE的模型上做專家復用，比把密集模型變成MoE要效果好得多，因為前者的容量差距更小。這些預測都在後續實驗中得到了驗證。

六、什麼時候擴展最合適？需要繼續訓多久？

理論有了，實踐中還有兩個核心問題：第一，如果從頭訓練，什麼時候做擴展最合適？第二，如果已經有一個現成的模型，擴展後至少要繼續訓練多久才夠？

贊助商廣告

研究團隊在約10億總參數規模的中小型模型上做了細緻的消融實驗來回答這兩個問題。

關於擴展時機：在總訓練步數固定為10萬步的情況下，他們讓擴展發生在不同時間點——從5%時就擴展，到50%時才擴展。結果顯示，在5%到50%之間擴展，效果都相當好（效率在81%到100%之間，100%意味著完全追上了大模型的質量）。在12%到38%之間擴展，效率甚至能達到100%，完全不輸從頭訓練的大模型。唯一例外是5%這個極早期點，效果略差——因為此時模型見過的數據太少，專家們還沒來得及形成真正的專業化分工，溫啟動的優勢尚未建立起來。

關於繼續訓練時長：在擴展點固定、只改變擴展後CPT總量的實驗中，隨著CPT預算從10%增加到100%，效率從34.7%單調上升到98%。當CPT在50%以上時，效果開始明顯好轉；到100%時，幾乎完全追上了大模型的質量。這說明擴展後的繼續訓練是決定質量的關鍵瓶頸——充分的訓練時間給了所有"分身"專家足夠多的機會去發展各自的特化方向。

七、不同架構、不同規模都管用嗎？

亞馬遜團隊還測試了方法的通用性，驗證它在不同條件下是否穩健。

首先是架構差異。文中主要介紹了兩種架構：一種叫"交錯式MoE"，就是把MoE層和普通的密集層交替排列，類似Meta公司Llama 4所採用的方式，優點是通信開銷更低、每步訓練更快；另一種叫"全MoE"，每一層都是MoE層，類似DeepSeek-V3、GLM-4.5等前沿模型所採用的方式。在約10億參數規模的全MoE實驗中（256個專家，每次激活8個，激活比例約3%），從154M到1B不同大小的模型上，專家復用都實現了超過92%的質量追回，證明方法在不同架構下都同樣有效。

其次是激活比例的影響。研究團隊在一個8層交錯MoE上測試了從25%到3.13%四種激活比例，同時對比了另一種方法——"稀疏升級復用"（Sparse Upcycling，把密集模型變成MoE）。結果一目了然：專家復用在所有激活比例下都非常接近從頭訓練大模型的效果，而稀疏升級復用在所有情況下都達不到哪怕是小MoE模型的質量水平。而且，隨著激活比例越來越低（專家越來越多、越來越稀疏），兩種方法的差距越拉越大——在3.13%的極低激活比例下，兩者的驗證損失差距從0.026擴大到0.241，相差懸殊。原因正如理論所預測的：密集模型和MoE模型之間的"容量差距"太大，CPT根本無法在有限時間內彌合；而同是MoE的兩個模型之間，這個差距要小得多，完全可以彌合。

贊助商廣告

歸根結底，這項研究的核心發現可以用一句話來概括：不要從零開始造一輛新的跑車，把你現有的好車擴容升級一下，同樣的路程，少花三分之一的油錢，最終到達的地方幾乎一樣遠。

研究團隊在7B到13B參數的實驗中證明，這條路是通的，省的不是小錢，是32%的GPU小時，而且換來的模型質量和從頭訓練不分伯仲。當然，這項研究目前只在翻倍（m=2）擴展場景下得到了充分驗證，對於前沿的超大規模模型（如數千億參數）、更大的擴展倍數、或者預訓練和繼續訓練數據分布差異很大的場景，還有待進一步探索。研究團隊也坦誠地指出，在極端低激活比例的場景下，可以先用稀疏升級復用把密集模型變成中等規模的MoE，再反覆應用專家復用來逐步擴大專家數量——把"一次大跳"變成"多次小跳"，每次跳躍都保持較小的容量差距，讓每一步擴展都能高效地彌合。

如果你想深入了解數學推導、各種消融實驗的細節或模型架構配置，可以在arXiv上通過編號2604.19835查閱完整論文，研究團隊也已將代碼和訓練配置開放發布。

Q&A

Q1：專家復用方法和稀疏升級復用（Sparse Upcycling）有什麼本質區別？

A：稀疏升級復用是把一個普通的密集模型（每次計算所有參數）改造成MoE模型，是一種"架構切換"。專家復用則是在已經是MoE的模型內部增加專家數量，架構性質不變，只是專家更多了。實驗表明，稀疏升級復用因為跨越的"容量差距"太大，往往連源模型的質量都達不到；而專家復用由於源模型和目標模型同屬MoE架構，差距更小，可以有效彌合。

Q2：專家復用中的"溫啟動"為什麼這麼重要？

A：溫啟動的意思是，擴展後的大模型從一個接近原模型質量水平的位置開始繼續訓練，而不是從完全隨機的參數開始。實驗顯示，隨機初始化的64專家模型起始損失高達10.5，而專家復用得到的64專家模型起始損失只有1.38，幾乎和源模型的1.32持平。研究還發現，初始損失越低，最終訓練結束後的損失也越低，兩者的斯皮爾曼秩相關係數達到0.80，說明開局質量直接決定終局質量。

贊助商廣告

Q3：專家復用訓練完的模型推理成本會增加嗎？

A：不會。專家復用擴展了總參數量（從7B到13B），但每次處理一個詞時激活的專家數量（即top-K的K值）始終保持不變。推理成本只和激活的參數量有關，而激活量沒有變化，所以用戶使用這個更大模型時，響應速度和計算成本和小模型完全一樣。這正是該方法的核心優勢：用更多的總參數換來更好的"知識庫"，但不增加"每次查閱知識庫的費用"。