這項由阿里巴巴Qwen團隊與阿布達比人工智慧大學(MBZUAI)、阿卜杜拉國王科技大學(KAUST)聯合完成的研究,於2026年5月發布在預印本平台arXiv上,論文編號為arXiv:2605.08738v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當我們談到當今最強大的AI語言模型時,有一個無法迴避的現實:這些模型的運行代價極其高昂。以Qwen3-Next-80A3B這個模型為例,光是把它加載到內存里就需要超過156GB的顯存,相當於兩塊專業級顯卡全部塞滿。普通企業或個人開發者根本用不起。那麼,有沒有辦法讓這個"大塊頭"減減肥,同時又不損失太多"智慧"呢?
這正是這篇論文試圖回答的核心問題。研究團隊提出了一套名為SlimQwen的系統性方案,把Qwen3-Next-80A3B這個龐然大物壓縮成了只有原來約四分之一大小的23A2B模型,同時在一大堆測試題上保持了相當有競爭力的表現。整個過程就像是一次精心設計的減肥計劃,不是簡單地"餓肚子",而是通過科學的方法,去掉多餘的"脂肪"同時保留關鍵的"肌肉"。
為了讓讀者理解這篇論文講了什麼,不妨把整個過程比作一家大廚房訓練學徒廚師的過程。大模型是那位經驗豐富、無所不知的主廚,壓縮後的小模型則是要接替主廚工作的學徒。問題是:怎麼讓學徒在儘量短的時間內、用儘量少的資源,學到主廚最精華的廚藝?接下來就順著這個思路,一步一步拆解研究團隊的發現。
一、先搞清楚:大模型里的"專家團隊"是什麼?
要理解這篇研究,首先得知道這些大模型用的是一種叫做"混合專家"(Mixture-of-Experts,MoE)的結構。普通的AI模型在處理每一個問題時,會用到全部的"神經元",就像雇了100個員工,每次接一個訂單所有人都要動起來,非常耗資源。而MoE結構聰明得多——它把模型內部劃分成了很多"專家小組",每次處理問題時,只調用其中最合適的幾個專家,其他人待命就好。這就像一家大公司里有財務、法務、技術、市場等專業部門,來了一個法律諮詢的客戶,就只叫法務部的人出來接待,其他部門不用動。
Qwen3-Next-80A3B這個模型里,每個"處理單元"(MoE模組)包含了512個這樣的"專家",但每次處理一個詞語時,只激活其中的10個。整個模型有48層這樣的處理單元,還混合了兩種不同的"注意力機制"(可以理解為兩種不同的資訊提煉方式)。總參數量高達800億,但實際每次工作時激活的參數只有約38億,所以叫"80A3B"——80B總參數,3B激活參數。
壓縮的目標,是把這個龐然大物變成一個23B總參數、2B激活參數的精簡版本。
二、減肥的三把手術刀:深度、寬度、專家數量
研究團隊採用了三個維度的"手術"來精簡模型,就像給一棟大樓做改造:減少樓層(深度剪枝)、縮小每層的房間面積(寬度剪枝)、減少每層的工作人員數量(專家剪枝/合併)。
在樓層削減方面,團隊選擇了最直接的做法:直接去掉最後幾層。原來的48層削減到36層,去掉了12層(其中3層全注意力、9層線性注意力)。你可能覺得這很粗暴,但研究發現,相比另一種"先測量每兩層之間的相似度,再去掉最相似的中間層"的方法,直接去掉最後幾層的效果反而更好。背後的原因在於:中間層的資訊流如果被硬生生截斷,會打亂整個資訊傳遞鏈路;而最後幾層更像是在做"最終整理",去掉它們對核心能力的傷害相對較小,後續通過繼續訓練也更容易恢復。
在縮小房間面積方面,團隊把每一層的"隱藏維度"(可以理解為神經元之間傳遞資訊的通道寬度)從2048壓縮到了1536。這一步需要一些技巧:不能隨機刪減通道,而要先"診斷"哪些通道最不重要。團隊用一批樣本數據跑一遍模型,統計每個通道被激活的平均強度,保留那些最活躍的通道,刪掉那些"摸魚"的通道。
專家數量方面,每個MoE模組的512個專家被壓縮成256個,激活數量從10個減少到8個。關於如何選擇保留哪些專家、如何處理被刪掉的專家,這正是論文中最有原創性的貢獻之一,後面會專門講到。
三、一個關鍵問題:從零開始訓練,還是在"瘦身版"上接著練?
這裡有一個非常基礎但重要的問題:當我們確定了目標的小模型結構之後,是直接從隨機初始化的參數重新訓練一遍,還是把大模型剪裁之後直接在現有參數基礎上繼續訓練?
這就好比培養一個學徒廚師,有兩種方式:一是從頭招募一個零基礎的新人,從洗菜切菜開始教;二是把主廚自己的一些廚藝和經驗直接"灌輸"給學徒,然後再做補充訓練。
研究團隊用實驗給出了清晰的答案:在相同的訓練token數量(1200億個詞語)下,從剪枝後的參數出發繼續訓練的模型,在平均得分上達到了73.45分;而從隨機參數從零訓練的模型只有61.66分,差距高達11.79分。換句話說,剪枝初始化帶來的優勢是顯而易見的。更令人印象深刻的是,這個壓縮了3.4倍的模型,仍然能恢復到原始大模型82.68分的86.5%,而從零開始訓練的模型只能恢復到74.6%。
從訓練過程的損失曲線(可以理解為學習進度表)來看,剪枝初始化的模型從一開始就起點更高,收斂也更快,而隨機初始化的模型一直在"追趕",始終沒能趕上。這說明大模型里那些精心訓練出來的參數權重,即使經過裁剪,依然攜帶了大量有價值的"先驗知識",相當於學徒一開始就繼承了主廚多年積累的食譜和經驗。
四、512個專家縮減到256個:誰走誰留,有沒有高招?
接下來說說最有趣的部分:當要把每層的512個專家壓縮到256個時,怎麼決定哪些專家保留、哪些合併?研究團隊比較了多種方案。
第一類方案是直接"末位淘汰":統計每個專家被調用的頻率,或者統計帶權重的調用頻率(調用次數乘以路由分數),找出使用率最低的那批專家直接刪掉,剩下使用率高的原樣保留。
第二類方案是"融合合併":不直接刪除專家,而是把幾個相似的專家合併成一個,合併方式是按照重要性分數做加權平均,有點像把兩位廚師的拿手菜譜合二為一。
第三類方案來自一個叫做REAP的方法,它在統計調用頻率的同時,還考慮了專家實際輸出激活值的大小,更全面地衡量專家的"真實貢獻"。
一個非常出乎意料的發現是:在經歷了4000億個詞語的大規模繼續預訓練之後,所有這些方案之間的性能差異幾乎消失了。沒有哪種方案能在所有測試上都壓倒其他方案,有的方案在某項測試上領先,卻在另一項測試上落後。
這個發現背後的邏輯其實很好理解:一次性的粗粒度剪枝,不管用什麼標準選專家,都很難做到"完美"。但只要大方向沒錯、初始化質量過得去,經過足夠長時間的繼續訓練,模型就有能力自己修復這些粗糙的裁剪帶來的誤差。就像請了不同背景的廚師學徒,只要給足夠長時間的實踐訓練,最終做出的菜餚質量會趨於相似。
正是基於這個觀察,團隊提出了一個簡單但有效的新策略,叫做"部分保留合併策略"。這個策略的思路是:在目標保留的256個專家裡,先挑出最重要的前128個專家(占目標數量的一半),這些"精英專家"原封不動地保留下來,不做任何改動。然後再從剩餘的專家中選出另外128個作為"合併基礎",把其他被裁掉的專家,根據相似度分別合併進這128個基礎專家裡,合併時按重要性分數做加權平均。
這個策略解決了一個兩難困境:如果全部保留"精英專家"不做合併,那些被刪掉的"普通專家"所攜帶的資訊就完全丟失了;如果全部通過合併構造目標專家,那每個原始專家的獨特"個性"就會被稀釋,形成同質化的問題,導致模型的多樣性降低。保留一半、合併一半,在保護精華知識和整合次要知識之間取得了平衡。實驗結果也驗證了這個策略:相比單純保留精英專家不做合併,部分保留合併策略在MMLU、MMLU-Pro、GSM8K等主要測試上都有一致的提升。
五、學徒學藝的"秘籍":如何設計最有效的訓練目標?
確定了模型結構之後,下一個問題是:在繼續預訓練階段,用什麼樣的訓練目標最有效?
最基礎的訓練方式叫做"語言模型損失"(LM Loss),就是讓模型根據上文預測下一個詞,預測錯了就被糾正。這就像學徒邊看菜譜邊練習,自己摸索。
更進階的方式叫做"知識蒸餾"(Knowledge Distillation,KD),簡稱NTP KD(下一個詞預測蒸餾)。這裡不再只是告訴學徒"這道菜的答案是加鹽",而是讓主廚直接告訴學徒:"加鹽的概率是70%,加糖的概率是20%,加醋的概率是5%……"學徒不僅知道正確答案,還能感受到主廚對各種選擇的"偏好分布",學到更細膩的判斷力。
研究發現,把這兩種方式結合起來效果最好:純蒸餾(只看主廚的偏好分布,不看標準答案)雖然很好,但加入標準答案的LM Loss之後,在知識密集型測試如MMLU上表現更好。研究團隊的解釋是:純蒸餾可能讓模型過於依賴主廚的"口味偏好",而標準答案的約束能幫助模型更好地記住確定性知識。在實際訓練中,研究團隊讓蒸餾損失的權重從1.0線性衰減到0.75,就是說訓練初期更多聽主廚的,越到後期越多靠自己學。
在這個基礎上,研究團隊又提出了一個全新的創意:多詞預測蒸餾(MTP KD)。普通的訓練只讓模型預測"下一個詞",而多詞預測則讓模型同時預測"後面2個、3個、4個詞",使用的是附加在主模型旁邊的"多詞預測模組"(MTP Module)。每個MTP模組負責預測額外更遠的未來詞語。蒸餾的時候,這些MTP模組也被要求學習主廚模型對未來多個詞的概率分布,而不只是地面標註答案。
這個設計有兩重收益:一是讓模型"看得更遠",在訓練時就形成對更長上下文的感知,提升推理和生成質量;二是顯著提升了"推測解碼"(Speculative Decoding)的效率。推測解碼是一種加速推理的技術——用一個小模型快速生成候選詞序列,再用大模型驗證,如果小模型猜對了多個詞,就等於大模型一次處理了多個詞,速度大幅提升。MTP模組天然就是很好的"草稿生成器"。
實驗數據顯示,加入MTP KD之後,在HumanEval代碼測試上,一次性生成5個詞都被接受的概率從4.09%暴增到8.24%,相當於翻了一倍;在GSM8K數學測試上,從2.37%增加到了10.37%,增長了超過4倍。這意味著模型在推測解碼場景下能更高效地批量生成文本,實際使用時的吞吐量顯著提升。在經過指令微調(SFT)之後,MTP KD的效果同樣持續,在RepoQA代碼理解、MTBench對話評測、SpecBench推測解碼專項測試上都有持續提升。
六、急不得的哲學:一步到位好還是循序漸進好?
到目前為止,前面所有討論的都是"一步到位"的壓縮方案——直接把80A3B的大模型一次性剪成23A2B,然後在這個剪好的結構上繼續訓練。研究團隊把這叫做"一階段壓縮"。
但他們進一步想:能不能更溫和一些,先從80A3B剪到一個中間大小,訓練一段時間,再從中間大小剪到最終的23A2B,繼續訓練完成?這就是"漸進式剪枝"的思路。
可以用學習廚藝來類比:從一個五星主廚跨越到初級學徒,中間的落差太大,一步到位會讓學徒無所適從。但如果先讓學徒在一家中級餐廳工作一段時間,積累了基礎能力,再過渡到初級崗位,就會順暢得多。
研究團隊設計了三種漸進方案,總訓練量固定在4000億個詞語(第一階段400億,第二階段3600億)。三種方案的差別在於第一階段先壓縮哪個維度:
"深度優先"方案:先減少樓層(先去掉一部分層數),第二階段再同時完成剩餘層數削減和寬度壓縮。"寬度優先"方案:先縮小房間(先減少隱藏維度),第二階段再完成剩餘寬度壓縮和深度削減。"聯合"方案:第一階段同時削減一半的層數和一半的寬度,第二階段完成剩餘部分。
結果清晰地表明:三種漸進方案全部優於一階段直接壓縮的方案。一階段方案在MMLU上得75.86分,而深度優先漸進方案達到了77.39分,寬度優先方案77.14分,聯合方案76.30分。MMLU-Redux測試的提升更為明顯,從75.41分提升到了78.01分(深度優先)和77.07分(寬度優先)。
在三種漸進方案中,深度優先的整體表現最均衡,研究團隊將這個方案定為SlimQwen的正式版本。不過需要指出的是,各方案各有所長:寬度優先在BBH推理測試上以75.22分領先,深度優先在MMLU、MMLU-Redux和CMMLU上更占優勢。
研究團隊還測試了更細粒度的三階段方案(先20B tokens,再20B tokens,再360B tokens),但發現性能與兩階段方案相比並沒有顯著提升,說明兩階段的漸進壓縮已經足夠,再細分帶來的邊際效益趨近於零。
七、最終成績單:壓縮四倍後的SlimQwen表現如何?
把所有這些技術疊加在一起——深度優先漸進式壓縮加上知識蒸餾和MTP蒸餾——最終的SlimQwen-23A2B在各項測試上的表現令人滿意。在內存占用方面,SlimQwen只需要43.3GB顯存,而原始模型需要156.56GB,節省了超過72%。在推理速度方面,使用HuggingFace框架時,解碼吞吐量從每秒4.05個詞提升到6.55個詞;使用更專業的vLLM推理框架時,吞吐量從每秒142.58個詞提升到210.87個詞。前綴處理速度在vLLM下從0.08秒降至0.06秒。最重要的是,由於體積足夠小,SlimQwen可以在單張80GB顯卡上獨立運行,不再需要多卡並行,部署成本大幅降低。
在知識類測試MMLU上,SlimQwen達到了77.39分,中文知識測試CMMLU達到83.01分,代碼能力EvalPlus達到69.08分,數學能力GSM-8K達到85.82分,對比原始大模型的82.68分平均水平,確實有所降低,但考慮到模型縮小了四倍,這個成績已經相當有競爭力。
這項研究的意義,不只是發布了一個具體的小模型,更在於它系統性地回答了"如何高效壓縮MoE大模型"這個工程問題,給出了可復現的操作指南:用剪枝初始化而非隨機初始化,用部分保留合併而非純粹的精英保留,用蒸餾加LM Loss的混合目標,加上MTP蒸餾提升長程預測能力,再配合漸進式壓縮策略而非一步到位。
說到底,這項研究做的事情,是在"更高效使用AI"這個大方向上邁出了紮實的一步。大模型的能力固然重要,但如果運行一個模型需要消耗整棟數據中心的資源,那它對大多數人來說就只是個遙不可及的存在。讓強大的AI以更低的代價運行,是推動AI真正普惠化的必要條件。
這個研究還留下了一些開放性的問題值得思考:部分保留合併策略中"保留一半"的選擇是基於直覺和實驗驗證的,但理論上最優的比例是多少?在不同規模的模型上,這個比例會變化嗎?漸進式壓縮的每個階段應該分配多少訓練token?當模型規模繼續擴大到萬億參數量級時,這些結論還能成立嗎?這些都是後續研究可以深入探索的方向。
有興趣深入了解完整技術細節的讀者,可以通過arXiv論文編號2605.08738查閱原文,英文版本包含了詳盡的算法偽代碼、完整實驗結果和更多消融實驗分析。
Q&A
Q1:混合專家模型(MoE)壓縮和普通AI模型壓縮有什麼不同?
A:混合專家模型除了常規的減少層數、縮小寬度兩個壓縮維度之外,還多了一個獨特的"專家數量"維度。普通模型里所有神經元每次都要工作,而MoE模型里只有少數"專家"會被激活。這意味著壓縮時不僅要考慮刪哪些層、縮多少寬度,還要決定512個專家裡保留哪些、刪掉哪些、怎麼合併,技術難度更高,也有更多可以探索的策略空間。
Q2:SlimQwen的部分保留合併策略為什麼保留一半而不是其他比例?
A:研究團隊解釋,這是一個兼顧兩種風險的平衡選擇。如果保留太少的精英專家不做合併,大量被刪掉的專家所攜帶的知識就徹底丟失了;如果全部通過合併構造目標專家,原始每個專家的獨特專業化特徵會被稀釋,導致合併後的專家彼此過於相似,降低模型多樣性。保留一半是一個直覺上對稱且在實驗中效果穩健的設計,論文也承認更精確的最優比例還有待進一步研究。
Q3:多詞預測蒸餾(MTP KD)為什麼能提升推測解碼的速度?
A:推測解碼的核心邏輯是用一個小模型快速"猜"出後面幾個詞,再讓大模型一次性驗證這些猜測是否正確。如果小模型猜對了3個詞,大模型一次處理就相當於生成了3個詞,效率翻倍。多詞預測模組天然就是為預測未來多個詞而設計的,經過MTP蒸餾之後,這些模組的預測和大模型的偏好高度對齊,猜對的概率大幅提升,所以推測解碼的接受率顯著提高,實際生成速度也就隨之提升。






