阿里巴巴Qwen團隊揭秘：如何把一個800億參數的AI大模型"瘦身"到原來的四分之一卻幾乎不掉智商？

這項由阿里巴巴Qwen團隊與阿布達比人工智慧大學（MBZUAI）、阿卜杜拉國王科技大學（KAUST）聯合完成的研究，於2026年5月發布在預印本平台arXiv上，論文編號為arXiv:2605.08738v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

當我們談到當今最強大的AI語言模型時，有一個無法迴避的現實：這些模型的運行代價極其高昂。以Qwen3-Next-80A3B這個模型為例，光是把它加載到內存里就需要超過156GB的顯存，相當於兩塊專業級顯卡全部塞滿。普通企業或個人開發者根本用不起。那麼，有沒有辦法讓這個"大塊頭"減減肥，同時又不損失太多"智慧"呢？

這正是這篇論文試圖回答的核心問題。研究團隊提出了一套名為SlimQwen的系統性方案，把Qwen3-Next-80A3B這個龐然大物壓縮成了只有原來約四分之一大小的23A2B模型，同時在一大堆測試題上保持了相當有競爭力的表現。整個過程就像是一次精心設計的減肥計劃，不是簡單地"餓肚子"，而是通過科學的方法，去掉多餘的"脂肪"同時保留關鍵的"肌肉"。

為了讓讀者理解這篇論文講了什麼，不妨把整個過程比作一家大廚房訓練學徒廚師的過程。大模型是那位經驗豐富、無所不知的主廚，壓縮後的小模型則是要接替主廚工作的學徒。問題是：怎麼讓學徒在儘量短的時間內、用儘量少的資源，學到主廚最精華的廚藝？接下來就順著這個思路，一步一步拆解研究團隊的發現。

一、先搞清楚：大模型里的"專家團隊"是什麼？

要理解這篇研究，首先得知道這些大模型用的是一種叫做"混合專家"（Mixture-of-Experts，MoE）的結構。普通的AI模型在處理每一個問題時，會用到全部的"神經元"，就像雇了100個員工，每次接一個訂單所有人都要動起來，非常耗資源。而MoE結構聰明得多——它把模型內部劃分成了很多"專家小組"，每次處理問題時，只調用其中最合適的幾個專家，其他人待命就好。這就像一家大公司里有財務、法務、技術、市場等專業部門，來了一個法律諮詢的客戶，就只叫法務部的人出來接待，其他部門不用動。

贊助商廣告

Qwen3-Next-80A3B這個模型里，每個"處理單元"（MoE模組）包含了512個這樣的"專家"，但每次處理一個詞語時，只激活其中的10個。整個模型有48層這樣的處理單元，還混合了兩種不同的"注意力機制"（可以理解為兩種不同的資訊提煉方式）。總參數量高達800億，但實際每次工作時激活的參數只有約38億，所以叫"80A3B"——80B總參數，3B激活參數。

壓縮的目標，是把這個龐然大物變成一個23B總參數、2B激活參數的精簡版本。

二、減肥的三把手術刀：深度、寬度、專家數量

研究團隊採用了三個維度的"手術"來精簡模型，就像給一棟大樓做改造：減少樓層（深度剪枝）、縮小每層的房間面積（寬度剪枝）、減少每層的工作人員數量（專家剪枝/合併）。

在樓層削減方面，團隊選擇了最直接的做法：直接去掉最後幾層。原來的48層削減到36層，去掉了12層（其中3層全注意力、9層線性注意力）。你可能覺得這很粗暴，但研究發現，相比另一種"先測量每兩層之間的相似度，再去掉最相似的中間層"的方法，直接去掉最後幾層的效果反而更好。背後的原因在於：中間層的資訊流如果被硬生生截斷，會打亂整個資訊傳遞鏈路；而最後幾層更像是在做"最終整理"，去掉它們對核心能力的傷害相對較小，後續通過繼續訓練也更容易恢復。

在縮小房間面積方面，團隊把每一層的"隱藏維度"（可以理解為神經元之間傳遞資訊的通道寬度）從2048壓縮到了1536。這一步需要一些技巧：不能隨機刪減通道，而要先"診斷"哪些通道最不重要。團隊用一批樣本數據跑一遍模型，統計每個通道被激活的平均強度，保留那些最活躍的通道，刪掉那些"摸魚"的通道。

專家數量方面，每個MoE模組的512個專家被壓縮成256個，激活數量從10個減少到8個。關於如何選擇保留哪些專家、如何處理被刪掉的專家，這正是論文中最有原創性的貢獻之一，後面會專門講到。

贊助商廣告

三、一個關鍵問題：從零開始訓練，還是在"瘦身版"上接著練？

這裡有一個非常基礎但重要的問題：當我們確定了目標的小模型結構之後，是直接從隨機初始化的參數重新訓練一遍，還是把大模型剪裁之後直接在現有參數基礎上繼續訓練？

這就好比培養一個學徒廚師，有兩種方式：一是從頭招募一個零基礎的新人，從洗菜切菜開始教；二是把主廚自己的一些廚藝和經驗直接"灌輸"給學徒，然後再做補充訓練。

研究團隊用實驗給出了清晰的答案：在相同的訓練token數量（1200億個詞語）下，從剪枝後的參數出發繼續訓練的模型，在平均得分上達到了73.45分；而從隨機參數從零訓練的模型只有61.66分，差距高達11.79分。換句話說，剪枝初始化帶來的優勢是顯而易見的。更令人印象深刻的是，這個壓縮了3.4倍的模型，仍然能恢復到原始大模型82.68分的86.5%，而從零開始訓練的模型只能恢復到74.6%。

從訓練過程的損失曲線（可以理解為學習進度表）來看，剪枝初始化的模型從一開始就起點更高，收斂也更快，而隨機初始化的模型一直在"追趕"，始終沒能趕上。這說明大模型里那些精心訓練出來的參數權重，即使經過裁剪，依然攜帶了大量有價值的"先驗知識"，相當於學徒一開始就繼承了主廚多年積累的食譜和經驗。

四、512個專家縮減到256個：誰走誰留，有沒有高招？

接下來說說最有趣的部分：當要把每層的512個專家壓縮到256個時，怎麼決定哪些專家保留、哪些合併？研究團隊比較了多種方案。

第一類方案是直接"末位淘汰"：統計每個專家被調用的頻率，或者統計帶權重的調用頻率（調用次數乘以路由分數），找出使用率最低的那批專家直接刪掉，剩下使用率高的原樣保留。

第二類方案是"融合合併"：不直接刪除專家，而是把幾個相似的專家合併成一個，合併方式是按照重要性分數做加權平均，有點像把兩位廚師的拿手菜譜合二為一。

贊助商廣告

第三類方案來自一個叫做REAP的方法，它在統計調用頻率的同時，還考慮了專家實際輸出激活值的大小，更全面地衡量專家的"真實貢獻"。

一個非常出乎意料的發現是：在經歷了4000億個詞語的大規模繼續預訓練之後，所有這些方案之間的性能差異幾乎消失了。沒有哪種方案能在所有測試上都壓倒其他方案，有的方案在某項測試上領先，卻在另一項測試上落後。

這個發現背後的邏輯其實很好理解：一次性的粗粒度剪枝，不管用什麼標準選專家，都很難做到"完美"。但只要大方向沒錯、初始化質量過得去，經過足夠長時間的繼續訓練，模型就有能力自己修復這些粗糙的裁剪帶來的誤差。就像請了不同背景的廚師學徒，只要給足夠長時間的實踐訓練，最終做出的菜餚質量會趨於相似。

正是基於這個觀察，團隊提出了一個簡單但有效的新策略，叫做"部分保留合併策略"。這個策略的思路是：在目標保留的256個專家裡，先挑出最重要的前128個專家（占目標數量的一半），這些"精英專家"原封不動地保留下來，不做任何改動。然後再從剩餘的專家中選出另外128個作為"合併基礎"，把其他被裁掉的專家，根據相似度分別合併進這128個基礎專家裡，合併時按重要性分數做加權平均。

這個策略解決了一個兩難困境：如果全部保留"精英專家"不做合併，那些被刪掉的"普通專家"所攜帶的資訊就完全丟失了；如果全部通過合併構造目標專家，那每個原始專家的獨特"個性"就會被稀釋，形成同質化的問題，導致模型的多樣性降低。保留一半、合併一半，在保護精華知識和整合次要知識之間取得了平衡。實驗結果也驗證了這個策略：相比單純保留精英專家不做合併，部分保留合併策略在MMLU、MMLU-Pro、GSM8K等主要測試上都有一致的提升。

五、學徒學藝的"秘籍"：如何設計最有效的訓練目標？

確定了模型結構之後，下一個問題是：在繼續預訓練階段，用什麼樣的訓練目標最有效？

贊助商廣告

最基礎的訓練方式叫做"語言模型損失"（LM Loss），就是讓模型根據上文預測下一個詞，預測錯了就被糾正。這就像學徒邊看菜譜邊練習，自己摸索。

更進階的方式叫做"知識蒸餾"（Knowledge Distillation，KD），簡稱NTP KD（下一個詞預測蒸餾）。這裡不再只是告訴學徒"這道菜的答案是加鹽"，而是讓主廚直接告訴學徒："加鹽的概率是70%，加糖的概率是20%，加醋的概率是5%……"學徒不僅知道正確答案，還能感受到主廚對各種選擇的"偏好分布"，學到更細膩的判斷力。

研究發現，把這兩種方式結合起來效果最好：純蒸餾（只看主廚的偏好分布，不看標準答案）雖然很好，但加入標準答案的LM Loss之後，在知識密集型測試如MMLU上表現更好。研究團隊的解釋是：純蒸餾可能讓模型過於依賴主廚的"口味偏好"，而標準答案的約束能幫助模型更好地記住確定性知識。在實際訓練中，研究團隊讓蒸餾損失的權重從1.0線性衰減到0.75，就是說訓練初期更多聽主廚的，越到後期越多靠自己學。

在這個基礎上，研究團隊又提出了一個全新的創意：多詞預測蒸餾（MTP KD）。普通的訓練只讓模型預測"下一個詞"，而多詞預測則讓模型同時預測"後面2個、3個、4個詞"，使用的是附加在主模型旁邊的"多詞預測模組"（MTP Module）。每個MTP模組負責預測額外更遠的未來詞語。蒸餾的時候，這些MTP模組也被要求學習主廚模型對未來多個詞的概率分布，而不只是地面標註答案。

這個設計有兩重收益：一是讓模型"看得更遠"，在訓練時就形成對更長上下文的感知，提升推理和生成質量；二是顯著提升了"推測解碼"（Speculative Decoding）的效率。推測解碼是一種加速推理的技術——用一個小模型快速生成候選詞序列，再用大模型驗證，如果小模型猜對了多個詞，就等於大模型一次處理了多個詞，速度大幅提升。MTP模組天然就是很好的"草稿生成器"。

贊助商廣告

實驗數據顯示，加入MTP KD之後，在HumanEval代碼測試上，一次性生成5個詞都被接受的概率從4.09%暴增到8.24%，相當於翻了一倍；在GSM8K數學測試上，從2.37%增加到了10.37%，增長了超過4倍。這意味著模型在推測解碼場景下能更高效地批量生成文本，實際使用時的吞吐量顯著提升。在經過指令微調（SFT）之後，MTP KD的效果同樣持續，在RepoQA代碼理解、MTBench對話評測、SpecBench推測解碼專項測試上都有持續提升。

六、急不得的哲學：一步到位好還是循序漸進好？

到目前為止，前面所有討論的都是"一步到位"的壓縮方案——直接把80A3B的大模型一次性剪成23A2B，然後在這個剪好的結構上繼續訓練。研究團隊把這叫做"一階段壓縮"。

但他們進一步想：能不能更溫和一些，先從80A3B剪到一個中間大小，訓練一段時間，再從中間大小剪到最終的23A2B，繼續訓練完成？這就是"漸進式剪枝"的思路。

可以用學習廚藝來類比：從一個五星主廚跨越到初級學徒，中間的落差太大，一步到位會讓學徒無所適從。但如果先讓學徒在一家中級餐廳工作一段時間，積累了基礎能力，再過渡到初級崗位，就會順暢得多。

研究團隊設計了三種漸進方案，總訓練量固定在4000億個詞語（第一階段400億，第二階段3600億）。三種方案的差別在於第一階段先壓縮哪個維度：

"深度優先"方案：先減少樓層（先去掉一部分層數），第二階段再同時完成剩餘層數削減和寬度壓縮。"寬度優先"方案：先縮小房間（先減少隱藏維度），第二階段再完成剩餘寬度壓縮和深度削減。"聯合"方案：第一階段同時削減一半的層數和一半的寬度，第二階段完成剩餘部分。

結果清晰地表明：三種漸進方案全部優於一階段直接壓縮的方案。一階段方案在MMLU上得75.86分，而深度優先漸進方案達到了77.39分，寬度優先方案77.14分，聯合方案76.30分。MMLU-Redux測試的提升更為明顯，從75.41分提升到了78.01分（深度優先）和77.07分（寬度優先）。

贊助商廣告

在三種漸進方案中，深度優先的整體表現最均衡，研究團隊將這個方案定為SlimQwen的正式版本。不過需要指出的是，各方案各有所長：寬度優先在BBH推理測試上以75.22分領先，深度優先在MMLU、MMLU-Redux和CMMLU上更占優勢。

研究團隊還測試了更細粒度的三階段方案（先20B tokens，再20B tokens，再360B tokens），但發現性能與兩階段方案相比並沒有顯著提升，說明兩階段的漸進壓縮已經足夠，再細分帶來的邊際效益趨近於零。

七、最終成績單：壓縮四倍後的SlimQwen表現如何？

把所有這些技術疊加在一起——深度優先漸進式壓縮加上知識蒸餾和MTP蒸餾——最終的SlimQwen-23A2B在各項測試上的表現令人滿意。在內存占用方面，SlimQwen只需要43.3GB顯存，而原始模型需要156.56GB，節省了超過72%。在推理速度方面，使用HuggingFace框架時，解碼吞吐量從每秒4.05個詞提升到6.55個詞；使用更專業的vLLM推理框架時，吞吐量從每秒142.58個詞提升到210.87個詞。前綴處理速度在vLLM下從0.08秒降至0.06秒。最重要的是，由於體積足夠小，SlimQwen可以在單張80GB顯卡上獨立運行，不再需要多卡並行，部署成本大幅降低。

在知識類測試MMLU上，SlimQwen達到了77.39分，中文知識測試CMMLU達到83.01分，代碼能力EvalPlus達到69.08分，數學能力GSM-8K達到85.82分，對比原始大模型的82.68分平均水平，確實有所降低，但考慮到模型縮小了四倍，這個成績已經相當有競爭力。

這項研究的意義，不只是發布了一個具體的小模型，更在於它系統性地回答了"如何高效壓縮MoE大模型"這個工程問題，給出了可復現的操作指南：用剪枝初始化而非隨機初始化，用部分保留合併而非純粹的精英保留，用蒸餾加LM Loss的混合目標，加上MTP蒸餾提升長程預測能力，再配合漸進式壓縮策略而非一步到位。

說到底，這項研究做的事情，是在"更高效使用AI"這個大方向上邁出了紮實的一步。大模型的能力固然重要，但如果運行一個模型需要消耗整棟數據中心的資源，那它對大多數人來說就只是個遙不可及的存在。讓強大的AI以更低的代價運行，是推動AI真正普惠化的必要條件。

贊助商廣告

這個研究還留下了一些開放性的問題值得思考：部分保留合併策略中"保留一半"的選擇是基於直覺和實驗驗證的，但理論上最優的比例是多少？在不同規模的模型上，這個比例會變化嗎？漸進式壓縮的每個階段應該分配多少訓練token？當模型規模繼續擴大到萬億參數量級時，這些結論還能成立嗎？這些都是後續研究可以深入探索的方向。

有興趣深入了解完整技術細節的讀者，可以通過arXiv論文編號2605.08738查閱原文，英文版本包含了詳盡的算法偽代碼、完整實驗結果和更多消融實驗分析。

Q&A

Q1：混合專家模型（MoE）壓縮和普通AI模型壓縮有什麼不同？

A：混合專家模型除了常規的減少層數、縮小寬度兩個壓縮維度之外，還多了一個獨特的"專家數量"維度。普通模型里所有神經元每次都要工作，而MoE模型里只有少數"專家"會被激活。這意味著壓縮時不僅要考慮刪哪些層、縮多少寬度，還要決定512個專家裡保留哪些、刪掉哪些、怎麼合併，技術難度更高，也有更多可以探索的策略空間。

Q2：SlimQwen的部分保留合併策略為什麼保留一半而不是其他比例？

A：研究團隊解釋，這是一個兼顧兩種風險的平衡選擇。如果保留太少的精英專家不做合併，大量被刪掉的專家所攜帶的知識就徹底丟失了；如果全部通過合併構造目標專家，原始每個專家的獨特專業化特徵會被稀釋，導致合併後的專家彼此過於相似，降低模型多樣性。保留一半是一個直覺上對稱且在實驗中效果穩健的設計，論文也承認更精確的最優比例還有待進一步研究。

Q3：多詞預測蒸餾（MTP KD）為什麼能提升推測解碼的速度？

A：推測解碼的核心邏輯是用一個小模型快速"猜"出後面幾個詞，再讓大模型一次性驗證這些猜測是否正確。如果小模型猜對了3個詞，大模型一次處理就相當於生成了3個詞，效率翻倍。多詞預測模組天然就是為預測未來多個詞而設計的，經過MTP蒸餾之後，這些模組的預測和大模型的偏好高度對齊，猜對的概率大幅提升，所以推測解碼的接受率顯著提高，實際生成速度也就隨之提升。

贊助商廣告