把「大腦」從稀疏網路里蒸餾出來：KRAFTON研究團隊找到了把龐大AI專家團隊壓縮進一張晶片的方法

這項由韓國遊戲與科技公司KRAFTON旗下AI研究部門與韓國科學技術院（KAIST）聯合開展的研究，於2026年6月以預印本形式發布，論文編號為arXiv:2605.28207。感興趣的讀者可通過該編號在arXiv平台檢索完整論文。

贊助商廣告

**一、為什麼大模型越來越難"搬進口袋"**

當你在手機上和AI助手聊天，或者讓電腦幫你寫一段代碼時，背後運行的往往是規模龐大的語言模型。這些模型像是由成千上萬位"專家"組成的超級智庫——每當輸入一個問題，模型會先把問題分發給其中幾位最合適的專家，再把他們的意見匯總成答案。這種結構在學術界叫做"混合專家模型"（Mixture-of-Experts，簡稱MoE），是目前全球最頂尖AI產品背後的主流架構，DeepSeek 把大腦從稀疏網路里蒸餾出來KRAFTON研究團隊找到了把龐大AI專家團隊壓縮進一張晶片的方法、Meta的Llama、阿里的Qwen等大模型都採用了類似設計。

MoE架構的妙處在於，處理每個問題時只需動用一小部分專家，計算量因此大幅下降。然而，這裡藏著一個根本性的麻煩：雖然每次只用幾位專家，但所有專家的"檔案"必須同時存放在內存里——就像一家公司雖然某天只安排8位員工上班，卻必須為全部128位員工準備辦公桌和儲物櫃一樣。對於內存有限的設備，比如手機、個人電腦或單塊顯卡，這種要求幾乎無法滿足。

正因如此，許多公司會額外訓練一批更小巧的"緊湊型模型"供普通用戶使用。但這些小模型要麼從零開始訓練，要麼從另一個已經訓練好的大型稠密模型（也就是"所有專家隨時待命"的傳統結構）修剪而來，整個過程耗資巨大，而且完全沒有利用現成MoE大模型里已經積累的知識。

KRAFTON的研究團隊發現了一個更聰明的路徑：既然MoE模型本身就很強，為什麼不直接從它身上"蒸餾"出一個輕便的稠密模型？這就是這篇論文的核心出發點。

**二、把128位專家團隊壓縮成8人精銳小隊的思路**

研究團隊把整個轉換過程比作組建一支精銳特戰隊。原始MoE模型每層有128位專家，每次處理資訊時調用其中8位。目標是把這128位專家裡最有價值、最互補的8位保留下來，拼接成一個新的"全能戰士"——也就是普通的稠密前饋網路（Dense FFN）。

贊助商廣告

整個流程分三步走。第一步是"海選"：給每位專家打一個重要性分數，然後按照某種策略從128人里挑出最優秀的若干人（這個人數用字母K表示，K可以等於8，也可以更多）。如果K等於8，每人單獨代表一個席位，直接進隊；如果K大於8，就先把入選者分成8個小組，每組內部通過加權平均合併成一個代表。第二步是"拼接"：把8個席位的權重矩陣首尾相連，構成一個完整的大型稠密網路，同時對每個席位的輸出權重做適當縮放，補償原來路由器動態分配權重時產生的差異。第三步是"深造"：用原始MoE模型作為老師，讓新組建的稠密模型對著老師的輸出不斷學習，彌補拼接過程中不可避免的資訊損失。這種"老師教學生"的過程在技術上叫做知識蒸餾。

值得關注的是架構尺寸的匹配關係。Qwen3-30B-A3B這款主力測試模型總參數達300億，但每次只激活約30億參數。研究團隊的目標就是把它轉換成一個參數量同樣在33億左右的稠密模型，在保持參數體量相當的前提下，讓後者不再需要把300億參數的"全員檔案"都塞進內存。

**三、怎麼給專家評分才算公平——七種方法的較量**

給128位專家評分聽起來簡單，實則大有講究。評分方式直接決定了哪些專家能入選精銳小隊，錯誤的選擇會讓最終模型能力大打折扣。研究團隊系統測試了七種評分方法，分成三個層次來理解。

最直觀的一類評分叫做"頻率系評分"，包括三種具體變體：選擇頻率（SF）、預選擇概率（PP）和後選擇概率（PS）。這類方法的邏輯是：誰被調用得最多，誰就最重要。可以類比為，在一家公司里根據員工被請去參加會議的次數來判斷誰最有價值。然而，這種思路存在明顯盲區——被頻繁召喚的往往是"萬金油"型員工，什麼會議都參加，卻不一定有專精能力；而那些只在關鍵時刻出馬、一出手就解決大問題的專家，因為出場次數少，反而被低估了。實驗結果印證了這一點：三種頻率系方法選出的專家幾乎完全重疊，彼此高度相似，平均準確率只有約37%。

贊助商廣告

第二類是"置信度評分"（CP），它的邏輯轉變為：不看出場次數，只看路由器對某位專家有多"篤定"。當路由器把任務派給某位專家時，給出的置信分有高有低；CP只統計在專家真正被選中的那些場合下，路由器平均給出了多高的置信分。這就好比評判一位醫生時，不看他接診了多少普通感冒患者，而是看他在接診疑難雜症時的把握程度。切換到CP評分後，選出的專家陣容與頻率系方法幾乎沒有重疊，模型準確率一躍跳升到約40%，足足高出3個百分點。

在此基礎上還可以進一步細化，把置信度和輸出幅度結合起來，形成"激活加權條件概率"（ACP）——除了看路由器有多篤定，還要看這位專家被調用時實際輸出了多強的信號。一位醫生既要有把握，還要真能救人，兩者缺一不可。ACP比純CP再提升約0.5個百分點。

**四、多樣性才是真正的秘密武器——D-Optimal方法的誕生**

然而，即便ACP已經比頻率評分強很多，研究團隊發現它仍有一個致命弱點：它只是獨立地評判每位專家，完全沒有考慮專家之間的重疊程度。以ACP選出的8位專家為例，很可能其中好幾位處理問題的方式極為相似，相當於組建了一支由8個擅長數學的人組成的隊伍，卻沒有歷史學家、語言學家或工程師。這樣的團隊在數學題上無敵，在其他領域卻一片空白。

為了解決這個問題，研究團隊引入了一個來自經典實驗設計領域的數學工具，叫做"D-最優設計"（D-Optimal Design）。這個工具的核心思想是：在選人時，不僅要看每個人自身的能力，還要讓團隊整體所能覆蓋的"能力空間"儘可能大。用線性代數的語言來說，就是最大化所選專家輸出向量構成的矩陣的行列式的對數（log-determinant）。

不需要理解那些數學細節，只需知道這個方法做了一件直覺上非常合理的事：當候選人A和候選人B的能力高度重疊時，即便B的個人得分也很高，這個方法也會傾向於把B換成一個能力更獨特的候選人C，哪怕C的個人得分稍低。套用"特戰隊"的比喻：與其招募兩位神槍手，不如招募一位神槍手加上一位爆破專家——整體戰鬥力會更強。

贊助商廣告

把這種多樣性篩選分別與CP和ACP組合，就形成了DO-CP和DO-ACP兩種方法。實驗數據顯示，與純ACP相比，DO-ACP進一步提升約2個百分點，在所有35種評分與分組的組合中名列第一，平均準確率達到42.6%。從最差的PP方法（約36.9%）到最好的DO-ACP，總差距高達5.7個百分點——這在AI模型評測中是非常顯著的差距，相當於模型從"勉強及格"躍升到"表現不俗"。

研究團隊還從理論層面證明了這一設計的合理性。他們構造了一個具體的反例，證明單純按照ACP分數獨立排名選人，在某些情況下會導致重建誤差永遠無法消除；而基於行列式最大化的方法則能在相同情況下實現零誤差。此外，他們還證明了這種貪心選擇算法在數學上具有"次模函數"性質，保證了貪心策略能達到最優解的至少（1-1/e）約63%的質量——這是有理論保障的近似最優解，而非純粹經驗之談。

**五、分組方式影響幾何，八種拼接路徑誰更優**

選好了人之後，還需要決定怎麼把他們分成8個小組（當K大於8時），以及每個小組內部怎麼合併。研究團隊測試了五種分組策略：循環輪轉（RR）、權重聚類（WC）、路由向量聚類（RC）、錨點分配（AB）和輸出聚類（OC）。

循環輪轉的做法最簡單，把按分數排好序的專家一個接一個地輪流分配到各組，確保每組都有高分和低分的專家混合。權重聚類則是把專家的權重矩陣展開成一個超長向量，用相似度來決定誰和誰更"像"，把相似的人分到一組。路由向量聚類關注的是路由器給每位專家分配的"標籤向量"，相似標籤意味著類似的功能定位。錨點分配先選出8個最高分專家作為"錨點"，剩餘專家按路由相似度各自投靠最近的錨點。輸出聚類則是最直接的一種：直接看專家實際處理數據時產生的輸出有多相似，輸出最像的歸為一組。

實驗結果揭示了一個有趣的現象：分組方式對最終結果的影響遠比評分方式小得多，35種組合中分組策略帶來的差距只有約1.2個百分點，大約是評分方式差距的五分之一。循環輪轉以40.1%的平均準確率略占上風，三種聚類方法（權重聚類、路由聚類、輸出聚類）緊隨其後僅差0.4個百分點，錨點分配則以38.9%排在最後。

贊助商廣告

更關鍵的發現是：當K等於8（也就是不需要合併、每組只有一個專家）時，五種分組方法根本沒有區別，因為根本不存在分組操作。而實驗數據顯示，K等於8往往比K等於16取得更好的效果——這說明直接挑出最好的8個專家放進去，比挑出16個再兩兩合併效果更好。合併操作在某種程度上會稀釋專家的獨特能力。只有當評分方式本身傾向於選擇相似專家時（比如頻率系方法），合併才有幫助，因為合併可以把兩個幾乎相同的專家"平均"成一個更穩定的表示。

**六、用什麼方式"上課"也很重要——蒸餾策略的選擇**

確定了學生模型的初始結構之後，接下來是蒸餾訓練的環節。研究團隊在FineWeb-Edu這個高質量教育文本數據集上進行訓練，並測試了多種訓練策略。

損失函數（可以理解為衡量學生與老師差距的"評分標準"）的選擇至關重要。研究團隊對比了三種方案。正向KL散度要求學生儘可能全面地模仿老師的完整概率分布，相當於要求學生把老師的每一種表達方式都學到；反向KL散度則相反，學生專注於找到自己最有把握的幾個答案，忽視老師在低概率區間的細節；第三種是把正向KL與中間層隱狀態的均方誤差結合起來的綜合損失。實驗表明，正向KL散度效果最好，比反向KL高出整整6.2個百分點，比綜合損失高出近2個百分點。這與其他研究的發現一致：對於這類壓縮任務，讓學生全面模仿老師的概率分布，比只盯著高概率答案效果更好。

另一個有趣的探索是"擴展教學頻寬"。正常情況下，MoE老師每次只激活8位專家。但研究人員參考了其他團隊的發現，嘗試在訓練時讓老師激活更多專家（比如16、32個），讓學生能接觸到平時"不上班"的專家所包含的知識。結果發現，激活16個專家時效果最佳，比默認的8個提升了0.7個百分點；但繼續增加到32個以上，效果反而下降。這說明"隔壁桌的同事"確實有些值得學習的東西，但一次接觸太多不常用的專家反而引入了噪聲。考慮到激活16個專家會讓訓練速度減慢約一倍，研究團隊最終在主要實驗中還是選用了標準的8專家配置。

贊助商廣告

**七、和"從頭開始"以及"修剪稠密模型"相比，贏了多少**

研究團隊設置了三個對比方案來檢驗自己的方法究竟有多大優勢。

第一個對比是"隨機初始化"：保留老師模型的注意力層，FFN層則用隨機權重初始化，然後同樣蒸餾300億詞元的數據。結果顯示，這個方案的準確率只有約30%，遠低於任何專家選擇方案——這證明了專家結構本身確實為蒸餾提供了強有力的起點，隨機初始化幾乎從零開始學習，效率極低。

第二個對比是"隨機FFN加教師注意力"：把注意力層整體複製過來，只有FFN部分是隨機初始化的。這個方案比完全隨機好一點，達到約32.7%，但仍然和最差的專家選擇方案（36.3%）有明顯差距，說明FFN的初始化質量對最終結果至關重要。

第三個、也是最重要的對比是"稠密模型修剪稠密模型"（D2D），這正是當前行業通用做法——以參數量相當的Qwen3-32B（320億參數稠密模型）為老師，按照Minitron等方法修剪出33億參數的學生，然後用稠密老師蒸餾。研究團隊非常認真地實施了這個對比：搜索了五種不同的架構方案，選出預蒸餾困惑度最好的那個（保留全部64層、只壓縮寬度的方案），用完全相同的數據量和超參數訓練。結果，D2D方案只達到約33.3%的準確率，比DO-ACP方案低了整整10個百分點。

這個差距在經過更長訓練（約40億詞元，約是短期實驗的13倍）後依然顯著：DO-ACP達到58.1%，D2D只有51.8%，差距縮小到6.3個百分點，但DO-ACP始終保持領先。訓練速度上，MoE-to-dense方案還有一個額外優勢：MoE老師每次只激活30億參數，而稠密老師每次需要完整運行320億參數，因此MoE方案的訓練速度比D2D方案快了1.6倍。換句話說，用更少的時間，得到了更好的學生。

**八、在三個不同的MoE模型上驗證——結論經得起考驗嗎**

一項研究在單一模型上取得好結果很可能是偶然，KRAFTON團隊進一步把方法應用到另外兩個結構完全不同的MoE模型上驗證穩健性。

贊助商廣告

DeepSeek-V2-Lite是一個160億參數的基礎模型，每層有64個可路由專家加2個"永久上崗"的共享專家，每次激活6個可路由專家。共享專家的存在需要特殊處理：它們不參與路由評分，直接整體複製進稠密模型；路由概率不經過重歸一化，因此按每個專家被選中時的平均路由權重來做輸出縮放。此外，該模型第一層是普通稠密FFN而非MoE層，需要用零填充來湊齊尺寸。在這個模型上，DO-ACP以K=6（純剪枝）的配置達到42.4%準確率，是所有配置中最好的，與隨機FFN基線相比高出12.1個百分點。

GPT-OSS-20B是一個210億參數的後訓練推理模型，每層只有32個專家，每次激活4個。這個模型的專家池子比Qwen3的128個小很多，研究的一個重要預測在這裡得到了印證：專家越多，多樣性評分的優勢越顯著；專家越少，每個專家本來就得負責更大範圍的任務，相互之間區分度本就不高，多樣性評分的優勢自然縮小。具體數字是：Qwen3（128專家）上最好與最差方法的差距達7.1個百分點，DeepSeek（64專家）上縮小到4.3個百分點，GPT-OSS（32專家）上只剩1.6個百分點。即便如此，DO-ACP在GPT-OSS上仍以33.7%的成績排名第一，高於隨機基線約3.7個百分點。

三個模型上有一個共同的最優配置：DO-ACP評分、K等於路由top-k數（純剪枝，不合併）、正向KL損失。這個"萬能配方"在不同架構、不同專家數量、不同訓練階段的模型上都表現最好，說明研究結論具有相當的普適性。

**九、與"為可壓縮性預訓練"相結合的初步探索**

論文還進行了一個額外的探索性實驗，考察一種叫做"EMO"的預訓練技術與本方法的兼容性。EMO方法在預訓練階段就對MoE模型做了特殊約束，讓每個文檔只流經一個固定的專家子集，從而鼓勵不同專家形成更強的功能分工。理論上，這樣預訓練出來的MoE模型里，專家之間的邊界更清晰，應該更容易被挑出一小批精華。

贊助商廣告

實驗使用的是一個140億參數的MoE模型（127個可路由專家加1個共享專家，每次激活7個），配以同架構的普通預訓練對照模型。同樣使用DO-ACP純剪枝策略，從EMO模型蒸餾出的15億參數稠密模型，比從普通模型蒸餾出的同等學生高出3.6個百分點，而且蒸餾前的初始困惑度低了約87倍。圖8的訓練曲線顯示，來自EMO老師的學生從一開始就站在更低的損失基線上，並在整個訓練過程中始終保持領先。這表明，如果在預訓練階段就為未來的壓縮做準備，MoE-to-dense的效果可以進一步提升。當然，研究團隊也坦承，這只是初步驗證，兩種方法的完整協同設計還需要更多工作。

**十、大量實驗數據背後的全景圖——350種配置的系統評測**

這項研究最值得稱道的地方之一是其實驗規模。研究團隊對Qwen3-30B-A3B進行了完整的350種配置掃描（7種評分×5種分組×2種縮放×5種K值），每種配置都先測蒸餾前的WikiText-2困惑度，再從每種評分與分組的組合中選出最佳K值進行完整蒸餾，最後在Winogrande、HellaSwag、ARC-Easy、ARC-Challenge和MMLU五個標準下游任務上評估。

完整結果表格揭示了一些有趣的細節。頻率系評分的配置困惑度在蒸餾前就極高（大多數超過一萬甚至十萬），蒸餾後也只能達到37%左右；而DO-ACP配置蒸餾前困惑度只有五千多，蒸餾後直接跳到43%以上。這說明評分方式不僅影響最終結果，也決定了蒸餾起點的質量，兩者之間存在強烈的正相關。

在K值的選擇上，350個配置里有32個最佳K選在8或16，只有3個選了32以上。這相當清晰地說明，在這種架構下，精選少量高質量專家遠優於保留大量專家再做合併。對於頻率系評分，最佳K往往是16（需要合併），因為頻率系方法選出的專家本來就很相似，合併之後反而能去掉冗餘、保留共性；對於DO-ACP，最佳K幾乎一律是8（不需要合併），因為多樣性篩選已經保證了每位入選者都獨一無二，無需藉助合併來去重。

贊助商廣告

**十一、"錯誤分析"顯微鏡下的質量差異**

除了數字評測，研究團隊還進行了一項頗具洞察力的定性分析。他們讓四個經過40億詞元訓練的模型（DO-ACP、SF、D2D、隨機FFN）各自回答567道MMLU題目，然後用基於規則的啟發式方法和大型語言模型裁判（Claude Opus 4.6）對每個回答進行分類，分成六類：正確、答非所問（輸出一堆無意義的文字或循環）、重複死循環（同樣的句子反覆出現）、知識錯誤（邏輯清晰但事實不對）、推理錯誤（推理過程有漏洞）和其他（跑題、截斷等）。

隨機FFN的表現印證了早先的數字結論：它高達79%的回答屬於災難性失敗（答非所問和重複死循環），幾乎沒有進入實質推理階段，正確率極低。SF模型的表現好一些，但仍有62%的回答是災難性失敗，知識錯誤率8.1%。D2D模型的答非所問率相對較低（31%），但重複死循環比較多，知識錯誤率高達12.5%。DO-ACP的總災難性失敗率是四個模型里最低的（54.5%），知識錯誤率也是最低的（4.2%），正確率達到37.6%。

按學科領域細看，DO-ACP在人文類題目上比SF高出約24個百分點（49.2%對25.4%），在社科類題目上高出約11個百分點，在STEM類題目上差距相對較小（約6個百分點），因為所有模型在數學推理上都普遍吃力。這個模式與研究團隊的理論推斷吻合：多樣性評分選出的專家覆蓋了更廣泛的知識領域，因此在需要跨領域知識的人文和社科題目上優勢更明顯。

---

說到底，這項研究做了一件相當務實的事情：它系統地回答了"如果我們已經有了一個強大但笨重的MoE模型，怎樣才能最高效地把它的知識轉移到一個輕便的稠密模型里"這個問題。答案出乎意料地清晰：關鍵不在於用多複雜的合併技巧，而在於一開始就選對人。選對人的秘訣在於，不要只看誰最忙或者誰最自信，而要選那些彼此最不同的高質量專家。這個看起來簡單的道理，經過嚴格數學框架的包裝和350種配置的實驗驗證，形成了一套可以直接復用的工程方法。

贊助商廣告

對於普通用戶來說，這項研究的意義在於：未來可能有更多優質AI模型能在普通個人設備上流暢運行，而不必依賴雲端的高性能伺服器。對於AI工程師來說，這套方法提供了一條從現有MoE大模型出發、以相對較低的計算成本獲得高質量稠密小模型的可行路徑，訓練速度比傳統做法快1.6倍，最終質量還更好。當然，研究團隊也誠實地指出了未完成的工作：訓練規模還只到40億詞元，離工業級應用的數百億詞元還有距離；當K大於k時如何將合併權重與選擇權重解耦、單獨優化，也是值得探索的方向；而專家池較小的模型（如32個專家）從這套方法中獲益相對有限，可能需要針對性改進。有興趣深入了解技術細節的讀者，可以通過arXiv編號2605.28207查閱完整論文及附錄中詳盡的數學證明和實驗數據。

---

Q&A

Q1：MoE（混合專家模型）為什麼占用內存多，明明只用了一小部分專家？

A：MoE模型每次處理資訊時確實只激活少數專家，但所有專家的參數必須同時加載到內存中，因為路由器需要在運行時決定調用哪些專家。就像一家公司雖然每天只有部分員工上班，但所有員工的辦公桌和檔案都必須保留在公司里，不能因為今天沒上班就把辦公桌撤掉。這種"全員待機"的儲存需求，使得MoE模型在內存有限的設備上難以部署。

Q2：DO-ACP評分方法和普通頻率評分相比，實際效果差多少？

A：在Qwen3-30B-A3B模型上，DO-ACP方法在五個標準評測任務的平均準確率約為43.4%，而頻率評分（SF、PP、PS）的結果普遍在37%左右，差距約為5到6個百分點。在經過約40億詞元的長期訓練後，這個差距略有收窄但依然明顯，DO-ACP達到58.1%，而頻率系最佳配置只有53.5%。5個百分點的差距在AI評測中相當於模型從"一般可用"跨越到"表現穩定"的檔次差異。

Q3：MoE轉稠密模型和直接修剪稠密模型相比，哪種方式訓練更快、結果更好？

A：兩個維度上MoE轉稠密方案都占優。訓練速度上，MoE老師每次只激活約30億參數，而等規模的稠密老師（Qwen3-32B）需要運行全部320億參數，因此MoE方案的訓練吞吐量快了約1.6倍，相同時間內能處理更多數據。最終質量上，DO-ACP方案在約40億詞元訓練後平均準確率達到58.1%，而稠密模型修剪方案只有51.8%，差距約6個百分點。兩者使用的數據量和超參數完全相同，MoE起點的知識更豐富是核心原因。

贊助商廣告