這項由韓國遊戲與科技公司KRAFTON旗下AI研究部門與韓國科學技術院(KAIST)聯合開展的研究,於2026年6月以預印本形式發布,論文編號為arXiv:2605.28207。感興趣的讀者可通過該編號在arXiv平台檢索完整論文。
**一、為什麼大模型越來越難"搬進口袋"**
當你在手機上和AI助手聊天,或者讓電腦幫你寫一段代碼時,背後運行的往往是規模龐大的語言模型。這些模型像是由成千上萬位"專家"組成的超級智庫——每當輸入一個問題,模型會先把問題分發給其中幾位最合適的專家,再把他們的意見匯總成答案。這種結構在學術界叫做"混合專家模型"(Mixture-of-Experts,簡稱MoE),是目前全球最頂尖AI產品背後的主流架構,DeepSeek
、Meta的Llama、阿里的Qwen等大模型都採用了類似設計。
MoE架構的妙處在於,處理每個問題時只需動用一小部分專家,計算量因此大幅下降。然而,這裡藏著一個根本性的麻煩:雖然每次只用幾位專家,但所有專家的"檔案"必須同時存放在內存里——就像一家公司雖然某天只安排8位員工上班,卻必須為全部128位員工準備辦公桌和儲物櫃一樣。對於內存有限的設備,比如手機、個人電腦或單塊顯卡,這種要求幾乎無法滿足。
正因如此,許多公司會額外訓練一批更小巧的"緊湊型模型"供普通用戶使用。但這些小模型要麼從零開始訓練,要麼從另一個已經訓練好的大型稠密模型(也就是"所有專家隨時待命"的傳統結構)修剪而來,整個過程耗資巨大,而且完全沒有利用現成MoE大模型里已經積累的知識。
KRAFTON的研究團隊發現了一個更聰明的路徑:既然MoE模型本身就很強,為什麼不直接從它身上"蒸餾"出一個輕便的稠密模型?這就是這篇論文的核心出發點。
**二、把128位專家團隊壓縮成8人精銳小隊的思路**
研究團隊把整個轉換過程比作組建一支精銳特戰隊。原始MoE模型每層有128位專家,每次處理資訊時調用其中8位。目標是把這128位專家裡最有價值、最互補的8位保留下來,拼接成一個新的"全能戰士"——也就是普通的稠密前饋網路(Dense FFN)。
整個流程分三步走。第一步是"海選":給每位專家打一個重要性分數,然後按照某種策略從128人里挑出最優秀的若干人(這個人數用字母K表示,K可以等於8,也可以更多)。如果K等於8,每人單獨代表一個席位,直接進隊;如果K大於8,就先把入選者分成8個小組,每組內部通過加權平均合併成一個代表。第二步是"拼接":把8個席位的權重矩陣首尾相連,構成一個完整的大型稠密網路,同時對每個席位的輸出權重做適當縮放,補償原來路由器動態分配權重時產生的差異。第三步是"深造":用原始MoE模型作為老師,讓新組建的稠密模型對著老師的輸出不斷學習,彌補拼接過程中不可避免的資訊損失。這種"老師教學生"的過程在技術上叫做知識蒸餾。
值得關注的是架構尺寸的匹配關係。Qwen3-30B-A3B這款主力測試模型總參數達300億,但每次只激活約30億參數。研究團隊的目標就是把它轉換成一個參數量同樣在33億左右的稠密模型,在保持參數體量相當的前提下,讓後者不再需要把300億參數的"全員檔案"都塞進內存。
**三、怎麼給專家評分才算公平——七種方法的較量**
給128位專家評分聽起來簡單,實則大有講究。評分方式直接決定了哪些專家能入選精銳小隊,錯誤的選擇會讓最終模型能力大打折扣。研究團隊系統測試了七種評分方法,分成三個層次來理解。
最直觀的一類評分叫做"頻率系評分",包括三種具體變體:選擇頻率(SF)、預選擇概率(PP)和後選擇概率(PS)。這類方法的邏輯是:誰被調用得最多,誰就最重要。可以類比為,在一家公司里根據員工被請去參加會議的次數來判斷誰最有價值。然而,這種思路存在明顯盲區——被頻繁召喚的往往是"萬金油"型員工,什麼會議都參加,卻不一定有專精能力;而那些只在關鍵時刻出馬、一出手就解決大問題的專家,因為出場次數少,反而被低估了。實驗結果印證了這一點:三種頻率系方法選出的專家幾乎完全重疊,彼此高度相似,平均準確率只有約37%。
第二類是"置信度評分"(CP),它的邏輯轉變為:不看出場次數,只看路由器對某位專家有多"篤定"。當路由器把任務派給某位專家時,給出的置信分有高有低;CP只統計在專家真正被選中的那些場合下,路由器平均給出了多高的置信分。這就好比評判一位醫生時,不看他接診了多少普通感冒患者,而是看他在接診疑難雜症時的把握程度。切換到CP評分後,選出的專家陣容與頻率系方法幾乎沒有重疊,模型準確率一躍跳升到約40%,足足高出3個百分點。
在此基礎上還可以進一步細化,把置信度和輸出幅度結合起來,形成"激活加權條件概率"(ACP)——除了看路由器有多篤定,還要看這位專家被調用時實際輸出了多強的信號。一位醫生既要有把握,還要真能救人,兩者缺一不可。ACP比純CP再提升約0.5個百分點。
**四、多樣性才是真正的秘密武器——D-Optimal方法的誕生**
然而,即便ACP已經比頻率評分強很多,研究團隊發現它仍有一個致命弱點:它只是獨立地評判每位專家,完全沒有考慮專家之間的重疊程度。以ACP選出的8位專家為例,很可能其中好幾位處理問題的方式極為相似,相當於組建了一支由8個擅長數學的人組成的隊伍,卻沒有歷史學家、語言學家或工程師。這樣的團隊在數學題上無敵,在其他領域卻一片空白。
為了解決這個問題,研究團隊引入了一個來自經典實驗設計領域的數學工具,叫做"D-最優設計"(D-Optimal Design)。這個工具的核心思想是:在選人時,不僅要看每個人自身的能力,還要讓團隊整體所能覆蓋的"能力空間"儘可能大。用線性代數的語言來說,就是最大化所選專家輸出向量構成的矩陣的行列式的對數(log-determinant)。
不需要理解那些數學細節,只需知道這個方法做了一件直覺上非常合理的事:當候選人A和候選人B的能力高度重疊時,即便B的個人得分也很高,這個方法也會傾向於把B換成一個能力更獨特的候選人C,哪怕C的個人得分稍低。套用"特戰隊"的比喻:與其招募兩位神槍手,不如招募一位神槍手加上一位爆破專家——整體戰鬥力會更強。
把這種多樣性篩選分別與CP和ACP組合,就形成了DO-CP和DO-ACP兩種方法。實驗數據顯示,與純ACP相比,DO-ACP進一步提升約2個百分點,在所有35種評分與分組的組合中名列第一,平均準確率達到42.6%。從最差的PP方法(約36.9%)到最好的DO-ACP,總差距高達5.7個百分點——這在AI模型評測中是非常顯著的差距,相當於模型從"勉強及格"躍升到"表現不俗"。
研究團隊還從理論層面證明了這一設計的合理性。他們構造了一個具體的反例,證明單純按照ACP分數獨立排名選人,在某些情況下會導致重建誤差永遠無法消除;而基於行列式最大化的方法則能在相同情況下實現零誤差。此外,他們還證明了這種貪心選擇算法在數學上具有"次模函數"性質,保證了貪心策略能達到最優解的至少(1-1/e)約63%的質量——這是有理論保障的近似最優解,而非純粹經驗之談。
**五、分組方式影響幾何,八種拼接路徑誰更優**
選好了人之後,還需要決定怎麼把他們分成8個小組(當K大於8時),以及每個小組內部怎麼合併。研究團隊測試了五種分組策略:循環輪轉(RR)、權重聚類(WC)、路由向量聚類(RC)、錨點分配(AB)和輸出聚類(OC)。
循環輪轉的做法最簡單,把按分數排好序的專家一個接一個地輪流分配到各組,確保每組都有高分和低分的專家混合。權重聚類則是把專家的權重矩陣展開成一個超長向量,用相似度來決定誰和誰更"像",把相似的人分到一組。路由向量聚類關注的是路由器給每位專家分配的"標籤向量",相似標籤意味著類似的功能定位。錨點分配先選出8個最高分專家作為"錨點",剩餘專家按路由相似度各自投靠最近的錨點。輸出聚類則是最直接的一種:直接看專家實際處理數據時產生的輸出有多相似,輸出最像的歸為一組。
實驗結果揭示了一個有趣的現象:分組方式對最終結果的影響遠比評分方式小得多,35種組合中分組策略帶來的差距只有約1.2個百分點,大約是評分方式差距的五分之一。循環輪轉以40.1%的平均準確率略占上風,三種聚類方法(權重聚類、路由聚類、輸出聚類)緊隨其後僅差0.4個百分點,錨點分配則以38.9%排在最後。
更關鍵的發現是:當K等於8(也就是不需要合併、每組只有一個專家)時,五種分組方法根本沒有區別,因為根本不存在分組操作。而實驗數據顯示,K等於8往往比K等於16取得更好的效果——這說明直接挑出最好的8個專家放進去,比挑出16個再兩兩合併效果更好。合併操作在某種程度上會稀釋專家的獨特能力。只有當評分方式本身傾向於選擇相似專家時(比如頻率系方法),合併才有幫助,因為合併可以把兩個幾乎相同的專家"平均"成一個更穩定的表示。
**六、用什麼方式"上課"也很重要——蒸餾策略的選擇**
確定了學生模型的初始結構之後,接下來是蒸餾訓練的環節。研究團隊在FineWeb-Edu這個高質量教育文本數據集上進行訓練,並測試了多種訓練策略。
損失函數(可以理解為衡量學生與老師差距的"評分標準")的選擇至關重要。研究團隊對比了三種方案。正向KL散度要求學生儘可能全面地模仿老師的完整概率分布,相當於要求學生把老師的每一種表達方式都學到;反向KL散度則相反,學生專注於找到自己最有把握的幾個答案,忽視老師在低概率區間的細節;第三種是把正向KL與中間層隱狀態的均方誤差結合起來的綜合損失。實驗表明,正向KL散度效果最好,比反向KL高出整整6.2個百分點,比綜合損失高出近2個百分點。這與其他研究的發現一致:對於這類壓縮任務,讓學生全面模仿老師的概率分布,比只盯著高概率答案效果更好。
另一個有趣的探索是"擴展教學頻寬"。正常情況下,MoE老師每次只激活8位專家。但研究人員參考了其他團隊的發現,嘗試在訓練時讓老師激活更多專家(比如16、32個),讓學生能接觸到平時"不上班"的專家所包含的知識。結果發現,激活16個專家時效果最佳,比默認的8個提升了0.7個百分點;但繼續增加到32個以上,效果反而下降。這說明"隔壁桌的同事"確實有些值得學習的東西,但一次接觸太多不常用的專家反而引入了噪聲。考慮到激活16個專家會讓訓練速度減慢約一倍,研究團隊最終在主要實驗中還是選用了標準的8專家配置。
**七、和"從頭開始"以及"修剪稠密模型"相比,贏了多少**
研究團隊設置了三個對比方案來檢驗自己的方法究竟有多大優勢。
第一個對比是"隨機初始化":保留老師模型的注意力層,FFN層則用隨機權重初始化,然後同樣蒸餾300億詞元的數據。結果顯示,這個方案的準確率只有約30%,遠低於任何專家選擇方案——這證明了專家結構本身確實為蒸餾提供了強有力的起點,隨機初始化幾乎從零開始學習,效率極低。
第二個對比是"隨機FFN加教師注意力":把注意力層整體複製過來,只有FFN部分是隨機初始化的。這個方案比完全隨機好一點,達到約32.7%,但仍然和最差的專家選擇方案(36.3%)有明顯差距,說明FFN的初始化質量對最終結果至關重要。
第三個、也是最重要的對比是"稠密模型修剪稠密模型"(D2D),這正是當前行業通用做法——以參數量相當的Qwen3-32B(320億參數稠密模型)為老師,按照Minitron等方法修剪出33億參數的學生,然後用稠密老師蒸餾。研究團隊非常認真地實施了這個對比:搜索了五種不同的架構方案,選出預蒸餾困惑度最好的那個(保留全部64層、只壓縮寬度的方案),用完全相同的數據量和超參數訓練。結果,D2D方案只達到約33.3%的準確率,比DO-ACP方案低了整整10個百分點。
這個差距在經過更長訓練(約40億詞元,約是短期實驗的13倍)後依然顯著:DO-ACP達到58.1%,D2D只有51.8%,差距縮小到6.3個百分點,但DO-ACP始終保持領先。訓練速度上,MoE-to-dense方案還有一個額外優勢:MoE老師每次只激活30億參數,而稠密老師每次需要完整運行320億參數,因此MoE方案的訓練速度比D2D方案快了1.6倍。換句話說,用更少的時間,得到了更好的學生。
**八、在三個不同的MoE模型上驗證——結論經得起考驗嗎**
一項研究在單一模型上取得好結果很可能是偶然,KRAFTON團隊進一步把方法應用到另外兩個結構完全不同的MoE模型上驗證穩健性。
DeepSeek-V2-Lite是一個160億參數的基礎模型,每層有64個可路由專家加2個"永久上崗"的共享專家,每次激活6個可路由專家。共享專家的存在需要特殊處理:它們不參與路由評分,直接整體複製進稠密模型;路由概率不經過重歸一化,因此按每個專家被選中時的平均路由權重來做輸出縮放。此外,該模型第一層是普通稠密FFN而非MoE層,需要用零填充來湊齊尺寸。在這個模型上,DO-ACP以K=6(純剪枝)的配置達到42.4%準確率,是所有配置中最好的,與隨機FFN基線相比高出12.1個百分點。
GPT-OSS-20B是一個210億參數的後訓練推理模型,每層只有32個專家,每次激活4個。這個模型的專家池子比Qwen3的128個小很多,研究的一個重要預測在這裡得到了印證:專家越多,多樣性評分的優勢越顯著;專家越少,每個專家本來就得負責更大範圍的任務,相互之間區分度本就不高,多樣性評分的優勢自然縮小。具體數字是:Qwen3(128專家)上最好與最差方法的差距達7.1個百分點,DeepSeek(64專家)上縮小到4.3個百分點,GPT-OSS(32專家)上只剩1.6個百分點。即便如此,DO-ACP在GPT-OSS上仍以33.7%的成績排名第一,高於隨機基線約3.7個百分點。
三個模型上有一個共同的最優配置:DO-ACP評分、K等於路由top-k數(純剪枝,不合併)、正向KL損失。這個"萬能配方"在不同架構、不同專家數量、不同訓練階段的模型上都表現最好,說明研究結論具有相當的普適性。
**九、與"為可壓縮性預訓練"相結合的初步探索**
論文還進行了一個額外的探索性實驗,考察一種叫做"EMO"的預訓練技術與本方法的兼容性。EMO方法在預訓練階段就對MoE模型做了特殊約束,讓每個文檔只流經一個固定的專家子集,從而鼓勵不同專家形成更強的功能分工。理論上,這樣預訓練出來的MoE模型里,專家之間的邊界更清晰,應該更容易被挑出一小批精華。
實驗使用的是一個140億參數的MoE模型(127個可路由專家加1個共享專家,每次激活7個),配以同架構的普通預訓練對照模型。同樣使用DO-ACP純剪枝策略,從EMO模型蒸餾出的15億參數稠密模型,比從普通模型蒸餾出的同等學生高出3.6個百分點,而且蒸餾前的初始困惑度低了約87倍。圖8的訓練曲線顯示,來自EMO老師的學生從一開始就站在更低的損失基線上,並在整個訓練過程中始終保持領先。這表明,如果在預訓練階段就為未來的壓縮做準備,MoE-to-dense的效果可以進一步提升。當然,研究團隊也坦承,這只是初步驗證,兩種方法的完整協同設計還需要更多工作。
**十、大量實驗數據背後的全景圖——350種配置的系統評測**
這項研究最值得稱道的地方之一是其實驗規模。研究團隊對Qwen3-30B-A3B進行了完整的350種配置掃描(7種評分×5種分組×2種縮放×5種K值),每種配置都先測蒸餾前的WikiText-2困惑度,再從每種評分與分組的組合中選出最佳K值進行完整蒸餾,最後在Winogrande、HellaSwag、ARC-Easy、ARC-Challenge和MMLU五個標準下游任務上評估。
完整結果表格揭示了一些有趣的細節。頻率系評分的配置困惑度在蒸餾前就極高(大多數超過一萬甚至十萬),蒸餾後也只能達到37%左右;而DO-ACP配置蒸餾前困惑度只有五千多,蒸餾後直接跳到43%以上。這說明評分方式不僅影響最終結果,也決定了蒸餾起點的質量,兩者之間存在強烈的正相關。
在K值的選擇上,350個配置里有32個最佳K選在8或16,只有3個選了32以上。這相當清晰地說明,在這種架構下,精選少量高質量專家遠優於保留大量專家再做合併。對於頻率系評分,最佳K往往是16(需要合併),因為頻率系方法選出的專家本來就很相似,合併之後反而能去掉冗餘、保留共性;對於DO-ACP,最佳K幾乎一律是8(不需要合併),因為多樣性篩選已經保證了每位入選者都獨一無二,無需藉助合併來去重。
**十一、"錯誤分析"顯微鏡下的質量差異**
除了數字評測,研究團隊還進行了一項頗具洞察力的定性分析。他們讓四個經過40億詞元訓練的模型(DO-ACP、SF、D2D、隨機FFN)各自回答567道MMLU題目,然後用基於規則的啟發式方法和大型語言模型裁判(Claude Opus 4.6)對每個回答進行分類,分成六類:正確、答非所問(輸出一堆無意義的文字或循環)、重複死循環(同樣的句子反覆出現)、知識錯誤(邏輯清晰但事實不對)、推理錯誤(推理過程有漏洞)和其他(跑題、截斷等)。
隨機FFN的表現印證了早先的數字結論:它高達79%的回答屬於災難性失敗(答非所問和重複死循環),幾乎沒有進入實質推理階段,正確率極低。SF模型的表現好一些,但仍有62%的回答是災難性失敗,知識錯誤率8.1%。D2D模型的答非所問率相對較低(31%),但重複死循環比較多,知識錯誤率高達12.5%。DO-ACP的總災難性失敗率是四個模型里最低的(54.5%),知識錯誤率也是最低的(4.2%),正確率達到37.6%。
按學科領域細看,DO-ACP在人文類題目上比SF高出約24個百分點(49.2%對25.4%),在社科類題目上高出約11個百分點,在STEM類題目上差距相對較小(約6個百分點),因為所有模型在數學推理上都普遍吃力。這個模式與研究團隊的理論推斷吻合:多樣性評分選出的專家覆蓋了更廣泛的知識領域,因此在需要跨領域知識的人文和社科題目上優勢更明顯。
---
說到底,這項研究做了一件相當務實的事情:它系統地回答了"如果我們已經有了一個強大但笨重的MoE模型,怎樣才能最高效地把它的知識轉移到一個輕便的稠密模型里"這個問題。答案出乎意料地清晰:關鍵不在於用多複雜的合併技巧,而在於一開始就選對人。選對人的秘訣在於,不要只看誰最忙或者誰最自信,而要選那些彼此最不同的高質量專家。這個看起來簡單的道理,經過嚴格數學框架的包裝和350種配置的實驗驗證,形成了一套可以直接復用的工程方法。
對於普通用戶來說,這項研究的意義在於:未來可能有更多優質AI模型能在普通個人設備上流暢運行,而不必依賴雲端的高性能伺服器。對於AI工程師來說,這套方法提供了一條從現有MoE大模型出發、以相對較低的計算成本獲得高質量稠密小模型的可行路徑,訓練速度比傳統做法快1.6倍,最終質量還更好。當然,研究團隊也誠實地指出了未完成的工作:訓練規模還只到40億詞元,離工業級應用的數百億詞元還有距離;當K大於k時如何將合併權重與選擇權重解耦、單獨優化,也是值得探索的方向;而專家池較小的模型(如32個專家)從這套方法中獲益相對有限,可能需要針對性改進。有興趣深入了解技術細節的讀者,可以通過arXiv編號2605.28207查閱完整論文及附錄中詳盡的數學證明和實驗數據。
---
Q&A
Q1:MoE(混合專家模型)為什麼占用內存多,明明只用了一小部分專家?
A:MoE模型每次處理資訊時確實只激活少數專家,但所有專家的參數必須同時加載到內存中,因為路由器需要在運行時決定調用哪些專家。就像一家公司雖然每天只有部分員工上班,但所有員工的辦公桌和檔案都必須保留在公司里,不能因為今天沒上班就把辦公桌撤掉。這種"全員待機"的儲存需求,使得MoE模型在內存有限的設備上難以部署。
Q2:DO-ACP評分方法和普通頻率評分相比,實際效果差多少?
A:在Qwen3-30B-A3B模型上,DO-ACP方法在五個標準評測任務的平均準確率約為43.4%,而頻率評分(SF、PP、PS)的結果普遍在37%左右,差距約為5到6個百分點。在經過約40億詞元的長期訓練後,這個差距略有收窄但依然明顯,DO-ACP達到58.1%,而頻率系最佳配置只有53.5%。5個百分點的差距在AI評測中相當於模型從"一般可用"跨越到"表現穩定"的檔次差異。
Q3:MoE轉稠密模型和直接修剪稠密模型相比,哪種方式訓練更快、結果更好?
A:兩個維度上MoE轉稠密方案都占優。訓練速度上,MoE老師每次只激活約30億參數,而等規模的稠密老師(Qwen3-32B)需要運行全部320億參數,因此MoE方案的訓練吞吐量快了約1.6倍,相同時間內能處理更多數據。最終質量上,DO-ACP方案在約40億詞元訓練後平均準確率達到58.1%,而稠密模型修剪方案只有51.8%,差距約6個百分點。兩者使用的數據量和超參數完全相同,MoE起點的知識更豐富是核心原因。






