宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

新加坡科研機構最新成果:AI大模型里的「調光開關」,讓每個專家按需開燈

2026年06月05日 首頁 » 熱門科技

這項由新加坡科學技術研究局高性能計算研究院聯合上海工程技術大學開展的研究,於2026年5月30日以預印本形式發布,論文編號為arXiv:2606.00761,感興趣的讀者可通過該編號查閱完整論文。

**研究背景:被忽視的"調光旋鈕"**

現代AI大模型,尤其是那些用來回答問題、寫文章、幫你處理各種任務的語言模型,內部結構遠比人們想像的複雜。為了讓這些模型既聰明又不至於耗盡所有計算資源,工程師們發明了一種叫做"專家混合"(Mixture-of-Experts,簡稱MoE)的架構。你可以把它理解成一個超大型公司,裡面有幾十甚至幾百個專業部門——每當一個問題進來,公司前台(路由器)會判斷這個問題該交給哪幾個部門來處理,其他部門則繼續休息,不參與本次任務。這樣一來,整個公司的人數雖然龐大,但每次真正出動的員工卻很少,效率大幅提升。

在這套架構里,每個專業部門(專家)處理問題的方式,很大程度上取決於一個叫做"SwiGLU"的激活機制。這個機制本質上是一個"開關"——它決定每條資訊通路是被放大、被壓制,還是被保留。然而長期以來,這個開關的"靈敏度"是固定的,無論任務輕重、資訊多少,它始終以同一個標準運作。這篇論文的核心貢獻,就是給這個開關加裝了一個"調光旋鈕",讓它能根據當前任務的確定程度,自動調整自己的靈敏度。研究團隊將這個改進方案命名為κ-SwiGLU(讀作"卡帕-SwiGLU")。

**一、先搞清楚"開關"和"路由"是什麼**

在深入了解這個改進方案之前,有必要先弄清楚兩個核心概念。

首先是SwiGLU的工作原理。每當一個詞或一段資訊進入模型的某個專家時,這個專家內部會有許多並行的"資訊通道"。SwiGLU的作用是對每條通道加一個"門控"——這個門控會根據輸入信號的大小,決定這條通道的信號是被放大傳出,還是被壓制歸零。具體來說,它用的是一種叫做SiLU的函數:當輸入信號很強時,門會開得很大,信號幾乎全部通過;當輸入信號接近零時,門會幾乎關閉;當輸入信號為負時,門會完全關閉,信號被隱藏掉。這個機制讓模型能夠選擇性地激活對當前任務有用的特徵,同時抑制無關資訊。

然後是"路由確信度"的概念。在MoE架構中,前台(路由器)是通過計算每個問題向量與每個專家"特徵向量"之間的相似程度來決定分配方案的——相似程度越高,說明這個專家越適合處理這個問題,分配給它的"確信度"也越高。這個相似程度對應一個具體的數值,稱為路由邏輯值(router logit)。數值越大,說明路由器越確信這個問題該由這個專家處理。

這裡有一個關鍵的物理意義:在高維空間裡,被路由到同一個專家的所有問題,其向量方向都與該專家的特徵向量方向有一定的重疊。重疊越大,說明這個問題與該專家的"專業領域"越契合,也就是說路由器對這次分配越有把握。研究人員在實驗中驗證了這一點——在一個8層MoE模型的第7層,被路由到某個專家的所有問題向量與該專家特徵向量的餘弦相似度,穩定在0.075到0.25之間,均值約為0.15。這個數字在512維空間裡意義重大,因為對於隨機分布的單位向量來說,滿足這一相似度條件的向量在整個空間中占比僅約0.03%——這說明被路由的問題並非隨機落入,而是真的聚集在專家特徵方向附近。

**二、一個意外發現:專家開關和路由器在"私下勾連"**

研究團隊在深入分析MoE的訓練過程時,發現了一個此前從未被系統研究過的現象——專家內部的門控投影方向,會在訓練過程中自動向路由器的特徵方向靠攏,或者朝完全相反的方向偏移。

用公司的比喻來說:前台(路由器)判斷某個問題是否該交給某個部門,用的是一套評分標準;而這個部門內部處理問題時的"篩選機制"(門控投影),在訓練過程中會悄悄把自己的篩選標準調整得和前台的評分標準越來越相似,或者越來越相反。這種現象意味著什麼?

意味著當一個問題被高確信度地分配給某個專家時,這個問題的向量與路由器方向高度重疊,而專家的門控投影向量也與路由器方向高度對齊(或反向對齊),因此門控信號的輸入值會被系統性地放大(或壓制)。換句話說,路由器的確信度高低,會通過這種"隱性偏移"效應,自動影響專家內部的門控強弱——高確信度的問題會落在門控曲線的更活躍區域,低確信度的問題則可能落在更不活躍的區域。

研究人員在7個獨立訓練的8層MoE模型上系統測量了這種對齊現象。結果顯示,在訓練剛開始的幾百步內,門控投影就迅速與路由器方向形成了0.2到0.4的餘弦相似度峰值。儘管這種對齊強度隨著訓練推進而有所衰減,但始終維持在非零水平。更有趣的是,不同層的對齊方向會有所不同——例如第4層在訓練初期呈正向對齊,但後來轉變為一致的負向對齊;而第7層則在大部分訓練時間內保持正向對齊。這表明路由器與門控之間的耦合是一種普遍存在的現象,但其具體表現形式因層而異。

研究人員還進一步量化了這種隱性偏移對門控輸入的實際影響。通過分解門控投影向量的平行分量和垂直分量,可以計算出由路由器方向引起的系統性偏移量。在兩個代表性層上,所有專家中排名前5%和後5%的偏移量,分別在整個訓練過程中穩定維持正值和負值,說明這種雙向的、非對稱的門控偏移是真實存在且持續發生的。

**三、κ-SwiGLU:給"開關"裝上隨機應變的調光旋鈕**

發現了這種隱性耦合之後,研究團隊提出了一個自然而然的想法:既然路由器的確信度已經在悄悄影響門控行為了,為什麼不把這種影響做得更顯式、更可控、更靈活呢?

標準SiLU函數的形狀是固定的,它的過渡區域寬度(即從"關閉"到"開啟"所需要的輸入變化範圍)是不變的。研究人員給這個形狀引入了一個控制參數κ——當κ大於1時,過渡區域變窄,門控變得更加"非此即彼",像一個精準的開關,小幅度的輸入變化就能導致門控狀態的劇烈切換;當κ小於1時,過渡區域變寬,門控變得更加"平滑寬容",能對更廣泛的輸入範圍做出響應。標準SiLU對應的是κ=1的特殊情況。

κ-SwiGLU的核心思路,就是讓每個專家的每個門控單元,根據當前問題的路由確信度動態計算自己的κ值。具體公式為:κ值通過一個關於路由邏輯值的線性變換後再做有界映射來得到。線性變換包含兩個可學習的標量參數:α(縮放係數)和b(偏置項)。線性變換的輸出會經過一個`U^tanh(z)`的有界映射,其中U是一個超參數,設置為3——這意味著κ的取值範圍被嚴格限制在(1/3, 3)之間,防止極端的κ值破壞訓練穩定性。當α和b都為0時,κ=1,κ-SwiGLU退化為標準SwiGLU,保證了向後兼容性。

值得注意的是,κ-SwiGLU對標準SwiGLU的修改只發生在"門控"部分,而不影響資訊通路部分。整個計算過程中,路由邏輯值在前向傳播中本就是現成可用的,計算κ只需要幾個元素級的運算,不涉及任何額外的矩陣乘法。

從直覺上理解,這個機制允許每個專家根據"這個問題我有多確定"來調整自己處理資訊的方式。當路由器非常確信這個問題適合這個專家時(高確信度),專家可以學會用更鋒利的門控來精準篩選特徵;當路由器只是勉強把問題分配給這個專家時(低確信度),專家可以學會用更寬容的門控來保留更多資訊。當然,具體是哪種策略更好,是由訓練數據決定的,不同的專家可以學到不同的策略。

**四、如何訓練這個新機制而不讓它失控**

給模型加新機制,最擔心的問題是訓練不穩定——新參數亂跑,導致整個訓練崩潰。研究團隊為此設計了幾個保障措施。

首先是"冷啟動"策略:α和b在訓練的前1/10時間內被凍結在0,此時κ-SwiGLU完全等同於標準SwiGLU,讓模型先建立穩定的路由行為和專家表示,再引入動態門控。這就好比新員工入職先觀察公司運作,摸清情況後再開始提出改進建議,而不是第一天就大刀闊斧地改變流程。

其次是L2正則化:對α和b施加懲罰,防止它們無限增大,也就是防止門控偏離標準SiLU太遠。正則化係數分別設為λα=0.02和λb=0.01。經過調試,這組參數在抑制過擬合的同時,還保留了足夠的學習靈活性。

在學習率方面,κ-SwiGLU的專屬學習率方案是線性預熱到0.12,再線性衰減到0.06。與主模型參數的優化器不同,α和b使用AdamW優化器單獨管理,學習率0.3。

**五、實驗設置:在多個模型規模上反覆驗證**

研究團隊在一個叫做FineWeb-Edu的教育內容數據集上訓練了一系列MoE語言模型,覆蓋了從8層到28層的多種配置,使用4塊H200 GPU完成訓練。為了在有限顯存內實驗更多配置,團隊採用了兩種架構策略:標準MoE(8到14層,其中6到10層為MoE層)和"三明治"MoE(16到28層,但MoE層只有中間的2層,其餘全是普通全連接層)。

全部8種配置中,最小的MoE-8L模型有約2700個參數(總量),但每次處理一個詞只激活約269個參數,訓練了27億個詞;最大的Sandwich-28L模型總參數約3300個,每次激活約849個,訓練了142億個詞。每種配置都對標準SwiGLU和κ-SwiGLU各訓練3個獨立運行(隨機種子24、26、28),報告均值和標準差。

評估指標使用了一套叫做CORE的基準測試,包含22個涵蓋常識推理、知識問答和語言建模等方向的數據集,匯總成一個"中心化CORE分數"——這個分數會減去隨機猜測基線,因此能更準確地反映模型的真實能力增長。

**六、實驗結果:8種配置中7種得到改善**

結果相當清晰。在4種標準MoE配置上,κ-SwiGLU的CORE分數均高於標準SwiGLU:MoE-8L從13.5提升到14.5(提升1.0個百分點),MoE-10L從17.5提升到18.3(提升0.9),MoE-12L從20.1提升到20.8(提升0.7),MoE-14L從23.3提升到23.9(提升0.6)。淺層模型的改善幅度略大,研究團隊推測原因是淺層模型使用了更大的專家池(最多64個專家),MoE特性更突出,因此動態門控的收益更明顯;而深層標準MoE為了節約顯存被迫減少專家數量到16個,MoE的稀疏性減弱。

在4種三明治MoE配置上,除了最淺的Sandwich-16L略有下降(從14.3降到14.1,差距在誤差範圍內)之外,其餘三種均有提升:Sandwich-20L從18.1提升到18.5(+0.5),Sandwich-24L從19.7提升到20.3(+0.6),Sandwich-28L從21.3提升到21.9(+0.6)。即便整個模型只有兩個MoE層,動態門控的效果依然穩定存在。

研究團隊特別指出,單看每個配置的改善幅度,與運行間的隨機波動相比並不總是顯著,但8個配置中7個一致向好,這種跨配置的一致性本身就是強有力的信號——改善不是偶發的噪聲,而是方法本身帶來的系統性收益。

**七、剝絲抽繭:到底是哪個部分起了作用**

為了理解κ-SwiGLU改善的來源,研究團隊做了消融實驗,把κ參數分成兩部分單獨測試。第一種變體(κ-SwiGLU-α)去掉了與路由邏輯值相關的縮放項,只保留偏置項b;第二種變體(κ-SwiGLU-b)去掉了偏置項b,只保留縮放項α·s(x);第三種是完整的κ-SwiGLU。

在MoE-8L和MoE-10L上的結果非常清晰:去掉與路由確信度直接相關的縮放項α·s(x),性能與標準SwiGLU相差無幾甚至略差(MoE-8L:13.4 vs 13.5基線);而去掉偏置項b,性能依然接近完整版(MoE-8L:13.9 vs 14.5完整版,MoE-10L:18.5 vs 18.3,在誤差範圍內基本持平)。這說明路由確信度驅動的動態縮放才是核心收益來源,而偏置項提供的是額外的靈活性調節,沒有前者重要。

**八、計算代價:幾乎可以忽略的小小代價**

任何新方法都有計算代價,κ-SwiGLU也不例外。研究團隊在最大的MoE-14L模型上進行了詳細的開銷測量。結果是:額外引入的激活參數僅增加0.02%,可以完全忽略不計。訓練吞吐量(每秒處理詞數)從153,200降至142,500,下降約7%;推理吞吐量從24,600降至23,729,下降約3.5%。這些開銷完全來自計算κ所需的少量額外元素級運算。研究團隊表示,通過進一步的底層算子優化,這些開銷還有望降至可忽略的水平。

**九、κ值是怎麼變化的:訓練過程的內部觀察**

研究團隊還深入分析了κ值在訓練過程中的動態變化,在12層MoE的第9層進行了詳細追蹤。結果呈現出一個有趣的"先分化,再收斂"的模式。

在訓練前1/10時間內,κ被凍結在1,門控行為與標準SwiGLU完全相同。解凍之後,κ值迅速分化:排名前5%的門控單元的κ值急劇攀升到約2.5,而排名後5%的門控單元的κ值急劇下滑到約0.4。這意味著一部分門控變得極其鋒利,另一部分則變得極其寬容。隨著訓練繼續推進,兩組κ值都緩慢向1靠攏,但在訓練結束時仍明顯偏離1——大約分別維持在1.2-1.5和0.6-0.8的範圍。

這種"先大幅探索,再適度收斂"的模式,說明模型並沒有走向極端,也沒有退化為均勻的調整;而是在充分探索了門控彈性空間之後,學到了一個持續有效的適度調製策略。與此同時,對α和b參數的追蹤顯示,α的貢獻遠大於b——在訓練中期,以典型路由邏輯值2.5為例,α·s(x)項對最終κ的貢獻約是b項的1.675倍,進一步驗證了消融實驗的結論。

**研究的局限與未來展望**

這項研究本身也坦誠地指出了若干局限性。所有實驗都在相對小規模的MoE模型上進行,最大的模型與當前前沿的商業MoE系統(如GPT-4、DeepSeek新加坡科研機構最新成果AI大模型里的調光開關讓每個專家按需開燈等)相比仍有相當大的規模差距。在更大的參數量、更長的訓練時間和更大規模的預訓練數據上,是否能觀察到同樣的改善趨勢,尚待驗證。

評估維度也相對集中,主要依賴CORE這套預訓練基準。在指令跟隨、長文本處理、推理密集任務等更貼近實際使用的場景下,動態門控的效果還需要進一步探索。此外,當前的κ參數化方案使用的是路由邏輯值的簡單線性變換;是否存在更好的置信度信號來源、更合適的變換形式、更優的初始化和正則化策略,都是值得後續研究的方向。未來的工作也可以考慮將這一思路推廣到語言模型以外的其他MoE應用場景。

---

說到底,κ-SwiGLU做的事情,用一句話概括就是:讓專家在接到自己最擅長的任務時,把篩選標準調得更嚴格、更精準;在接到稍顯陌生的任務時,則放寬標準、多保留一些可能有用的資訊。這個機制的計算代價微乎其微,卻在跨越多種模型架構和模型深度的實驗中,一次又一次地帶來了穩定的性能提升。

對於想要在現有MoE模型上進行低成本改進的研究者和工程師來說,這個方向值得認真考量。而對於普通用戶來說,這項研究意味著未來的AI助手在處理它"更擅長"的問題時,可能會給出更精準、更聚焦的回答,而不是千篇一律地用同樣的處理方式對待所有問題。

有興趣深入了解技術細節的讀者,可以通過論文編號arXiv:2606.00761查閱完整的研究報告。

---

**Q&A**

Q1:κ-SwiGLU和普通SwiGLU有什麼實質區別?

A:普通SwiGLU的門控靈敏度是固定的,無論什麼問題進來都用同一套標準篩選資訊。κ-SwiGLU則根據路由器對"當前問題交給這個專家處理"這件事的確信程度,動態調整門控的靈敏度——確信度高時門控更鋒利,確信度低時門控更寬容。這兩個參數每個專家獨立學習,整體新增參數量不到原來的0.02%。

Q2:"路由器-門控隱性耦合"是什麼意思,為什麼重要?

A:在MoE模型訓練過程中,研究人員發現專家內部的門控投影向量會自動向路由器的特徵向量方向對齊或反向對齊。這導致路由確信度高的問題在專家內部會得到系統性的門控偏移,相當於路由器和專家之間存在一條隱藏的"資訊通道"。這個現象之前從未被系統研究過,正是這一發現激發了κ-SwiGLU的設計思路。

Q3:κ-SwiGLU的訓練為什麼要先凍結κ參數一段時間?

A:如果一開始就讓κ參數自由變化,模型的路由行為和專家表示還不穩定,動態門控可能會引入混亂。研究團隊將α和b在訓練前10%的步驟內凍結為0,此時κ=1,模型與標準SwiGLU完全相同,先讓路由和專家表示趨於穩定。之後再解凍κ參數,讓門控在穩固的基礎上逐步學習動態調整策略,從而保證訓練穩定性。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新