這項由穆罕默德·本·扎耶德人工智慧大學(MBZUAI)與南京大學聯合開展的研究,發表於2026年第43屆國際機器學習大會(ICML),論文預印本編號為arXiv:2605.10468,於2026年5月11日公開。感興趣的讀者可通過該編號在arXiv平台上查閱完整論文。
**廚房裡來了陌生人**
設想一位經驗豐富的老廚師,花了幾十年時間把一間廚房布置得井井有條:刀具按照自己的握法磨利,鍋碗按照自己的烹飪節奏擺放,調料架按照自己的配方邏輯排列。這一天,來了一位新手助理廚師,他有著截然不同的烹飪習慣——他不但改變了刀的擺放位置,還把調料架重新排列了順序,甚至換了一套全新的切割方式。最後做出來的菜,不能說難吃,但總感覺少了那位老廚師特有的味道。
這個廚房故事,正是這篇論文所研究的核心問題的絕妙寫照。在人工智慧領域,訓練一個大型語言模型(也就是類似ChatGPT這種能理解和生成文字的AI)分為兩個階段:第一階段叫"預訓練",相當於讓這位廚師從零開始學習所有烹飪基礎知識,耗時耗力,通常要消耗巨大的計算資源;第二階段叫"微調",相當於讓已經具備基礎技能的廚師專門學習某一道菜,比如如何做數學題、如何寫代碼。
在這兩個階段中,AI研究者需要選擇一種"優化器"——也就是控制AI如何一步一步調整自身參數的工具,可以把它理解為廚師的烹飪風格或操作習慣。長期以來,業界主流選擇是一種叫做"Adam"的優化器,它已經被用於訓練幾乎所有廣為人知的開源大模型。然而近年來,一種叫做"Muon"的新興優化器開始嶄露頭角,它在預訓練階段展現出約兩倍於Adam的計算效率,還被用於訓練了萬億參數級別的頂尖模型,包括Kimi K2/2.5和GLM-4.5/4.7。
問題隨之而來:既然大多數現有模型都是用Adam預訓練的,那能不能在微調階段切換到Muon?研究者們發現,答案是"不能直接切換"——這正是這篇論文要探究的"優化器不匹配"問題,也就是那位新手助理廚師闖入老廚師廚房時發生的那種混亂。
**一、Adam與Muon:兩種截然不同的"烹飪風格"**
要理解為什麼不能隨意切換,首先得明白這兩位"廚師"的工作方式有多大差異。
Adam優化器的工作原理,可以用一位極度細心的廚師來比喻。這位廚師在調整每一種調料的用量時,會分別記錄每種調料歷史上的波動幅度——如果某種調料用量一直比較穩定,這次就可以大膽調整;如果某種調料歷來變化劇烈,這次就要保守一點。用技術語言來說,Adam為每個參數單獨計算一個自適應的學習步長,依賴的是梯度的"一階矩"(平均方向)和"二階矩"(波動幅度)。這種逐元素的精細調整,使得Adam在各種任務上都表現穩定。
Muon優化器的工作方式則完全不同,更像一位注重整體協調的編舞者。它不關心每個舞者(參數)各自的小動作,而是把整個舞團的動作統一正交化處理——確保每個方向的移動步幅大致相等,沒有哪個方向特別突出或特別被忽略。用技術語言來說,Muon對梯度矩陣進行"正交化"處理,使得更新後的矩陣的奇異值趨於均勻分布。這個過程通過一種叫做"牛頓-舒爾茨疊代"的數學工具來近似實現。
這兩種截然不同的工作風格,導致它們訓練出的模型具有完全不同的"內部結構"。研究團隊通過理論分析和實驗證明,Adam傾向於訓練出"最大範數較小"的權重矩陣(每個參數的絕對值被控制在較小範圍),而Muon則傾向於訓練出"譜範數較小"的權重矩陣(矩陣的奇異值分布更均勻)。
研究團隊用一個簡化的線性回歸問題嚴格證明了這一點,並給出了定理:SignGD(Adam的簡化代理)從零初始化出發,最終收斂到最小化最大範數的解;而Muon從零初始化出發,最終收斂到最小化譜範數的解。這兩個解通常是完全不同的兩個點。
在實際預訓練實驗中,研究團隊訓練了兩個5.61億參數的NanoChat模型,一個用Adam,一個用Muon,並對比了它們的注意力權重矩陣的"穩定秩"(一種衡量矩陣有效維度利用率的指標)。結果顯示,Muon訓練的模型在整個訓練過程中保持了明顯更高的穩定秩,說明Muon確實賦予了模型權重一種更"高維度均勻分布"的譜結構,這與Adam訓練出的權重有著根本性的不同。
**二、切換優化器為何會"毀掉"已有知識**
現在可以理解那位新手助理廚師闖入老廚師廚房時發生了什麼。老廚師(Adam預訓練的模型)把廚房(權重矩陣)按照自己的習慣整理得恰到好處——調料按照最大範數的邏輯擺放,每個參數的絕對值都被控制在精心校準的範圍內。新手助理(Muon微調)進來之後,卻按照自己的譜範數邏輯重新排列一切,這與廚房原有的秩序格格不入,原本精心建立的知識結構被打亂了。
研究團隊通過一個巧妙的實驗直觀展示了這種"打亂"效應。他們對Adam預訓練的模型分別用Adam和Muon進行微調,並繪製了學習率掃描曲線。結果發現,當使用"錯配"的Muon進行微調時,最優學習率向左偏移(變得更小),而且即使在最優學習率下,最終能達到的最好性能也比"匹配"的Adam微調要差。
這意味著什麼?這意味著在不匹配的情況下,模型對更新幅度變得極度敏感——一旦學習率稍微大一點,Muon就會把預訓練好的權重結構破壞掉,造成性能下降。而且即便小心翼翼地控制學習率,也無法完全彌補這種結構上的不兼容。這正是"不匹配破壞了預訓練知識"的直接證據。
這種不匹配在兩個方向上都存在——不僅Adam預訓練的模型用Muon微調會出問題,Muon預訓練的模型用Adam微調同樣會出問題。研究團隊通過在WikiText-2數據集上的對照實驗確認了這種對稱性:對於Muon預訓練的模型,Full-Muon微調(匹配)比Full-Adam微調(不匹配)性能好0.023個歸一化困惑度單位;對於Adam預訓練的模型,Full-Adam微調(匹配)比Full-Muon微調(不匹配)同樣更好,差距為0.009個單位。兩者都存在明顯的匹配優勢。
**三、LoRA:一道讓兩位廚師和平共處的隔離牆**
發現了問題,研究團隊隨即思考:有沒有什麼辦法讓Muon也能用於Adam預訓練的模型?
關鍵的洞察來自於對不匹配問題本質的理解:不匹配之所以有害,是因為Muon會把Adam精心構建的權重結構改變得面目全非。那麼,如果能限制Muon能改動的範圍,讓它只能在有限的空間內折騰,是不是就能避免破壞原有結構?
這個想法的實現,正是通過一種叫做"LoRA"(低秩適配,Low-Rank Adaptation)的技術。LoRA的原理用廚房比喻來說,就是在原來老廚師的廚房裡,給新手助理劃出一塊專屬的小操作台,並且這塊操作台只有極為有限的空間(低秩約束)。新手助理只能在這塊小操作台上工作,完全不得碰觸老廚師精心布置的主要區域。最終端上桌的菜餚,是老廚師的基礎配方(凍結的預訓練權重)加上新手助理在小操作台上搗鼓出的微小補充(低秩矩陣)的疊加。
具體來說,LoRA在微調時凍結了所有預訓練權重,只引入兩個額外的低秩矩陣A和B(其中秩r遠遠小於原始矩陣的維度),訓練時只更新這兩個小矩陣。這帶來了兩重保護:一是預訓練權重本身被完全鎖死,Muon根本沒有機會直接改動它們;二是低秩約束天然限制了更新的幅度,即便Muon在小矩陣上折騰,影響到整體模型的空間也非常有限。
研究團隊不僅在實驗上驗證了這一點,還在理論上給出了嚴格的分析。在那個簡化的線性回歸框架內,他們證明了LoRA約束下的最壞情況不匹配放大倍數,在Adam視角下不超過秩r,在Muon視角下不超過√r。當秩r=1時,放大倍數等於1,意味著完全消除了不匹配;當A等於單位矩陣時,則退化回全量微調的情形。這個理論結果非常直觀地說明了為什麼更低的秩對緩解不匹配更有效。
回到WikiText-2的實驗數據:引入LoRA之後,Adam預訓練模型上的不匹配差距從0.009下降到了0.002,縮小了78%;Muon預訓練模型上的差距則縮小了約39%。圖中也清楚地顯示,LoRA的學習率掃描曲線中,匹配和不匹配的差距明顯收窄,Muon在LoRA框架下甚至能使用更大的學習率。
**四、語言理解任務:從勉強達標到與Adam旗鼓相當**
為了驗證LoRA能否在實際任務中緩解不匹配,研究團隊在多個自然語言理解基準上進行了系統性實驗。
第一個測試場景是GLUE基準,這是評估AI模型理解英語能力的一套經典測試,包含句子可接受性判斷(CoLA)、文本蘊含(MNLI)、語義相似度(MRPC)、問題與段落匹配(QNLI)以及情感分類(SST-2)五項任務。測試所用的模型是T5-Base,一個用Adafactor(Adam的內存高效變體)預訓練的模型,參數量約2.2億。
結果非常清晰地支持了研究團隊的假設。在全量微調的情況下,Full-Muon在五項任務上的平均準確率為88.77%,而Full-Adam為89.14%,Muon落後了約0.37個百分點。這個差距不算懸殊,但在這類任務上已經是統計顯著的差異。
切換到LoRA框架後,局面發生了逆轉。LoRA-Muon的平均準確率達到88.97%,LoRA-Adam為88.93%,Muon不但追平了Adam,還略微超出。研究團隊還測試了Muon的一個增強版本"Muon-PE",它使用了一種叫做"極地快車"(Polar Express)的改進算法來更精確地進行正交化運算,結果LoRA-Muon-PE以89.20%的平均準確率高居所有方法之首,甚至超過了Full-Adam。
值得關注的是,PE的改進在全量微調時也有幫助,Full-Muon-PE達到了88.92%,比普通Full-Muon的88.77%有所提升,但仍未能追上Full-Adam的89.14%,說明PE雖然讓Muon更接近Adam,但在全量微調場景下依然存在結構不兼容的根本問題,LoRA才是真正消弭差距的關鍵。
**五、語言生成任務:數學、代碼、常識推理的三重考驗**
GLUE任務可能還不夠有說服力,畢竟差距本身就不大。研究團隊進一步在更具挑戰性的生成任務上進行了測試,使用的是Llama 2-7B,一個7億參數規模的Adam預訓練模型,在三種不同任務上分別進行微調。
數學推理任務使用MetaMathQA數據集的10萬條樣本進行訓練,在GSM8K小學數學題測試集上評估準確率。代碼生成任務使用CodeFeedback數據集的10萬條樣本,在HumanEval上評估代碼能通過測試的比例(Pass@1)。常識推理任務使用WizardLM指令數據集的5.2萬條樣本,在ARC、HellaSwag、PIQA等六個常識推理基準上綜合評估。
在數學任務上,不匹配問題最為突出:Full-Adam達到了61.66%的準確率,而Full-Muon只有57.37%,差距將近5個百分點,這在實際應用中是非常顯著的性能差異。引入LoRA後,LoRA-Adam為59.64%,LoRA-Muon為59.57%,兩者幾乎完全持平,不匹配問題得到了有效緩解。
在代碼任務上,不匹配問題相對溫和:Full-Adam達到35.57%,Full-Muon為34.35%,差距約1.2個百分點。LoRA框架下,LoRA-Muon(29.47%)甚至略高於LoRA-Adam(27.85%),Muon實現了超越。
在常識推理任務上,不匹配問題幾乎可以忽略不計:Full-Adam和Full-Muon分別為67.52%和67.57%,差距不足0.1個百分點。LoRA框架下,二者同樣旗鼓相當。
研究團隊還將實驗擴展到了130億參數的Llama 2-13B,在代碼生成任務上,LoRA-Adam達到33.17%,LoRA-Muon達到34.76%,Muon仍然表現良好,與7B模型的趨勢一致。
**六、視覺任務:跨越語言領域,結論同樣成立**
這項研究不僅局限於文本處理,研究團隊還把實驗延伸到了圖像分類領域,以驗證結論的普適性。
測試所用的模型是CLIP ViT-B/32,一種能同時理解圖片和文字的大型視覺模型,同樣是用Adam預訓練的。研究團隊凍結了模型的文字理解部分,只對圖像理解部分進行微調,分別在六個圖像分類數據集上測試:斯坦福汽車識別(StanfordCars)、紋理識別(DTD)、德國交通標誌識別(GTSRB)、遙感圖像分類(RESISC45)、場景識別(SUN397)以及街道數字識別(SVHN)。
在全量微調的情況下,Full-Adam和Full-Muon的平均準確率分別為86.55%和86.05%,差距約0.5個百分點,比語言任務中的不匹配問題要小。這個現象本身也很有意思,說明不匹配問題的嚴重程度因任務而異。
切換到LoRA框架後,LoRA-Muon(84.48%)和LoRA-Muon-PE(84.71%)都超過了LoRA-Adam(84.17%),在視覺領域,Muon同樣成功實現了對Adam的追平乃至超越。
為了確認這些發現具有統計學意義而非偶然波動,研究團隊使用隨機效應元分析方法,匯總了所有任務(包括上述三大實驗)的數據,計算了LoRA使Adam與Muon性能差距縮小的幅度。結論是:使用普通Muon時,差距平均縮小0.72個百分點(95%置信區間為0.41到1.04,p
**七、秩越高,不匹配問題越嚴重——LoRA秩的"甜蜜區間"**
LoRA技術有一個重要的參數:秩(rank),可以把它理解為給新手助理劃出的操作台有多大。秩越小,操作台越小,對原有廚房的干擾越小,但能做的菜式也越有限;秩越大,操作台越大,表達能力越強,但對原有廚房的干擾也越大,當秩等於原始矩陣的維度時,就等同於全量微調了。
研究團隊系統地測試了從2到512的各種秩,結果非常能說明問題。在數學推理任務上(不匹配問題最嚴重的場景),當秩在2到32之間時,LoRA-Muon一直優於或持平於LoRA-Adam。但從秩64開始,LoRA-Muon的性能開始下滑,而LoRA-Adam則繼續提升,到秩512時(接近全量微調的表達能力),二者的差距已經與全量微調時幾乎相同。這與理論預測完全一致:隨著秩增大,LoRA越來越接近全量微調,不匹配問題的危害也隨之浮現。
在代碼生成任務上(不匹配問題較輕微),LoRA-Muon和LoRA-Adam在所有測試的秩上都表現接近,沒有出現高秩下Muon崩潰的現象。
在視覺任務的斯坦福汽車識別上(不匹配問題也較輕微),LoRA-Muon在幾乎所有秩上都優於LoRA-Adam,優勢甚至隨秩增大而擴大,充分體現了Muon本身較快的收斂速度在低不匹配場景下能夠發揮作用。
這些實驗結果告訴我們一個很實用的建議:在不匹配問題嚴重的場景(如數學任務)下,應該選擇中等偏低的秩(比如8到32),在充分緩解不匹配的同時保留足夠的表達能力;當不匹配問題本身不嚴重時,可以適當使用更高的秩,充分發揮Muon收斂速度的優勢。
**八、災難性遺忘:不匹配破壞的不只是新任務表現,還會損害舊知識**
研究團隊還從另一個角度驗證了"不匹配破壞預訓練知識"這個核心假設——通過測量災難性遺忘來直接量化知識損失。
"災難性遺忘"是AI領域的一個經典問題,指模型在學習新技能時,把以前學會的知識忘得一乾二淨,就像一個人花了一個月全力備考駕照,卻發現自己把語文和數學都忘了。
實驗設計是:把Llama 2-7B在數學數據集上微調完畢後,去測試它在完全無關的常識推理任務上的表現。如果微調破壞了預訓練期間學到的常識知識,常識推理分數就會下降。
結果非常能說明問題。未微調的原始模型在常識推理任務上平均得分63.5%。經過數學微調後,Full-Adam的得分降到56.8%(下降6.7個百分點),Full-Muon降到55.4%(下降8.1個百分點),Full-Muon-PE更是降到54.1%(下降9.4個百分點)。
關鍵在於:Full-Muon不僅在數學任務上比Full-Adam差(參見前文,57.37% vs 61.66%),在常識遺忘程度上也比Full-Adam更嚴重。這說明不匹配問題並不是Muon"學得少"(否則遺忘應該也少),而是Muon"以更具破壞性的方式改變了權重結構",一邊沒有充分學到數學知識,一邊還把原有的常識知識給抹掉了更多。
引入LoRA後,LoRA-Adam的常識推理得分為57.7%,LoRA-Muon為56.9%,都明顯高於各自全量微調的版本,說明LoRA確實有效保護了預訓練知識不被微調破壞。
研究團隊還通過直接測量權重距離(微調後的權重與預訓練權重之間的餘弦距離和L2距離)來進一步確認這一點。在數學任務的全量微調中,Muon的餘弦距離是Adam的5.61到7.36倍,也就是說Muon把權重從預訓練起點推得更遠。而在LoRA框架下,這個比例反轉了:Muon的餘弦距離只有Adam的0.62到0.82倍,Muon反而比Adam更"溫和",更接近預訓練起點。
在常識推理任務(不匹配輕微)上,全量微調時Muon的餘弦距離本來就已經比Adam小(0.65到0.75倍),LoRA進一步把它壓縮到0.15到0.18倍,說明Muon在不存在嚴重不匹配問題時,本身就會更節制地修改權重。
**九、現有LoRA變體與Muon的兼容性:不是所有技巧都能直接移植**
既然LoRA能讓Muon與Adam媲美,那麼那些針對LoRA優化開發的各種變體方法,能否在Muon上發揮同樣的作用?研究團隊在GLUE基準上系統測試了幾種主流LoRA變體,結果揭示了一個重要的警示。
研究團隊將LoRA變體分為兩類:一類是"與優化器無關"的變體,可以直接套用在Muon上;另一類是"修改訓練算法"的變體,與Muon不兼容。
在與優化器無關的變體中,rsLoRA將LoRA的縮放因子從α/r改為α/√r,能穩定不同秩下的訓練;LoRA-One用一步梯度近似來初始化LoRA矩陣以加速早期收斂;PiSSA則用預訓練權重的主要奇異分量來初始化,使LoRA更接近全量微調的軌跡。
實驗結果顯示,這三種變體都能提升LoRA-Adam的性能:rsLoRA-Adam達到89.11%,LoRA-One-Adam達到89.16%,PiSSA-Adam達到88.95%,相比基礎LoRA-Adam的88.93%都有不同程度的提升。但是,把這三種變體應用到LoRA-Muon-PE上,結果卻並不理想:rsLoRA-Muon-PE為89.12%,LoRA-One-Muon-PE為89.09%,PiSSA-Muon-PE為89.12%,都低於基礎LoRA-Muon-PE的89.20%,不但沒有提升反而略有下降。
為什麼會這樣?研究團隊給出了清晰的解釋:rsLoRA增大了有效的更新幅度(通過更大的縮放因子),這等於擴大了新手助理的操作台,使得不匹配問題的影響重新浮現;LoRA-One和PiSSA則試圖讓LoRA的更新軌跡更接近全量微調,但越接近全量微調,不匹配問題就越嚴重,反而適得其反。
研究團隊還測試了需要修改訓練算法的變體:AdaLoRA動態分配不同層的秩預算;LoRA-Pro優化LoRA矩陣使其更好地近似全量微調的梯度更新;LoRA-RITE通過不變變換平衡來優化LoRA訓練;DoRA將權重分解為幅度和方向分別更新。這些方法都不能直接用於Muon,只能用Adam來運行。結果顯示,這些複雜方法與基礎LoRA-Adam相比優勢有限(89.11%、89.00%、89.01%,vs LoRA-Adam的88.93%),而且都低於最簡單的LoRA-Muon-PE(89.20%)。這一結果頗具說服力地展示了Muon在LoRA框架下的競爭力。
**十、計算效率:Muon的內存優勢是真實存在的**
論文還專門比較了Adam和Muon的實際計算效率,以確保這不只是一篇"理論上可行"的研究。
在LoRA微調框架下(這也是文章主要推薦的使用場景),LoRA-Muon比LoRA-Adam每步慢1.1到1.2倍(對於Llama 2-7B)或1.0到1.1倍(對於CLIP),這個開銷主要來自牛頓-舒爾茨正交化運算,可以接受。
在全量微調場景下,數字看起來差異很大(Muon慢2.3到2.9倍),但這個對比並不公平——Full-Adam需要使用DeepSpeed ZeRO-2這種特殊的分布式內存管理技術才能裝進8塊GPU,而Full-Muon的內存占用更小,用普通的標準分布式訓練框架就夠了。在單GPU的CLIP實驗上(兩種方法都不需要特殊內存優化),Full-Muon只比Full-Adam慢1.0到1.2倍。
內存方面,Muon只需要儲存一個動量緩衝區,而Adam需要同時儲存動量緩衝區和二階矩緩衝區兩個,等於Muon節省了50%的優化器狀態內存——對於Llama 2-7B來說,這相當於在FP32精度下節約了約14GB的顯存,這是一個非常實際的硬體優勢。
**歸根結底,這項研究告訴了我們什麼**
說到底,這篇論文回答了一個讓很多AI工程師頭疼的實際問題:我能用Muon來微調那些Adam訓練的模型嗎?答案是:直接用不行,但通過LoRA就可以。
核心道理其實很簡單:Adam和Muon就像兩位有著截然不同整理習慣的廚師,他們的工作結果具有根本不同的內在結構。如果強行讓一位廚師去改造另一位廚師的廚房,必然造成混亂。但如果給新來的廚師劃出一塊有限的專屬操作台(這就是LoRA),他就能在不破壞整體廚房秩序的前提下,施展自己的技藝。
從實用的角度來看,這個發現相當重要。Muon的內存占用只有Adam的一半,在計算效率上有明顯優勢,而且它的收斂速度在很多情況下比Adam更快。現在知道,只要配合LoRA使用,任何Adam預訓練的模型都可以用Muon進行微調,性能不會打折,內存反而還能省下來。
這裡有幾點實操建議值得記住:秩的選擇要適中,太大的秩會讓不匹配問題重新出現;Muon的最優學習率通常和Adam不同,需要單獨調整;那些專門為Adam優化的LoRA變體不要直接搬來給Muon用,未必有效甚至有害;以及,目前關於不匹配問題的理論解釋仍然不完整,也許未來還有更優雅的解決方案等待發現。
這項研究留下了一些開放的問題:不同任務之間不匹配嚴重程度差異懸殊(數學任務和常識推理任務的差距如此之大),背後的原因是什麼?除了LoRA,是否還有其他約束更新的方式同樣有效?能否在微調前就通過某種初始化或熱身策略來彌合兩種優化器造成的結構差異?這些問題為後來者指出了清晰的研究方向。
有興趣深入了解技術細節的讀者,可以通過arXiv編號2605.10468查閱這篇完整論文,其中包含嚴格的數學證明和完整的實驗數據。
Q&A
Q1:Muon優化器和Adam優化器有什麼核心區別?
A:Adam會對每個參數單獨計算自適應步長,依靠歷史梯度的均值和方差來決定每次更新多少。Muon則對整個權重矩陣的梯度進行正交化處理,使各個方向的更新步幅趨於均勻。這導致Adam訓練的模型權重每個參數的絕對值較小,而Muon訓練的模型權重矩陣的奇異值分布更均勻,兩種結構根本不同,互相切換就會出問題。
Q2:為什麼LoRA能緩解Muon和Adam之間的優化器不匹配問題?
A:LoRA在微調時完全凍結預訓練權重,只更新兩個額外的低秩小矩陣。這樣Muon就無法直接改動Adam精心構建的權重結構,只能在有限的低秩空間內操作,對原有模型的干擾極小。理論上已證明,LoRA下的最壞不匹配放大倍數不超過秩r,當秩為1時不匹配效應完全消失,從數學上保證了低秩約束能抑制不匹配危害。
Q3:用Muon微調Adam預訓練模型時,LoRA的秩選多大合適?
A:這取決於具體任務的不匹配嚴重程度。對於數學推理這類不匹配嚴重的任務,建議選擇中等偏低的秩(大約8到32),過高的秩會讓Muon的更新幅度接近全量微調,不匹配問題會重新顯現。對於常識推理或代碼生成這類不匹配較輕微的任務,可以使用更高的秩,充分發揮Muon收斂速度快的優勢。






