耶魯大學與新加坡國立大學聯手揭秘：為什麼Muon優化器能比Adam快兩倍訓練大語言模型？

這項由耶魯大學、新加坡國立大學和明尼蘇達大學聯合開展的研究，以預印本形式發布於2026年6月3日，論文編號為arXiv:2606.04662。如果你對完整的數學推導和實驗細節感興趣，可以通過這個編號在arXiv平台上查閱全文。

贊助商廣告

說到訓練大語言模型，你可以把整個過程理解為一個人在爬山——目標是找到山谷里的最低點，也就是讓模型犯錯最少的那個狀態。每走一步，你都需要決定往哪個方向走、邁多大步子。Adam這個優化器就像一位老練的登山者，過去十年來一直是這條山路上公認的最佳嚮導，幾乎所有頂尖大語言模型都靠它訓練出來。然而，2024年出現了一個名叫Muon的新嚮導，它在多項大規模測試中展現出約兩倍於Adam的訓練效率——相同的山路，Muon的嚮導帶隊只需要Adam一半的時間就能抵達谷底。

這個現象讓研究人員感到困惑：Muon究竟做對了什麼？它憑什麼走得更快？這篇論文的核心價值就在於，它從地形曲率的角度——也就是"山路有多陡"這個視角——系統性地回答了這個問題。

一、兩位登山嚮導的行走方式有什麼本質區別

要理解Muon和Adam的區別，需要先了解這兩位嚮導是如何決定下一步怎麼走的。Adam是一個非常精細化的嚮導，它把每一塊參數（你可以理解成模型里的每一個調節旋鈕）都單獨對待，根據這個旋鈕最近被擰動的歷史來決定這次該擰多少。具體而言，Adam會記錄每個旋鈕被擰動的平均幅度（一階動量）和平均幅度的平方（二階動量），然後用這兩個歷史資訊來標準化當前的調整量。這種"因材施教"的方式讓Adam在處理不同旋鈕時非常靈活。

Muon則採用了一種截然不同的策略。它把模型里的參數矩陣——也就是成百上千個旋鈕組成的一張大表——作為一個整體來考慮。Muon會計算這張大表當前的梯度（也就是告訴你每個方向該擰多少的信號），然後對這個梯度矩陣做一種叫做"譜歸一化"的操作：把矩陣里所有非零的奇異值全部拉平到同一個數值。用登山類比來說，Muon不是根據每個方向的坡度來決定步伐大小，而是在所有方向上保持同樣的步幅，只根據方向本身決定往哪裡邁步。

贊助商廣告

這個區別在實踐中意味著什麼？在一個擁有數百億參數的大語言模型里，不同方向上的坡度可能相差極其懸殊——有些方向坡度極陡，有些方向幾乎是平地。Adam會在陡坡上邁小步，在平地上邁大步；Muon則始終保持均勻步伐，在所有方向上分配同等的更新能量。

二、解剖每一步的進展：用二階泰勒展開拆解損失下降

研究團隊首先建立了一個數學框架來精確衡量每走一步能下降多少高度。他們藉助了一個叫做"二階泰勒展開"的工具——你可以把它理解成用一個拋物面來局部近似山路地形。在這個近似下，每走一步所能下降的高度可以被整齊地拆分成兩部分：一部分是"一階收益"，代表你沿著正確方向邁步能獲得的基本下降；另一部分是"曲率代價"，代表因為這個方向的地形太陡、走這一步會付出的額外代價。用公式語言來說，損失下降≈?梯度, 更新方向? - 1/2 ?更新方向, 黑塞算子[更新方向]?，前一項是一階收益，後一項是曲率代價。

研究團隊在一個1.24億參數的NanoGPT模型上進行了實驗，使用FineWeb數據集訓練，對Adam和Muon的每一步都精確計算了這兩個分量。之所以選擇1.24億參數這個規模，是因為計算黑塞矩陣（也就是刻畫局部地形曲率的數學對象）的計算量隨參數規模平方級增長，超過這個規模在當前硬體條件下難以實現精確測量。

實驗結果呈現出一幅清晰的圖景：Muon在每一步都能下降更多高度，這與它的訓練效率優勢完全吻合。更關鍵的發現是，當研究者把一階收益和曲率代價分開來看時，兩者的差異明顯不對稱。在一階收益方面，Adam和Muon幾乎相同——兩條曲線貼在一起，說明兩者在"選擇正確下山方向"這件事上旗鼓相當，儘管Adam的數值波動稍微大一些。然而在曲率代價方面，Adam的曲線始終高懸在Muon之上，顯示Adam每走一步都要付出更高昂的曲率稅。結論非常清楚：Muon領先Adam的原因不是它在找方向上更聰明，而是它走路時踩到的地形更平緩、每步付出的曲率代價更小。

贊助商廣告

值得一提的是，研究者發現對Muon來說，這個二階近似值比真實下降量稍小一些，說明除了二階效應之外，可能還有更高階的效應進一步貢獻了Muon的優勢——這留下了未來研究的空間。

三、曲率代價的構成：到底是步子太大還是方向太陡？

發現了曲率代價的差距之後，研究團隊進一步追問：這個差距究竟從何而來？曲率代價的數學形式是 1/2 乘以更新向量的平方範數再乘以一個叫做"歸一化方向銳度"（NDS）的量。這個拆分意味著，曲率代價要麼來自步子邁得太大（更新範數大），要麼來自方向本身走的地形太陡（NDS高）。

為了區分這兩種可能，研究團隊分別測量了Adam和Muon在每個訓練步驟的更新範數（步子大小）和NDS（方向陡峭程度）。NDS的定義是：把黑塞算子應用到更新方向上再與更新方向做內積，然後除以更新方向範數的平方——通俗來說，它衡量的是"沿著這個特定方向走，地形有多陡"。

測量結果讓人印象深刻。在更新範數方面，Adam和Muon幾乎完全一致，兩條曲線像孿生兄弟一樣貼合，這說明兩者的步子大小是類似的。然而在NDS方面，Adam的曲線始終位於Muon之上，顯示Adam選擇的更新方向始終在更陡峭的地形上行走。研究團隊進一步計算了Adam與Muon各項指標的比值：更新範數平方的比值始終接近1（步子一樣大），但NDS的比值平均高達1.76（Adam走的坡比Muon陡76%），而曲率代價的比值與NDS比值幾乎完全重合。這個數字化的證據清晰地說明：Muon的曲率優勢完全由方向選擇決定，而非步長控制。

四、數據分布的不均衡如何放大這種優勢

確定了NDS是關鍵因素之後，研究團隊開始探索是什麼具體因素影響著這個NDS差距。他們首先關注訓練數據的特性，因為此前已有研究表明Muon在"重尾分布"數據——也就是少數類別的樣本數量遠多於其他類別的情形——上表現特別突出。

為了精確控制實驗條件，研究團隊構建了一個合成數據集，叫做Zipf-PCFG數據集。這個數據集非常精巧：它模擬了自然語言中詞彙和主題的分布規律，同時允許研究者通過一個參數s來精確控制數據的不均衡程度。當s=0時，數據分布相對均勻；當s越來越大（比如s=0.5或s=1），數據就變得越來越不均衡，少數高頻詞彙的使用概率遠高於大多數低頻詞彙，類似於真實語言中"的"、"了"、"是"這些詞的出現頻率遠高於"氧化磷酸化"這樣的專業詞彙。

贊助商廣告

研究團隊在三種不均衡程度下分別用Adam和Muon訓練了一個900萬參數的小型模型，然後計算每種情況下整個訓練過程中的平均NDS。為了方便比較，他們把所有數值都除以Muon在均勻分布（s=0）下的NDS，使其變成一個相對量。

結果顯示出一個單調遞增的趨勢：隨著數據不均衡程度的加劇，兩個優化器的NDS都在上升，但Adam上升得快得多。具體來說，當s=0時，Adam的歸一化NDS是1.63，Muon是1.00；當s=0.5時，分別是1.95和1.03；當s=1時，分別是2.38和1.25。兩者之間的差距（Adam減去Muon）從0.63擴大到0.92再擴大到1.13，整整增加了1.8倍。換句話說，數據越不均衡，Muon的方向選擇優勢就越明顯——它在崎嶇不均的地形上依然能保持平穩行走，而Adam則越走越陡。

五、深入模型內部：哪些層在貢獻這個優勢？

研究團隊還從模型結構的角度剖析了NDS的來源。他們把一個深度神經網路看成由多層堆疊而成的結構，每層都有自己的參數矩陣，並且將總NDS分解為兩部分：一部分是"層內NDS"，衡量每一層自己內部更新方向遇到的陡峭程度；另一部分是"跨層NDS"，衡量不同層之間的更新相互作用所帶來的額外曲率。

在12層的Transformer模型上，研究團隊對整個訓練過程進行了追蹤。結果顯示，隨著訓練的推進，Muon的跨層NDS（不同層之間的相互影響）下降得非常快，而層內NDS（每層自己的曲率）下降則相對緩慢。到了訓練中後期，Muon的總NDS構成發生了明顯變化：層內NDS所占的比例從訓練早期的約14%急劇攀升到訓練後期的約44%，幾乎翻了三倍。相比之下，Adam的這個比例變化非常平穩，始終在27%到34%之間波動。這說明在訓練中後期，Muon相對於Adam的NDS優勢主要來自於它在每一層內部選擇了更平緩的方向，而不是依賴層間的協同效應。

更進一步，研究團隊還把這12層的層內NDS差距按層分解，發現這個差距在空間分布上極度集中：約70%的差距集中在模型的第一層和最後一層（邊界層），約28%集中在深層（第8至第11層），而中間層（第2至第7層）加起來只貢獻了約2%。邊界層之所以差距最大，可能是因為這兩層直接與詞彙表嵌入和輸出預測打交道，受數據分布的影響最直接。

贊助商廣告

六、用理論證明：為什麼Muon的方向天然更平緩？

為了給上述實驗發現提供理論支撐，研究團隊構建了一個簡化的數學模型——一個有著特定結構的二次函數優化問題——來嚴格證明Muon為什麼能取得更低的NDS。這個模型基於四個經過實驗驗證的假設，它們共同刻畫了大語言模型訓練中局部地形的典型特徵。

第一個假設是黑塞矩陣（刻畫局部地形曲率的數學對象）具有低Kronecker秩結構。這聽起來很技術性，但本質上是在說，這個高維地形雖然很複雜，但它的主要結構可以用兩個較小矩陣的乘積來近似表達——就像一張複雜的地形圖可以用"東西方向坡度"和"南北方向坡度"的組合來描述。研究團隊在實際模型的注意力矩陣上驗證了這一點：用排名前4的Kronecker近似就能捕捉到80%以上的地形能量，殘差幾乎可以忽略不計。

第二個假設是這些Kronecker因子可以被一組共同的正交基同時對角化，也就是說存在一套通用的"方向坐標系"，在這套坐標系裡，地形的主要彎曲方向可以被清晰辨識。實驗顯示，通過JADE聯合近似對角化算法找到的最優正交基，能夠捕捉到各矩陣族約89%和85%的能量，驗證了這一假設的合理性。

第三個假設是這些基本方向上的曲率是高度異質的，也就是說有些方向極陡（高曲率），有些方向極平（低曲率），兩者之間可能相差幾個數量級。實驗測量顯示，在注意力矩陣的正曲率方向中，最陡的方向與第88陡的方向之間的曲率比高達259萬倍，分布呈現出極度的長尾特徵。

第四個假設是梯度信號在這些方向上的分布與曲率分布高度一致——高曲率的方向上往往有更大的梯度分量，也就是"最需要優化的方向也是最陡的方向"。實驗數據顯示，僅僅沿著前88個正曲率方向，就能捕捉到約87%的梯度能量。

在這四個假設成立的前提下，研究團隊對Muon和梯度下降（GD，可以理解為Adam的簡化版）進行了理論分析——之所以分析GD而非Adam，是因為在這個簡化的二次問題上，實驗顯示Adam的行為與GD非常相似，兩者都與Muon差異顯著，所以分析GD的結論可以類推到Adam。

贊助商廣告

理論分析揭示了一個核心機制：由於梯度偏向高曲率方向（第四假設），GD的每一步都會把更多的更新能量集中到高曲率方向上，導致它的NDS始終偏高。更糟糕的是，GD在高曲率方向上會過沖（走過頭了），在低曲率方向上則欠沖（沒走到位），導致高曲率和低曲率方向上的殘差能量像鐘擺一樣來回振盪，輪流占主導地位。Muon則完全不同：由於譜歸一化把所有方向的更新幅度拉平，它在每個方向上貢獻的更新能量是完全均勻的，自然地避免了能量向高曲率方向集中，因此NDS恆定且等於各方向曲率的簡單均值。

研究團隊給出的定理明確表述為：在任意有限訓練步數T之內，Muon的平均NDS都嚴格小於GD的平均NDS。此外，當曲率異質性足夠強時（具體條件是曲率比ρ+1大於1/α，同時1/α大於1加上梯度比τ），Muon在每一步之後都比GD達到更低的損失值。這個條件在實際LLM訓練中得到滿足，與觀測到的數百萬倍曲率差距以及梯度對高曲率方向的強烈偏向完全吻合。

七、理論證明背後的數學圖景

研究團隊的數學證明可以通過一個直覺化的場景來理解。假設優化問題的地形可以用少數幾組"模式"來描述，其中一部分模式（高曲率組）極為陡峭，另一部分（低曲率組）相對平緩，而梯度信號在高曲率模式上更強烈。

對於GD來說，每一步的更新向量與梯度成正比，因此天然地在高曲率模式上花費更多的更新能量。但GD在高曲率方向上的步長（由精確線搜索確定）偏小（以免過沖），於是更新後高曲率方向的殘差減小了，低曲率方向的殘差卻沒有相應減小——這導致高曲率組的"能量分額"P在奇數步和偶數步之間交替翻轉：P_{t+1} = 1 - P_t。這種來回擺動使GD的時間平均能量分額始終高於高曲率組的實際比例α，從而導致時間平均NDS持續偏高。

對於Muon來說，譜歸一化操作將每個模式的更新幅度強制設為相同（所有奇異值歸一），所以高曲率組和低曲率組在每一步中分別貢獻的更新幅度完全由組內模式數量決定，恰好等於α和(1-α)。Muon的NDS因此恆定為αw_H + (1-α)w_L，不多也不少。

贊助商廣告

在損失比較方面，Muon的兩組殘差縮放量（高曲率組和低曲率組的殘差除以各自曲率）會向一個共同的均衡點收縮，每步收縮率為Γ?（其中Γ=|mw_H-(q-m)w_L|/(mw_H+(q-m)w_L)）。GD則因為殘差能量在兩組之間來回振盪，其兩步收縮因子為√R（R由兩次單步收縮因子之積決定）。在滿足本文的條件時，Muon不僅在第一步之後就有更低的損失值，而且之後每步的收縮速率也快於GD，因此在整個訓練過程中始終保持領先。

研究團隊還指出，他們的分析框架可以解釋近期一項Muon變體（Zhu等人2026年的工作）為何有效：該變體通過增加Muon在平坦Hessian方向上的更新分量來進一步提升效率，而根據本文的理論，這種修改正是在進一步降低NDS，從而減少曲率代價。

說到底，這篇論文做了一件頗有價值的事情：它把"Muon比Adam快"這個工程經驗現象，從本質機制上給解釋清楚了。答案是，Muon憑藉譜歸一化操作，在選擇每步更新方向時天然地迴避了陡峭地形，不是因為它找到了更好的下山方向，而是因為它走的路更平坦、代價更低。這個洞察有助於指導未來優化器的設計：與其讓優化器在尋找方向上變得更聰明，不如想辦法讓它選擇的方向本身具有更低的曲率代價。當然，這篇研究還有其局限性——目前只在因果語言模型上進行了驗證，擴散模型等其他架構上的情況還有待探索，這也是研究團隊明確指出的未來工作方向。

對這一發現感興趣的讀者，可以通過arXiv編號2606.04662找到完整的論文原文，裡面包含所有實驗細節、數學證明和補充實驗結果。

Q&A

Q1：Muon優化器和Adam優化器最根本的區別是什麼？

A：Adam對每個參數單獨處理，根據各自的梯度歷史來調整更新幅度；Muon則把參數矩陣作為整體，通過譜歸一化將所有方向的更新幅度拉平，使每個方向獲得同等的更新能量。這導致Muon在每一步選擇的更新方向所經歷的地形曲率（NDS）更低，曲率代價更小，因此每步能獲得更大的損失下降。

贊助商廣告

Q2：歸一化方向銳度（NDS）在Muon與Adam對比中扮演了什麼角色？

A：NDS衡量的是沿著特定更新方向行走時地形有多陡峭，它等於黑塞算子作用於更新方向後與更新方向的內積除以更新方向範數的平方。研究發現，Adam和Muon的更新步長大小幾乎相同，但Adam的NDS平均比Muon高76%，而曲率代價的差距幾乎完全由NDS差距決定。正是這個更低的NDS讓Muon每步能獲得更大的損失下降。

Q3：數據不均衡程度為什麼會影響Muon相對於Adam的優勢？

A：當訓練數據分布越不均衡（比如少數詞彙頻率遠高於大多數詞彙），黑塞矩陣的曲率異質性越強，梯度在高曲率方向上的偏向也越明顯。Adam的更新方向因此越容易集中在這些陡峭方向，導致NDS急劇上升；而Muon的譜歸一化天然地平衡了各方向的更新能量，對這種偏向有更強的抵抗力，因此數據越不均衡，兩者之間的NDS差距就越大。