這項由紐約大學(New York University)完成的研究於2026年5月發表,論文編號為arXiv:2605.21803v1,有興趣深入探究的讀者可通過該編號在arXiv平台上查閱完整論文。
如果你曾經好奇過,為什麼同一塊麵團,交給不同的麵包師,最終烤出來的麵包口感竟然截然不同——即便他們用的是同一個烤箱、同一份食譜,花的時間也差不多——那麼這篇論文想告訴你的,正是AI訓練領域中一個幾乎一模一樣的謎題。
故事的主角是大型語言模型(也就是驅動ChatGPT這類AI的技術核心),而謎題的關鍵,藏在一個長期被忽視的訓練細節里:**優化器**。
---
一、被遺忘的"揉面手法":優化器究竟是什麼
在AI模型的訓練過程中,有三個要素長期被視為決定模型好壞的鐵三角:模型有多大(參數數量)、用了多少數據、花了多少計算資源。研究者們根據這三個要素總結出所謂的"縮放定律"(Scaling Laws)——簡單說,就是模型越大、數據越多、算力越強,性能就越好,而且這個規律相當穩定,可以用來預測。
但這套鐵三角里,有一個東西一直被當作"不變量"悄悄忽略掉了,那就是優化器。
優化器是什麼?打個比方,如果把訓練AI比作揉麵包麵團,那麼數據就是麵粉和水,模型結構就是麵團最終的形狀模具,而優化器就是麵包師揉面的手法。同樣的材料和模具,有人用普通揉法,有人用法式摺疊法,有人用機器攪拌——最終麵包的內部氣孔結構、口感層次會大相徑庭,即便表面看起來都"烤熟了",外觀相差無幾。
紐約大學的這支研究團隊就在追問這樣一個問題:不同的"揉面手法"(優化器),會不會讓同一個AI架構產生根本不同的內部結構?而且,這種差異會不會在驗證指標(也就是模型測試成績)上完全看不出來,卻在更深層的表示空間裡留下清晰的痕跡?
答案是:會的,而且差異之大超出預期。
---
二、給AI做"內部CT掃描":譜分析是什麼
要理解研究團隊的發現,得先搞清楚他們用的"CT掃描儀"——譜分析(Spectral Analysis)。
語言模型內部有一種叫做前饋網路(Feed-Forward Network,FFN)的結構,可以把它理解為模型處理資訊時的"工作檯"。每個詞彙經過這個工作檯時,都會被映射到一個高維空間裡(可以粗略地想像成一個超級複雜的坐標系),然後模型在這個空間裡進行各種計算和理解。
譜分析,本質上就是看這個坐標系裡,資訊是如何分布的。具體來說,研究者們會計算這個高維空間的"特徵值分布"(Eigenspectrum)——可以把它想像成一個房間裡的聲音頻譜分析:有些頻率的聲音很響亮(資訊很集中),有些頻率幾乎是寂靜的(資訊很稀疏)。
基於這個頻譜,研究團隊使用了兩種不同的"有效維度"衡量方式。第一種叫做"軟秩"(Soft Rank),它更像是統計房間裡所有頻率的平均熱鬧程度,對那些微弱的聲音也很敏感,反映的是資訊在空間中的整體分散程度。第二種叫做"硬秩"(Hard Rank),它更專注於那幾個最響亮的主要頻率,衡量的是資訊是否集中在少數幾個主導方向上,對空間的有效利用更加敏感。
這兩種指標可以統一在一個叫做"雷尼熵"(Rényi Entropy)的數學框架里——你不需要理解這個名字,只需要知道它提供了一把可以調節靈敏度的旋鈕:旋鈕擰向一邊,你就更關注細微的弱信號;旋鈕擰向另一邊,你就更關注強勢的主導信號。軟秩和硬秩分別對應這把旋鈕的兩個特定位置。
研究團隊還特別關注一個叫做"硬軟秩不對稱性"(Hard-Soft Rank Asymmetry)的指標,簡單說就是軟秩和硬秩之間的差距。差距越大,說明工作檯上雖然有很多"頻道"在運作(軟秩高),但真正承擔主要工作的強勢頻道卻很少(硬秩低)——這意味著大量的空間維度其實是在"划水",沒有被有效利用起來。
---
三、同一架構,截然不同的內部世界:核心發現
研究團隊在兩種規模的GPT風格語言模型上(一種約1.6億參數,一種約3.5億參數)做了大量實驗。他們固定模型架構,只改變優化器,然後系統地比較不同"揉面手法"下模型內部的譜結構。
參與比較的優化器主要有四種。第一種是AdamW,這是目前業界使用最廣泛的標準優化器,相當於最普通的揉面手法。第二種是Muon,它在每次更新參數時會做一種叫做"正交化"的處理,可以理解為揉面時特別注重讓每個方向的力量都均勻分布、互不干擾。第三種是NorMuon,在Muon的基礎上還加了逐神經元的歸一化處理,管控更加精細。第四種是Dion,它也使用正交化更新,但可以通過調節一個"秩分數"參數來控制每次更新時動用多大比例的維度,從而讓研究者能夠精確地分離"正交化本身"和"更新維度數量"這兩個因素的影響。
實驗結果令人震驚。在擴展FFN寬度(也就是給工作檯增加更多維度)時,各優化器的硬秩增長速度(以冪律指數β來衡量)出現了天壤之別。
對AdamW來說,整體硬秩縮放指數只有0.29,而Muon達到了0.82,NorMuon達到了0.80,高性能的Dion(秩分數1/2)也有0.79。換句話說,每當工作檯寬度翻倍,Muon能把大約82%的新增空間轉化為真正有效的主導工作維度,而AdamW只能轉化不到30%——剩下的70%雖然"看起來存在",實際上卻在打醬油。
軟秩方面的差距則小得多,各優化器的指數集中在0.66到1.01之間,說明在"拓展整體資訊分布面積"這件事上,優化器的差異不那麼明顯。
這種軟硬秩的不對稱性,對不同優化器來說差異極大。AdamW的不對稱性高達0.37,而Muon和Dion(1/2)只有約0.14。換句話說,AdamW給工作檯增加新維度時,主要是擴大了"背景噪聲"的覆蓋面,而不是真正增加了能幹活的主力頻道。Muon則幾乎同步地增長兩類容量。
---
四、用不同頻率的詞來檢驗:HEAD、MID、TAIL三個世界
語言中詞彙出現的頻率遵循一個叫做"齊夫定律"的規律——少數詞極其常見(比如"的""了""是"),而大量詞非常罕見(比如各種專業術語、地名、人名)。研究團隊意識到,把所有詞混在一起計算可能會掩蓋重要差異,於是他們按詞頻把詞彙分成三組:HEAD(最常見的那批詞,占總使用量的約三分之一,但只有30種詞彙類型)、MID(中等頻率,約1215種詞彙類型)和TAIL(低頻詞,約4.9萬種詞彙類型,但每種詞本身出現得很少)。
這個分法揭示了一幅更細膩的圖景。
在TAIL(低頻詞)區域,AdamW的硬秩縮放指數只有0.44,而Muon和NorMuon達到了驚人的1.02和1.04——幾乎是線性增長,意味著每增加一倍工作檯寬度,有效主導維度就幾乎翻倍。兩者的差距達到了2.3倍。
在MID(中頻詞)區域,差距更加懸殊。AdamW的硬秩指數只有0.24,而Muon和NorMuon分別達到0.93和0.95。
在HEAD(高頻詞)區域,差距相對較小,各優化器的指數在0.26到0.59之間,而且擬合質量也更差,意味著這個區域的規律性本身就不那麼穩定。研究團隊因此認為,MID和TAIL區域才是最能反映優化器差異的"診斷性區域"。
從AdamW切換到Muon時,MID區域硬秩指數的提升幅度(+0.69)是HEAD區域(+0.33)的約2.1倍,而TAIL區域的提升(+0.58)也遠超HEAD。這說明Muon類優化器帶來的最大收益,恰恰集中在AI最難學好的那些罕見詞上——這對於語言模型來說意義重大,因為正是對罕見知識的掌握區分了平庸的模型和優秀的模型。
---
五、同樣的考試分數,不同的學習方式:匹配損失不等於匹配結構
研究團隊隨後面對一個非常關鍵的質疑:會不會只是因為AdamW訓練得不夠久,才導致譜容量偏低?只要訓練時間足夠長,AdamW是不是也能達到同樣的效果?
為此,他們設計了一個精妙的對照實驗:把AdamW的訓練步數從6000步延長到12000步,使其驗證困惑度(衡量語言模型預測能力的指標,越低越好)與秩分數1/16的Dion在6000步時的表現相當——也就是說,兩個模型在"考試成績"上持平。
然而,當他們打開模型內部做譜分析時,發現了一個令人不安的結果。
AdamW在12000步時,整體硬秩縮放指數從0.29直接崩潰到了0.03,對應的擬合優度R?只有0.01——這意味著寬度與有效維度之間的冪律關係幾乎完全消失了,不再是一條規律的曲線,而是一團散點。與此同時,軟秩指數只是從0.66溫和地降到了0.58,硬軟秩不對稱性卻從0.37飆升到了0.55。
相比之下,Dion(1/16)在6000步時維持了可靠的冪律關係,硬秩指數0.50,各頻率區間的擬合優度均保持在0.75以上。
從動態軌跡來看(圖3所呈現的內容),AdamW的TAIL區域硬秩縮放指數在大約4000步附近達到峰值,隨後開始持續下滑。而軟秩指數則相對穩定,這導致硬軟秩不對稱性隨著訓練時間的推移持續擴大。
更深層的原因在於:更寬的工作檯(更多FFN維度)在延長訓練後,其主導維度容量反而比窄工作檯丟失得更快,打破了"寬度越大容量越高"這一縮放定律成立所必需的單調順序。具體而言,在TAIL區域,8倍寬度的模型的硬秩在8000步時就跌落到了2倍寬度模型之下;而到12000步,4倍寬度的模型反而遠遠領先於8倍寬度模型。這徹底瓦解了冪律擬合的基礎。
研究團隊還專門排除了"學習率調參"這一解釋。他們分別在AdamW的三個學習率(0.001、0.003、0.006)和Muon的三個學習率(0.01、0.02、0.04)下進行了實驗,發現AdamW在任何學習率下的TAIL硬秩最高指數(0.44)始終低於Muon在任何學習率下的最低指數(0.80)——兩者的區間完全不重疊,不存在任何重合。
結論非常清晰:即便考試成績相同,兩個模型的內部學習方式是根本不同的。優化器塑造的不僅是訓練速度,更是知識在模型內部的組織結構。
---
六、秩分數是一個精準旋鈕:Dion實驗的啟示
Dion優化器的特別之處在於,研究者可以通過調節"秩分數"參數(r),精確控制每次參數更新時動用多大比例的正交化維度。這相當於給揉面機裝了一個精密調速旋鈕,讓研究者能夠系統地測試"正交化本身"和"更新維度數量"各自的貢獻。
實驗結果顯示,隨著秩分數從1/2逐步降低到1/16,TAIL區域的硬秩縮放指數從0.88單調地降到了0.40——後者與AdamW幾乎相當。與此同時,軟秩指數的下降要緩慢得多,從0.95降到0.72,而且在整個區間內始終顯著高於AdamW(0.62)。
這說明了一件重要的事:單純保留正交化結構(無論秩分數多低,Dion始終使用正交化更新),並不足以維持高效的主導維度轉化——更新所覆蓋的維度數量同樣至關重要。在極低秩分數下,正交化手法仍然能夠維持較高的彌散性譜容量(軟秩),但無法將新增的工作檯寬度有效轉化為強勢的主導工作頻道(硬秩)。
從不對稱性角度來看,TAIL區域的硬軟秩不對稱性從r=1/2時的+0.07上升到r=1/16時的+0.31,而這種不對稱性的上升在TAIL區域最為顯著,在HEAD區域則是非單調的,進一步確認了秩瓶頸主要是一個"低頻詞主導維度容量上限"的問題,而非均勻影響所有詞頻。
---
七、縮放到更大模型:規律依然成立
上述發現是否只是小模型的特有現象?研究團隊在3.5億參數的更大模型上重複了核心實驗(在四個FFN寬度點上進行掃描),結果顯示規律完全一致。
Muon在350M模型上的TAIL硬秩指數達到了1.13(R?=0.94),NorMuon為0.88(R?=0.98),而AdamW仍然只有0.39(R?=0.82),Dion(1/16)為0.48。AdamW在所有尺寸下都維持了正的TAIL不對稱性(160M為+0.18,350M為+0.19),而Muon在350M時甚至出現了輕微的負不對稱性(-0.13),意味著主導維度容量的增長速度開始超過彌散性容量——這是一種更加高效的容量利用形態。
---
八、換個注意力結構:架構干預的效果比不上換優化器
研究團隊進一步想知道:優化器帶來的譜縮放差異,與直接改變模型架構相比,孰輕孰重?
他們選擇了一種特定的架構干預:在保持總參數量不變的前提下,把注意力頭的數量從12個減少到6個(每個頭的維度相應增大,即提高了每個頭的"注意力秩")。這種干預來自近期關於注意力頭質量與數量權衡的研究,是一種有明確理論動機的架構調整。
比較結果非常清晰:在30個"頻率區間×軟硬秩"的組合中,有28個組合里,優化器帶來的最大增益都超過了架構干預帶來的增益。唯一的例外是HEAD區域的硬秩,在那裡AdamW切換到6頭架構的增益(+0.345)和Muon切換到6頭架構的增益(+0.651)都超過了最佳優化器切換帶來的增益(+0.330)。
更有趣的是,架構干預的效果本身也是優化器依賴的。以TAIL硬秩為例,將注意力頭從12個減少到6個,在AdamW下帶來+0.313的提升,在Muon下帶來+0.367的提升,而在NorMuon和Dion變體下幾乎沒有效果(絕對值≤0.023)。同樣的架構改動,對不同優化器的"回報"差異巨大。
更深層的現象是,架構干預改變了"哪個優化器最匹配這個架構"。在12頭原始架構下,NorMuon在六個頻率區間中的五個里擁有最高的縮放指數;但在6頭架構下,Muon在全部六個區間裡都奪得最高。架構變了,最佳優化器也跟著變了。
---
九、去掉位置編碼:另一種架構干預同樣是優化器依賴的
研究團隊還在350M模型上測試了第二種架構干預:移除RoPE位置編碼(RoPE是一種讓模型感知詞序的機制),使用無位置編碼的NoPE設計。
結果再次證明,架構變化的效果是通過優化器幾何來表達的,而非獨立作用的。
移除RoPE對Muon和NorMuon產生了方向相反的效果。對Muon而言,移除位置編碼使HEAD區域的硬秩指數從1.083升高到1.286(增加了+0.203),同時使MID和TAIL區域的指數分別下降了0.264和0.291——也就是說,NoPE讓Muon把容量轉移向了高頻詞,同時削弱了對低頻詞的覆蓋。而對NorMuon來說,移除位置編碼使所有三個頻率區間的硬秩指數都下降了,HEAD區域下降幅度最大(從1.023降到0.656,下降了0.367)。
不對稱性方面的變化也印證了這一點:在Muon下,NoPE使MID和TAIL區域的硬軟秩不對稱性從負值(-0.085和-0.129)翻轉為正值(+0.096和+0.091);在NorMuon下,三個區間的不對稱性都有所上升,HEAD區域上升幅度最大(從-0.045升至+0.315)。
從效果量的角度對比:在TAIL硬秩上,AdamW切換到Muon帶來的增益(|Δβ|=0.74)是注意力頭干預效果的約2.0倍,是RoPE移除效果的2.5至5.2倍。優化器切換始終是所有測試干預中效果最大的單一操作。
為了更深入理解NoPE干預的機制,研究團隊還做了一項"位置依賴性"分析,計算了FFN非線性變換前後,序列位置對激活方差的解釋比例(通過一個類似方差分析的指標"對稱比"來衡量)。結果顯示,在RoPE設置下,所有優化器的FFN都表現出HEAD詞彙受到更強位置處理的偏向(即位置資訊在HEAD詞彙中被放大更多)。但切換到NoPE後,Muon和NorMuon都翻轉了這個偏向,轉而對TAIL詞彙施加更強的位置處理放大——而AdamW沒有發生這種翻轉,在NoPE下仍然保持HEAD偏向。
此外,位置處理的深度分布也發生了改變:在RoPE下,Muon的峰值位置處理出現在較深的層(第8、23、23、23層);在NoPE下,峰值移動到了最早的層(第2、2、1、1層)。NorMuon也出現了類似但更分散的前移。這說明,當外部位置信號消失時,不同優化器會用不同的深度分布策略來重新組織對位置資訊的內部處理。
---
十、訓練穩定性的邊界:哪些架構只有特定優化器才能駕馭
研究團隊還做了一組有趣的補充實驗,測試優化器是否會影響模型架構設計的可行範圍本身——而不僅僅是在同一架構內的容量利用效率。
他們使用了"部分後歸一化"(Partial PostLN)配置,也就是讓模型的前k%的層使用後歸一化,其餘層使用前歸一化。後歸一化架構在大規模訓練中以難以穩定訓練著稱,但理論上可能具有一些前歸一化所不具備的優勢。
實驗結果清楚地劃出了一條"可訓練邊界"。在學習率3×10??下,AdamW可以訓練"前25%層使用後歸一化"的配置(困惑度41.9),但在"前50%層使用後歸一化"時就直接發散崩潰了。即便將學習率大幅降低到10??來避免崩潰,"前75%層使用後歸一化"配置下AdamW的困惑度高達106.7,遠遠落後於同樣配置下Muon的40.9和NorMuon的32.8。
Muon和NorMuon可以穩定訓練"前75%層使用後歸一化"的配置並達到實用的困惑度,但所有優化器對"全部使用後歸一化"仍然無能為力。NorMuon由於額外的逐神經元歸一化,在最激進的部分後歸一化配置(75%)下表現優於Muon,說明更精細的參數尺度控制在梯度放大最嚴重時能提供額外穩定性。
Dion變體(秩分數1/2和1/16)均可訓練50%後歸一化配置,但在75%時失敗——這與譜縮放實驗中的規律有所不同(秩分數對譜容量有顯著影響,但對可訓練邊界的影響較小)。這說明正交化更新結構對穩定極端歸一化配置有幫助,但這種穩定性與秩分數關係不大;而譜容量的高效轉化則與秩分數密切相關。兩者是獨立的效應,通過不同的機制發揮作用。
---
說到底,這篇研究想傳達的核心資訊是:AI模型的"真實能力"並非只由它有多大、用了多少數據來決定——訓練它的方式,也就是優化器的選擇,會從根本上塑造模型內部知識的組織結構。
同一個模型,用Muon訓練和用AdamW訓練,在考試成績相差不大的情況下,內部卻可能是截然不同的兩個世界。一個能把更多工作檯空間轉化為真正有效的工作頻道,特別是在處理罕見詞彙時;另一個則把大量空間浪費在了低效的彌散性維度上,而且隨著訓練時間延長,這種浪費還會愈演愈烈。更關鍵的是,架構設計的效果也不是獨立於優化器存在的——同樣的架構改動,對不同優化器可能意味著完全不同的收益,甚至連"最適合這個架構的優化器"都會隨架構的改變而改變。
這對AI研究者意味著,未來在設計和比較模型時,不能再把優化器當作一個"背景設置"忽略掉,而應該把它視為和架構、數據量同等重要的設計軸。對普通用戶來說,這個發現提醒我們:當兩個AI系統聲稱"在同一基準上表現相當"時,它們內部對知識的組織方式可能有著深刻的差異,而這些差異會在那些罕見的、邊緣的情境下暴露出來——恰恰是在你最需要AI表現穩定的時候。
對未來感興趣的讀者不妨思考這樣一個問題:如果優化器能如此深刻地改變模型內部結構,那麼是否存在專門針對某類任務或知識分布量身定製的優化器?或者,能不能在訓練過程中動態切換優化器,讓模型在不同訓練階段採用不同的"揉面手法"?這些都是這項研究自然延伸出的有趣方向。感興趣的讀者可以通過arXiv編號2605.21803查閱完整論文,其中詳盡的附錄包含了大量額外實驗數據和深度分析。
---
Q&A
Q1:優化器和模型架構哪個對AI性能影響更大?
A:紐約大學的這項研究發現,在大多數測試場景中,切換優化器(例如從AdamW換成Muon)對模型內部譜容量的影響大於改變注意力頭數量等架構干預。具體來說,在TAIL低頻詞的硬秩縮放上,優化器切換的效果是注意力頭干預的約2倍,是移除位置編碼效果的2.5倍以上。但兩者的作用是相互耦合的,架構改變會影響哪種優化器最為匹配,不能簡單地說誰更重要。
Q2:AdamW訓練時間加倍能彌補和Muon的差距嗎?
A:不能。研究團隊將AdamW的訓練步數從6000步加倍到12000步,使其測試困惑度與低秩Dion優化器持平,但內部譜結構卻進一步惡化。AdamW的整體硬秩縮放指數從0.29降到了幾乎為零的0.03,更寬的模型的有效主導維度反而比窄模型丟失得更快,徹底瓦解了寬度與容量之間的冪律關係。因此,延長訓練時間不僅不能彌補差距,反而會加劇AdamW的譜容量崩潰。
Q3:Muon優化器在稀有詞學習上為什麼比AdamW強這麼多?
A:從譜分析結果來看,Muon類優化器在每次參數更新時使用正交化處理,使得更新方向更加均衡互不干擾,因此更能將新增的工作檯維度轉化為真正承擔主要工作的主導頻道。AdamW則傾向於把新增維度擴散到彌散性的低效方向上。稀有詞(TAIL區域)的學習恰恰最依賴這種主導維度的高效擴展,因為稀有詞出現次數少、學習信號弱,必須有更高效的表示結構來捕捉和儲存相關知識。






