這項由字節跳動Seed團隊與北京大學聯合開展的研究,以預印本形式發布於2026年5月26日,論文編號為arXiv:2605.26895。感興趣的讀者可通過該編號在arXiv平台查閱完整原文。
每一個現代大語言模型(也就是ChatGPT、Llama這類能聊天、能寫作的AI)的內部,都有一種叫做"歸一化層"的結構,它就像廚師在把食材下鍋之前先統一處理一遍,讓所有原料大小均勻、狀態穩定,方便後續操作。這個結構里有兩個部分:一個是固定的"均勻化"操作,另一個是一組可學習的小數字,叫做"縮放向量
"(scale vector)。前者被研究者們反覆研究、討論,而後者——這組小數字——卻幾乎從沒被人認真對待過。
畢竟,它們的數量實在太少了。以Llama 1B這個模型為例,整個模型有超過十億個參數,而所有縮放向量加起來只有80640個,占比不到萬分之一。這就好比一道大餐里,有人只盯著那一小撮裝飾用的蔥花,覺得它可有可無。
然而這項研究的出發點正是一個反直覺的疑問:這撮"蔥花",真的只是擺設嗎?
研究結果令人意外。縮放向量雖然參數量微乎其微,但把它們從模型里拿掉,訓練效果會顯著變差;經過精心設計的改進方案,還能讓模型在同等算力下訓練得更好、擴展性更強。這項工作從理論和實驗兩個維度,完整地解釋了縮放向量到底在做什麼、什麼時候該用什麼策略、以及如何讓它發揮更大的作用。
一、那撮"蔥花"拿掉之後,菜就不對味了
要理解為什麼縮放向量重要,先要明白它在模型里的位置。現代大語言模型普遍採用一種叫做"Pre-Norm"的架構(Llama就是典型代表),每個計算模組在進行核心運算之前,都會先經過一個歸一化層處理,而這個歸一化層的輸出,就是"歸一化結果乘以縮放向量"。
從數學上看,縮放向量緊接著後面的線性變換(矩陣乘法),二者可以合併。換句話說,縮放向量完全可以被"吸收"進後面的權重矩陣里,在表達能力上不增加任何新東西。這就像一道食譜里,蔥花的量可以直接折算進醬料配比——單獨列出來,似乎多此一舉。
既然如此,把它們去掉會怎樣?研究團隊在0.12B規模的Llama模型上做了實驗,結論出乎意料:在相同學習率下,有縮放向量的模型從頭到尾都比沒有的更優,最終損失低了約0.028,換算成訓練效率,相當於節省了約40%的訓練數據量。即便為去掉縮放向量的模型單獨重新調整學習率,差距依然存在,最終損失仍高出約0.015。
這說明縮放向量的價值不在於"表達更多",而在於"訓練更快"。研究團隊用理論分析揭示了背後的機制:縮放向量的存在,讓後面的矩陣權重的訓練動態發生了根本性變化,產生了一種"自我放大的預條件效應
"。
用更通俗的話來說:以廚房流水線為比喻,矩陣權重是負責切菜的廚師,損失函數是最終菜品的評分。沒有縮放向量時,廚師每次只按照統一節奏切菜;有了縮放向量後,流水線會根據當前狀態自動調速——哪塊地方還沒切好,就在那裡加快節奏,越切越順。研究團隊從梯度流的角度證明,在相同初始狀態下,有縮放向量的模型訓練損失在每一個時間步都嚴格低於沒有的版本,這一結論具有嚴格的數學保障。
這個機制還有一個漂亮的守恆律:在標準初始化下(縮放向量初始為全1,矩陣權重初始為接近0的小值),系統會始終保持"縮放向量的平方減去權重列的平方等於1"這個關係,從而保證訓練全程都有加速效果,而不只是某個階段。
二、何時該給"蔥花"加鹽,何時不該
確認了縮放向量有用之後,下一個實際問題來了:訓練大模型時,通常會對權重參數施加"權重衰減"(weight decay,簡稱wd),也就是定期輕輕壓縮參數的幅度,防止它們無限膨脹。對縮放向量,要不要也這麼做?
這個問題在業界懸而未決。OLMo、nanoGPT、Qwen等主流開源模型的做法各不相同,有的加,有的不加。研究團隊給出了一個系統性的理論框架來回答這個問題,關鍵在於區分兩種不同的縮放向量。
第一種叫"輸入端歸一化層"(Input-Norm)的縮放向量,它緊接著後面的線性變換,就像Pre-Norm結構里的情況。正如前面分析的,這類縮放向量不增加表達能力,只影響優化動態。對這類向量施加權重衰減,好處是可以壓制它們的幅度增長,進而控制訓練過程中損失函數的"曲率"(Hessian尖銳度)——曲率越高,訓練越容易不穩定。研究團隊用隨機梯度下降的隨機微分方程分析證明,不加權重衰減時,縮放向量的期望範數會無界增長,導致損失的最大特徵值、跡、Frobenius範數等曲率指標都趨於發散;而加了權重衰減後,這些指標都能保持有界,訓練因此更穩、更快,甚至允許使用更大的學習率。
第二種叫"輸出端歸一化層"(Output-Norm)的縮放向量,它不直接接線性變換,而是直接作用在某個子模組的輸出上,比如Gemma架構里注意力模組後面額外加的歸一化層、以及查詢/鍵歸一化(Q/K-Norm)。這類縮放向量直接決定了輸出的幅度,因此真實地影響著模型的表達能力。對它們施加權重衰減,相當於在壓縮這個子模組的發言權,與殘差主幹的相對影響力就會被削弱,這通常是有害的。
為了驗證這套理論,研究團隊在0.5B的Gemma模型上分別控制兩類縮放向量的權重衰減,訓練了10B和50B個token。結果完全符合預測:給輸入端縮放向量加權重衰減,性能更好;給輸出端縮放向量去掉權重衰減,性能更好。由此,他們提出了一條實用原則,稱為"個體化權重衰減
"(IWD):對兩類縮放向量區別對待,不能一刀切。
三、三條讓"蔥花"更香的改進思路
理解了縮放向量的作用機制之後,一個自然的問題出現了:既然它的價值在於為矩陣訓練提供"預條件",能不能設計得更好,讓這種加速效果更強?研究團隊給出了三個方向。
第一個方向叫做"異構化"。在標準的Transformer注意力模組裡,查詢(Q)、鍵(K)、值(V)三個線性變換共用同一個Pre-Norm層的輸出,也就是共用同一組縮放向量。類似地,前饋網路里的門控投影和上投影也共用一組。但研究團隊發現,這三個(或兩個)矩陣在訓練過程中的動態行為是不同的——以0.12B Llama的第三層為例,Q矩陣和V矩陣的Frobenius範數隨訓練的變化曲線就明顯不同。
既然各自動態不同,用同一組縮放向量來為它們提供"預條件",就好比一個廚房助手要同時給三個節奏不同的廚師調速,肯定有人被拖累。解決方案自然是為每個分支分配獨立的縮放向量,讓Q有自己的一組,K有自己的一組,V有自己的一組。這樣每個分支的預條件都能貼合自己的訓練動態,實現"量身定製"的加速。這個改動只增加了O(d)量級的參數(d是隱藏維度),相對於O(d?)的矩陣參數而言可以忽略不計,但帶來的優化好處是實質性的。
第二個方向叫做"位置改進"。標準做法裡,縮放向量總是放在線性變換的輸入側,相當於只對輸入的每個通道施加了一個乘數,影響的是矩陣運算的"行方向"。研究團隊指出,這種單側調節可能不夠充分——矩陣運算結束後,輸出通道的狀態依然可能不均衡,而標準設計無法直接干預輸出側。
他們提出了幾種改進方案。其中一種是"雙側放置"(DP),在線性變換的輸入側和輸出側各放一組縮放向量,從而同時覆蓋行方向和列方向的預條件。還有一種更穩定的變體叫"雙側歸一化放置
"(DNP),在輸出側的縮放向量前先插入一次歸一化,防止雙側乘法引起的數值不穩定。值得注意的是,當DNP用在注意力模組的查詢和鍵投影上時,它等價於給這兩個投影分別加了一個Q/K-Norm,這正是Gemma等模型已有的設計;而用在其他位置時,它引入了額外的歸一化。研究團隊從理論上證明,雙側放置在相同有效狀態下的瞬時損失下降速率不低於單側,且在早期訓練階段有嚴格的量化優勢(差距以t?的速率快速擴大)。
第三個方向叫做"幅度-方向重參數化"。任何一組縮放向量都可以分解為兩個部分:整體幅度(這組向量有多"大")和方向(各個分量之間的相對比例)。標準做法里這兩者被耦合在一個向量里,可能導致梯度在這兩個方向上的流動不平衡。
研究團隊提出了一種分離式參數化,稱為"原始空間重參數化
"(OR):把縮放向量寫成"幅度標量 × 歸一化方向向量"的形式,分別用兩個參數控制。這樣,梯度流對幅度和方向的調整是獨立的。理論分析表明,這種參數化會在有效參數空間裡誘導一個各向異性的預條件算子——沿幅度方向的調整被放大了d倍(d是維度數),而方向調整保持在O(1)的穩定尺度上。這意味著整體縮放的調整會非常敏捷,而每個通道相對比例的精細調整則相對保守,兩者各司其職。另一種變體是"指數空間重參數化"(ER),把乘法關係轉化為指數形式處理,在對數尺度上分離幅度和方向,適合那些天然以乘積形式出現的參數場景。
這三個方向背後有一個統一的數學框架。研究團隊指出,所有這些設計實質上都是在對矩陣的"有效參數"做一種低秩的乘積重參數化:把矩陣W替換為diag(u)·W·diag(v)的形式,其中u和v是兩個向量,分別作用在輸出通道和輸入通道上。這種結構只用O(d?+d?)個額外參數,卻能調製整個O(d?×d?)維的矩陣空間,以極低的成本帶來實質性的優化收益。而這種參數變換誘導的預條件算子,與Adam、Shampoo等自適應優化器的梯度統計預條件是互補的、機制不同的——前者來自當前模型狀態,後者來自歷史梯度統計,兩者結合可以帶來額外的協同增益。
四、實驗驗證:從小模型到大模型,一路領先
理論再漂亮,也需要實驗來檢驗。研究團隊將上述四個方向——異構化(HG)、雙側歸一化放置(DNP)、原始空間重參數化(OR)、個體化權重衰減(IWD)——逐步疊加,在0.12B Llama模型上一步步驗證效果。
首先單獨引入HG(異構化),模型性能提升,最終損失下降。然後在HG的基礎上測試不同的位置設計,雙側放置DP帶來持續的損失降低,而DNP雖然在短期內不如DP,但結合後續改進後表現最優。接著疊加OR或ER重參數化,兩者均有改善,其中DNP+OR的組合效果最為突出。最後加入IWD,DNP引入了輸出端歸一化層,從而使得IWD策略有了用武之地,進一步降低了終態損失。四個類別的改進全部帶來了清晰的收益,與理論預期高度一致。
隨後,研究團隊把這四種改進組合成一個統一策略,在密集模型(Dense)和混合專家模型(MoE)兩種架構上,從0.12B到2B參數規模,系統性地與精心調優的Llama基線進行比較。訓練預算約為每個參數(密集模型)或每個激活參數(MoE模型)100個token,遠超Chinchilla最優比例,更接近實際工業預訓練規模。
密集模型方面,在0.12B、0.25B、0.5B、0.75B、1B五個規模上,改進策略在整個訓練過程中始終保持更低的驗證損失,且差距隨訓練推進逐漸擴大,訓練越久優勢越明顯。擬合的擴展律曲線也顯示,改進方案的斜率略陡於基線,意味著隨著模型變大,優勢可能進一步擴大——在擴展律對比圖中,改進方案相當於把基線的算力效率提高了約1.22倍。
MoE模型同樣一致地勝出,在所有五個規模(0.25B到2B總參數)上,改進策略比精心調優的基線低0.02以上的終態損失,擴展律對比顯示約1.25倍的算力效率提升。
兼容性方面,研究團隊還測試了Muon優化器和warmup-stable-decay(wsd)學習率調度器這兩種最近流行的訓練配置。在兩者下,改進策略依然穩定領先基線超過0.015的終態損失,且在wsd調度的穩定訓練階段優勢持續擴大,進入衰減階段後也沒有縮小,暗示這套方案對長時間過訓練(overtraining)場景尤為友好。
參數和計算開銷方面,改進策略只引入了O(d)量級的額外參數,在1B模型上僅增加約萬分之七的參數量。為了排除"參數多了自然更強"的干擾,研究團隊專門對比了一個參數總量與改進方案相同的"加寬基線"(通過微調前饋網路寬度實現),結果後者幾乎沒有改善,而改進策略帶來了0.033的大幅下降,從而確認收益來自設計本身,而非額外參數。計算層面,在1B模型上實測,改進策略的訓練壁鍾時間增加約4%,顯存增加約1%,均可忽略不計。
---
說到底,這項研究做的事情,就是把一個幾十年來一直被忽視的"小零件"翻出來,認認真真地研究了它到底是什麼、為什麼有用、什麼時候有害、以及如何改進。結論出人意料地紮實:這個參數量可以忽略不計的縮放向量,是大語言模型訓練效率的一個真實但未被充分挖掘的槓桿點。
對於普通用戶而言,這項研究意味著:未來基於這套方案訓練出來的模型,在相同的算力預算下,可能表現得更好;或者達到同等表現,所需的算力和時間更少。在大模型訓練成本動輒數百萬乃至數千萬美元的今天,哪怕是幾個百分點的效率提升,也意味著相當可觀的資源節約。
研究團隊本身也點出了未來值得繼續探索的方向:這套分析框架目前集中在Llama和Gemma這樣的具體架構上,如何推廣到更廣泛的模型設計,以及縮放向量的最優設計是否會隨模型規模變化而變化,都是開放的問題。從這個意義上說,這撮"蔥花"的故事,還沒有講完。
有興趣深入了解的讀者,可以通過arXiv編號2605.26895查閱完整論文和附錄中詳細的數學證明。
---
Q&A
Q1:縮放向量在大語言模型里的作用是什麼?
A:縮放向量是歸一化層里一組可學習的參數,數量極少但作用關鍵。它並不增加模型的表達能力,而是通過影響矩陣權重的訓練動態來加快收斂——相當於給後續的矩陣運算提供了一種自適應的加速機制,讓訓練過程更高效。
Q2:權重衰減對縮放向量有什麼影響?
A:這取決於縮放向量的類型。緊接線性變換的"輸入端"縮放向量,加權重衰減有助於控制訓練曲率、穩定訓練;而直接作用於模組輸出的"輸出端"縮放向量,加權重衰減反而會壓縮模型的表達能力,通常應該避免。一刀切地對所有縮放向量統一處理是不準確的。
Q3:這篇論文提出的改進方案具體提升了多少效果?
A:在密集模型上,改進方案相當於將基線的算力效率提升約1.22倍;在混合專家模型上約為1.25倍。在0.12B到2B的所有測試規模上,改進策略的終態驗證損失均持續低於精心調優的基線,且差距隨訓練時間推進而擴大,額外參數和計算開銷均可忽略不計。






