字節跳動與北京大學聯手揭秘：大模型里那個「微不足道」的小向量，竟是訓練效率的隱藏關鍵

這項由字節跳動Seed團隊與北京大學聯合開展的研究，以預印本形式發布於2026年5月26日，論文編號為arXiv:2605.26895。感興趣的讀者可通過該編號在arXiv平台查閱完整原文。

贊助商廣告

每一個現代大語言模型（也就是ChatGPT、Llama這類能聊天、能寫作的AI）的內部，都有一種叫做"歸一化層"的結構，它就像廚師在把食材下鍋之前先統一處理一遍，讓所有原料大小均勻、狀態穩定，方便後續操作。這個結構里有兩個部分：一個是固定的"均勻化"操作，另一個是一組可學習的小數字，叫做"縮放向量字節跳動與北京大學聯手揭秘大模型里那個微不足道的小向量竟是訓練效率的隱藏關鍵 "（scale vector）。前者被研究者們反覆研究、討論，而後者——這組小數字——卻幾乎從沒被人認真對待過。

畢竟，它們的數量實在太少了。以Llama 1B這個模型為例，整個模型有超過十億個參數，而所有縮放向量加起來只有80640個，占比不到萬分之一。這就好比一道大餐里，有人只盯著那一小撮裝飾用的蔥花，覺得它可有可無。

然而這項研究的出發點正是一個反直覺的疑問：這撮"蔥花"，真的只是擺設嗎？

研究結果令人意外。縮放向量雖然參數量微乎其微，但把它們從模型里拿掉，訓練效果會顯著變差；經過精心設計的改進方案，還能讓模型在同等算力下訓練得更好、擴展性更強。這項工作從理論和實驗兩個維度，完整地解釋了縮放向量到底在做什麼、什麼時候該用什麼策略、以及如何讓它發揮更大的作用。

一、那撮"蔥花"拿掉之後，菜就不對味了

要理解為什麼縮放向量重要，先要明白它在模型里的位置。現代大語言模型普遍採用一種叫做"Pre-Norm"的架構（Llama就是典型代表），每個計算模組在進行核心運算之前，都會先經過一個歸一化層處理，而這個歸一化層的輸出，就是"歸一化結果乘以縮放向量"。

從數學上看，縮放向量緊接著後面的線性變換（矩陣乘法），二者可以合併。換句話說，縮放向量完全可以被"吸收"進後面的權重矩陣里，在表達能力上不增加任何新東西。這就像一道食譜里，蔥花的量可以直接折算進醬料配比——單獨列出來，似乎多此一舉。

贊助商廣告

既然如此，把它們去掉會怎樣？研究團隊在0.12B規模的Llama模型上做了實驗，結論出乎意料：在相同學習率下，有縮放向量的模型從頭到尾都比沒有的更優，最終損失低了約0.028，換算成訓練效率，相當於節省了約40%的訓練數據量。即便為去掉縮放向量的模型單獨重新調整學習率，差距依然存在，最終損失仍高出約0.015。

這說明縮放向量的價值不在於"表達更多"，而在於"訓練更快"。研究團隊用理論分析揭示了背後的機制：縮放向量的存在，讓後面的矩陣權重的訓練動態發生了根本性變化，產生了一種"自我放大的預條件效應字節跳動與北京大學聯手揭秘大模型里那個微不足道的小向量竟是訓練效率的隱藏關鍵 "。

用更通俗的話來說：以廚房流水線為比喻，矩陣權重是負責切菜的廚師，損失函數是最終菜品的評分。沒有縮放向量時，廚師每次只按照統一節奏切菜；有了縮放向量後，流水線會根據當前狀態自動調速——哪塊地方還沒切好，就在那裡加快節奏，越切越順。研究團隊從梯度流的角度證明，在相同初始狀態下，有縮放向量的模型訓練損失在每一個時間步都嚴格低於沒有的版本，這一結論具有嚴格的數學保障。

這個機制還有一個漂亮的守恆律：在標準初始化下（縮放向量初始為全1，矩陣權重初始為接近0的小值），系統會始終保持"縮放向量的平方減去權重列的平方等於1"這個關係，從而保證訓練全程都有加速效果，而不只是某個階段。

二、何時該給"蔥花"加鹽，何時不該

確認了縮放向量有用之後，下一個實際問題來了：訓練大模型時，通常會對權重參數施加"權重衰減"（weight decay，簡稱wd），也就是定期輕輕壓縮參數的幅度，防止它們無限膨脹。對縮放向量，要不要也這麼做？

這個問題在業界懸而未決。OLMo、nanoGPT、Qwen等主流開源模型的做法各不相同，有的加，有的不加。研究團隊給出了一個系統性的理論框架來回答這個問題，關鍵在於區分兩種不同的縮放向量。

贊助商廣告

第一種叫"輸入端歸一化層"（Input-Norm）的縮放向量，它緊接著後面的線性變換，就像Pre-Norm結構里的情況。正如前面分析的，這類縮放向量不增加表達能力，只影響優化動態。對這類向量施加權重衰減，好處是可以壓制它們的幅度增長，進而控制訓練過程中損失函數的"曲率"（Hessian尖銳度）——曲率越高，訓練越容易不穩定。研究團隊用隨機梯度下降的隨機微分方程分析證明，不加權重衰減時，縮放向量的期望範數會無界增長，導致損失的最大特徵值、跡、Frobenius範數等曲率指標都趨於發散；而加了權重衰減後，這些指標都能保持有界，訓練因此更穩、更快，甚至允許使用更大的學習率。

第二種叫"輸出端歸一化層"（Output-Norm）的縮放向量，它不直接接線性變換，而是直接作用在某個子模組的輸出上，比如Gemma架構里注意力模組後面額外加的歸一化層、以及查詢/鍵歸一化（Q/K-Norm）。這類縮放向量直接決定了輸出的幅度，因此真實地影響著模型的表達能力。對它們施加權重衰減，相當於在壓縮這個子模組的發言權，與殘差主幹的相對影響力就會被削弱，這通常是有害的。

為了驗證這套理論，研究團隊在0.5B的Gemma模型上分別控制兩類縮放向量的權重衰減，訓練了10B和50B個token。結果完全符合預測：給輸入端縮放向量加權重衰減，性能更好；給輸出端縮放向量去掉權重衰減，性能更好。由此，他們提出了一條實用原則，稱為"個體化權重衰減字節跳動與北京大學聯手揭秘大模型里那個微不足道的小向量竟是訓練效率的隱藏關鍵 "（IWD）：對兩類縮放向量區別對待，不能一刀切。

三、三條讓"蔥花"更香的改進思路

理解了縮放向量的作用機制之後，一個自然的問題出現了：既然它的價值在於為矩陣訓練提供"預條件"，能不能設計得更好，讓這種加速效果更強？研究團隊給出了三個方向。

第一個方向叫做"異構化"。在標準的Transformer注意力模組裡，查詢（Q）、鍵（K）、值（V）三個線性變換共用同一個Pre-Norm層的輸出，也就是共用同一組縮放向量。類似地，前饋網路里的門控投影和上投影也共用一組。但研究團隊發現，這三個（或兩個）矩陣在訓練過程中的動態行為是不同的——以0.12B Llama的第三層為例，Q矩陣和V矩陣的Frobenius範數隨訓練的變化曲線就明顯不同。

贊助商廣告

既然各自動態不同，用同一組縮放向量來為它們提供"預條件"，就好比一個廚房助手要同時給三個節奏不同的廚師調速，肯定有人被拖累。解決方案自然是為每個分支分配獨立的縮放向量，讓Q有自己的一組，K有自己的一組，V有自己的一組。這樣每個分支的預條件都能貼合自己的訓練動態，實現"量身定製"的加速。這個改動只增加了O(d)量級的參數（d是隱藏維度），相對於O(d?)的矩陣參數而言可以忽略不計，但帶來的優化好處是實質性的。

第二個方向叫做"位置改進"。標準做法裡，縮放向量總是放在線性變換的輸入側，相當於只對輸入的每個通道施加了一個乘數，影響的是矩陣運算的"行方向"。研究團隊指出，這種單側調節可能不夠充分——矩陣運算結束後，輸出通道的狀態依然可能不均衡，而標準設計無法直接干預輸出側。

他們提出了幾種改進方案。其中一種是"雙側放置"（DP），在線性變換的輸入側和輸出側各放一組縮放向量，從而同時覆蓋行方向和列方向的預條件。還有一種更穩定的變體叫"雙側歸一化放置字節跳動與北京大學聯手揭秘大模型里那個微不足道的小向量竟是訓練效率的隱藏關鍵 "（DNP），在輸出側的縮放向量前先插入一次歸一化，防止雙側乘法引起的數值不穩定。值得注意的是，當DNP用在注意力模組的查詢和鍵投影上時，它等價於給這兩個投影分別加了一個Q/K-Norm，這正是Gemma等模型已有的設計；而用在其他位置時，它引入了額外的歸一化。研究團隊從理論上證明，雙側放置在相同有效狀態下的瞬時損失下降速率不低於單側，且在早期訓練階段有嚴格的量化優勢（差距以t?的速率快速擴大）。

第三個方向叫做"幅度-方向重參數化"。任何一組縮放向量都可以分解為兩個部分：整體幅度（這組向量有多"大"）和方向（各個分量之間的相對比例）。標準做法里這兩者被耦合在一個向量里，可能導致梯度在這兩個方向上的流動不平衡。

研究團隊提出了一種分離式參數化，稱為"原始空間重參數化字節跳動與北京大學聯手揭秘大模型里那個微不足道的小向量竟是訓練效率的隱藏關鍵 "（OR）：把縮放向量寫成"幅度標量 × 歸一化方向向量"的形式，分別用兩個參數控制。這樣，梯度流對幅度和方向的調整是獨立的。理論分析表明，這種參數化會在有效參數空間裡誘導一個各向異性的預條件算子——沿幅度方向的調整被放大了d倍（d是維度數），而方向調整保持在O(1)的穩定尺度上。這意味著整體縮放的調整會非常敏捷，而每個通道相對比例的精細調整則相對保守，兩者各司其職。另一種變體是"指數空間重參數化"（ER），把乘法關係轉化為指數形式處理，在對數尺度上分離幅度和方向，適合那些天然以乘積形式出現的參數場景。

贊助商廣告

這三個方向背後有一個統一的數學框架。研究團隊指出，所有這些設計實質上都是在對矩陣的"有效參數"做一種低秩的乘積重參數化：把矩陣W替換為diag(u)·W·diag(v)的形式，其中u和v是兩個向量，分別作用在輸出通道和輸入通道上。這種結構只用O(d?+d?)個額外參數，卻能調製整個O(d?×d?)維的矩陣空間，以極低的成本帶來實質性的優化收益。而這種參數變換誘導的預條件算子，與Adam、Shampoo等自適應優化器的梯度統計預條件是互補的、機制不同的——前者來自當前模型狀態，後者來自歷史梯度統計，兩者結合可以帶來額外的協同增益。

四、實驗驗證：從小模型到大模型，一路領先

理論再漂亮，也需要實驗來檢驗。研究團隊將上述四個方向——異構化（HG）、雙側歸一化放置（DNP）、原始空間重參數化（OR）、個體化權重衰減（IWD）——逐步疊加，在0.12B Llama模型上一步步驗證效果。

首先單獨引入HG（異構化），模型性能提升，最終損失下降。然後在HG的基礎上測試不同的位置設計，雙側放置DP帶來持續的損失降低，而DNP雖然在短期內不如DP，但結合後續改進後表現最優。接著疊加OR或ER重參數化，兩者均有改善，其中DNP+OR的組合效果最為突出。最後加入IWD，DNP引入了輸出端歸一化層，從而使得IWD策略有了用武之地，進一步降低了終態損失。四個類別的改進全部帶來了清晰的收益，與理論預期高度一致。

隨後，研究團隊把這四種改進組合成一個統一策略，在密集模型（Dense）和混合專家模型（MoE）兩種架構上，從0.12B到2B參數規模，系統性地與精心調優的Llama基線進行比較。訓練預算約為每個參數（密集模型）或每個激活參數（MoE模型）100個token，遠超Chinchilla最優比例，更接近實際工業預訓練規模。

密集模型方面，在0.12B、0.25B、0.5B、0.75B、1B五個規模上，改進策略在整個訓練過程中始終保持更低的驗證損失，且差距隨訓練推進逐漸擴大，訓練越久優勢越明顯。擬合的擴展律曲線也顯示，改進方案的斜率略陡於基線，意味著隨著模型變大，優勢可能進一步擴大——在擴展律對比圖中，改進方案相當於把基線的算力效率提高了約1.22倍。

贊助商廣告

MoE模型同樣一致地勝出，在所有五個規模（0.25B到2B總參數）上，改進策略比精心調優的基線低0.02以上的終態損失，擴展律對比顯示約1.25倍的算力效率提升。

兼容性方面，研究團隊還測試了Muon優化器和warmup-stable-decay（wsd）學習率調度器這兩種最近流行的訓練配置。在兩者下，改進策略依然穩定領先基線超過0.015的終態損失，且在wsd調度的穩定訓練階段優勢持續擴大，進入衰減階段後也沒有縮小，暗示這套方案對長時間過訓練（overtraining）場景尤為友好。

參數和計算開銷方面，改進策略只引入了O(d)量級的額外參數，在1B模型上僅增加約萬分之七的參數量。為了排除"參數多了自然更強"的干擾，研究團隊專門對比了一個參數總量與改進方案相同的"加寬基線"（通過微調前饋網路寬度實現），結果後者幾乎沒有改善，而改進策略帶來了0.033的大幅下降，從而確認收益來自設計本身，而非額外參數。計算層面，在1B模型上實測，改進策略的訓練壁鍾時間增加約4%，顯存增加約1%，均可忽略不計。

---

說到底，這項研究做的事情，就是把一個幾十年來一直被忽視的"小零件"翻出來，認認真真地研究了它到底是什麼、為什麼有用、什麼時候有害、以及如何改進。結論出人意料地紮實：這個參數量可以忽略不計的縮放向量，是大語言模型訓練效率的一個真實但未被充分挖掘的槓桿點。

對於普通用戶而言，這項研究意味著：未來基於這套方案訓練出來的模型，在相同的算力預算下，可能表現得更好；或者達到同等表現，所需的算力和時間更少。在大模型訓練成本動輒數百萬乃至數千萬美元的今天，哪怕是幾個百分點的效率提升，也意味著相當可觀的資源節約。

研究團隊本身也點出了未來值得繼續探索的方向：這套分析框架目前集中在Llama和Gemma這樣的具體架構上，如何推廣到更廣泛的模型設計，以及縮放向量的最優設計是否會隨模型規模變化而變化，都是開放的問題。從這個意義上說，這撮"蔥花"的故事，還沒有講完。

贊助商廣告

有興趣深入了解的讀者，可以通過arXiv編號2605.26895查閱完整論文和附錄中詳細的數學證明。

---

Q&A

Q1：縮放向量在大語言模型里的作用是什麼？

A：縮放向量是歸一化層里一組可學習的參數，數量極少但作用關鍵。它並不增加模型的表達能力，而是通過影響矩陣權重的訓練動態來加快收斂——相當於給後續的矩陣運算提供了一種自適應的加速機制，讓訓練過程更高效。

Q2：權重衰減對縮放向量有什麼影響？

A：這取決於縮放向量的類型。緊接線性變換的"輸入端"縮放向量，加權重衰減有助於控制訓練曲率、穩定訓練；而直接作用於模組輸出的"輸出端"縮放向量，加權重衰減反而會壓縮模型的表達能力，通常應該避免。一刀切地對所有縮放向量統一處理是不準確的。

Q3：這篇論文提出的改進方案具體提升了多少效果？

A：在密集模型上，改進方案相當於將基線的算力效率提升約1.22倍；在混合專家模型上約為1.25倍。在0.12B到2B的所有測試規模上，改進策略的終態驗證損失均持續低於精心調優的基線，且差距隨訓練時間推進而擴大，額外參數和計算開銷均可忽略不計。