字節跳動虛擬寬度網路：不擴張主幹也能擁有更強大腦的秘密

當前大語言模型的發展如火如荼,研究者們一直在探索如何讓模型變得更強。傳統觀念認為,要提升模型能力,就得增加隱藏層的寬度(類似於給模型的"大腦"增加更多神經元),但這會帶來計算成本的平方級增長——成本翻倍可不是鬧著玩的。

贊助商廣告

就在本周，字節跳動Seed團隊發表了一篇題為《Virtual Width Networks》的論文,提出了一種巧妙的解決方案:虛擬寬度網路(VWN)。這項技術能在幾乎不增加計算成本的情況下,讓模型擁有更寬廣的表示能力,相當於給模型裝上了"虛擬增容"的外掛。

研究團隊在大規模實驗中發現了令人振奮的結果。他們在一個33億參數激活量的混合專家(MoE)模型上測試,將虛擬寬度擴大8倍後,模型達到相同性能水平所需的訓練數據量大幅減少:下一個詞預測任務減少了2.5倍,下兩個詞預測任務更是減少了3.5倍。更有趣的是,隨著訓練的進行,這種優勢還在持續擴大,就像滾雪球一樣越滾越大。研究團隊還發現了一個重要規律:虛擬寬度因子與模型損失之間存在近似對數線性關係,這為探索虛擬寬度作為大模型效率提升的新維度提供了初步的實證依據。

問題的緣起:寬度擴張的兩難困境

要理解虛擬寬度網路的價值,需要先搞清楚傳統模型面臨的難題。根據縮放法則,增加模型參數或訓練數據都能讓模型更強大。具體來說,增加模型寬度(隱藏維度)能讓模型在每個向量中裝入更多資訊,從而表示更複雜的函數,大幅提升性能。

然而直接增加隱藏維度會導致參數和計算量呈平方級增長。舉個例子,如果把隱藏維度從D增加到2D,參數量和計算量會變成原來的4倍,資源消耗成本難以承受。這就好比你想讓房間變大一倍,結果發現不僅地板面積要翻倍,連牆壁、天花板的材料都要按平方倍數增加,最後總成本遠超預期。

為了突破這個瓶頸,研究者們開發了條件計算策略,其中最著名的就是混合專家(MoE)架構。MoE的思路是為每個輸入動態激活專門的子網路,只使用一部分參數進行計算,從而在不成比例增加每個樣本計算成本的情況下擴大模型規模。

贊助商廣告

但MoE也有局限。傳統MoE架構可以看作只擴展了前饋網路的內部維度,而主幹的隱藏維度依然固定,這就像房子雖然有了更多儲物空間,但主要起居空間還是那麼大,表示能力仍然受到隱藏維度的瓶頸限制,與真正加寬隱藏層的模型相比還是有性能差距。雖然直接增加隱藏維度能彌補這個差距,但又會導致參數和計算量平方級增長。這引出了核心問題:能否在避免平方級成本增長的同時,獲得更寬表示的好處?

虛擬寬度網路正是為解決這個問題而生。研究團隊的核心洞察是,更寬的表示可以通過擴展嵌入層實現,而不必拓寬隱藏層——後者才是平方級計算成本的主要來源。嵌入層的計算開銷相對較小,擴展它不會顯著增加總體計算負擔。從這個角度看,之前的超連接(Hyper-Connections)和AltUp等方法可以視為VWN框架的簡化實例。通過改進VWN的設計,研究團隊進一步提升了其表示能力,並發現了虛擬寬度的良好縮放特性——具體而言,發現了虛擬寬度因子與損失之間的縮放關係,這為社區探索虛擬寬度縮放作為大模型效率提升的新維度提供了動力。

虛擬寬度網路的核心機制

虛擬寬度網路的輸入是一個拓寬的詞嵌入,研究團隊稱之為"超寬嵌入"。在VWN內部,中間表示相應地稱為"超寬隱藏狀態"。為了處理這些狀態,VWN用"廣義超連接"(GHC)替代了標準的殘差連接。GHC是一個更通用的表述,統一了超連接(HC)和分數連接(FC)的思想,引入了一種靈活的機制,能以輕量級計算將超寬隱藏狀態壓縮到主幹寬度,再輸入注意力或前饋模塊,然後將模塊輸出擴展回超寬寬度,更新超寬隱藏狀態供下一層使用。在最後一層,一個歸約算子(比如線性投影)將最終的超寬隱藏狀態映射回原始隱藏寬度,然後通過解嵌入層產生輸出logits。

為了更好地利用拓寬的表示,研究團隊將VWN與多詞預測(MTP)結合,同時優化標準的下一詞目標和輔助的n-gram損失。直觀地說,更密集的MTP監督信號能充分調動擴展的虛擬空間,而VWN帶來的額外表示自由度改善了短程組合建模,產生協同效應。

贊助商廣告

在標準Transformer中,L層模型的寬度為D,初始詞表示通過嵌入查找得到h?∈R^D。這個表示隨後通過Transformer層處理,每層由注意力塊和前饋網路(FFN)塊組成。在第l層,中間隱藏向量h^l∈R^D由h^(l-1)計算得出。最後一層輸出詞表示h^L∈R^D,再通過線性頭投影到|V|維詞表空間。Transformer的計算複雜度為O(D²),說明縮放模型寬度D會導致計算成本平方級增長。

嵌入查找操作只占整體計算成本的一小部分。利用這個洞察,研究團隊將嵌入維度與隱藏層維度解耦,讓嵌入維度可以大幅擴展,同時中間層計算保持原始隱藏維度。這種方法幾乎保持了原始計算成本,同時顯著增強了詞嵌入的表示能力。

為了增加嵌入維度,研究團隊提出了超寬嵌入技術。給定固定的隱藏尺寸D,將嵌入維度擴大到更寬的維度D',從而產生更豐富的詞嵌入,而計算開銷增加不多。形式上,設h^l∈R^D表示第l層的隱藏狀態,將這個隱藏向量均勻劃分成m個不相交的片段。接下來定義擴展的嵌入向量e∈R^(D'),其中D'=(n/m)D,n和m都是整數且n>m。這裡每個片段大小為D'/n。在輸入層,設h'?=e,從而使用更寬的詞嵌入。

當擴展比率n/m較大時,可以選擇使用單個線性投影將原始1倍嵌入映射到更寬維度,類似於對很寬的嵌入表應用低秩分解。另外還可以採用輸入增強策略,為每個輸入注入比單個孤立詞嵌入更多的資訊,進一步豐富拓寬的表示。

廣義超連接是有效利用更寬詞嵌入同時保持中間層計算原始隱藏維度的關鍵方法。在每層l,GHC引入一個輕量級變換矩陣,編碼原始隱藏表示片段與擴展詞嵌入之間的加權關係。這個矩陣由多個子矩陣組成,包括B^l和A^l等。

考慮第l個網路層T^l,它整合了Transformer中的自注意力層或前饋網路。GHC的輸出表示為H'l(超寬隱藏狀態的重塑形式),可以表示為:H'l = B^l轉置 · T^l(○A^l轉置 · H'(l-1)) Â^l轉置 · H'(l-1)。這裡○A^l負責將超寬狀態壓縮到主幹寬度並輸入T^l,B^l將層輸出寫回超寬空間,而Â^l實現超寬狀態在層間的直接傳遞(類似於殘差連接的廣義形式)。

贊助商廣告

為了進一步增強前向過程的適應性,研究團隊引入了動態GHC(DGHC),其中變換矩陣根據輸入表示H'自適應調整。實踐中採用靜態和動態參數混合的策略,動態參數通過輕量級線性投影網路生成。為確保訓練穩定性,首先對輸入特徵進行歸一化,然後應用線性變換和tanh激活函數,輸出再由小的可學習矩陣縮放並與相應的靜態矩陣相結合。

動態參數W_β和W_α初始化為0,而靜態矩陣按特定模式初始化。靜態矩陣B採用循環模式初始化,靜態矩陣A初始化為塊矩陣。靜態成分B和A不使用權重衰減,而動態成分使用。

多詞預測的協同增效

在輸出層,之前的研究表明多詞預測(MTP)可以作為k-gram解碼的近似。基於這個洞察,研究團隊利用MTP在主幹模型之上引入額外的VWN層,構建增強的預測頭,從而提供細粒度的監督信號。具體而言,遵循DeepSeek 字節跳動虛擬寬度網路不擴張主幹也能擁有更強大腦的秘密的做法,將下一個詞的嵌入與前一個詞的最後一層嵌入拼接,應用線性投影生成logits。

採用DeepSeek式的單個密集線性來混合隱藏狀態和嵌入(即2D→D投影)在VWN下變得過於昂貴,因為寬度擴展了r倍。樸素的密集混合會擴展到2rD→rD;對於r=8,參數和浮點運算量都大幅增長,難以承受。為解決這個問題,研究團隊使用塊級線性進行混合。將rD維向量劃分成n=r×m個大小為D/m的片段,對每個片段應用相同的小型線性,形狀為(2D/m)→(D/m)。換句話說,在每個片段內局部融合隱藏狀態和嵌入特徵,在所有塊之間共享線性投影器。這保留了更寬VWN表示的好處,同時將混合成本保持在與r=1情況相當的水平。

從連接性視角理解虛擬寬度網路

從連接性角度重新詮釋VWN,可以將其視為沿深度軸的注意力機制。考慮層堆疊為"深度序列",每個層索引類似於位置,隱藏狀態充當"垂直KV緩存"。在這種視角下,常見的連接模式映射為前面層上的類注意力窗口:普通的無殘差前饋堆疊對應大小為1的滑動窗口(每層僅處理當前輸入並遺忘前一個);殘差連接實現大小為2的窗口(當前輸入加上緊鄰的前一個);密集連接將窗口大小擴展到包括所有前面的層,允許每層重用所有先前的表示。帶有廣義超連接的VWN介於兩者之間:它實現了一種學習的、固定成本的、類似線性注意力的機制,在深度上縮放可訪問的深度上下文。

贊助商廣告

形式上,設第l層的拓寬狀態為槽矩陣H'l∈R^((D/m)×n),有n個大小為D/m的槽,令r:=n/m為以D單位度量的寬度擴展。明確表示主幹映射的GHC遞歸為:H'l = B^l轉置 · T^l(○A^l轉置 · H'(l-1)) Â^l轉置 · H'(l-1)。這裡Â^l轉置傳輸/衰減存儲在槽中的資訊(學習的攜帶/遺忘算子),B^l轉置將當前層的主幹摘要寫入選定的槽。展開這個遞歸顯式地產生:H'l = Σ[從t=0到l-1] (∏[從i=0到t-1] Â^(l-i)轉置) · B^(l-t)轉置 · T^(l-t)(○A^(l-t)轉置, H'(l-t-1)) (∏[從i=0到l-1] Â^(l-i)轉置) · H'_0。這表明H'_l線性聚合來自較早層的主幹變換特徵,通過"攜帶算子"Â傳播並在每步通過B寫入,捕捉了深度上壓縮深度緩存的線性注意力精神。

參數m的選擇決定了存儲深度資訊的內存預算(以D單位度量)為r=n/m。GHC在每層保真度和記住的層數之間分配這個預算。當m=1時,模型以完整的D維保真度存儲最多r層(層數少,每層帶寬高)。當m>1時,模型存儲最多n=rm層,每層壓縮到D/m維(層數多,每層帶寬低)。因此m控制每層壓縮,n控制名義深度窗口,r固定總內存預算。學習的、依賴輸入的路由通過衰減而非硬截斷提供超出名義窗口的軟擴展。

直觀地說,更大的m以較低的每層保真度為代價擴展了有效記住的層數。對於更寬的模型,增加的表示能力提供了足夠的帶寬來容納更大的m。同樣,更深的網路受益於更大的m,因為讓每層訪問長程、淺層資訊可以緩解優化困難並改善梯度流。

在硬路由和軟路由之間也有區別。如果Â^l和B^l接近置換/二進制門,更新表現得像深度上的固定大小滑動窗口。當m=1時,有r=n個維度D的槽,模型可以保留最後r層的完整保真度。當m>1時,有n=rm個大小為D/m的槽;每層的D維狀態被壓縮到D/m並寫入一個槽,給出壓縮形式大小為n的硬窗口。而在軟路由下,使用實值的、可能依賴輸入的Â^l和B^l(動態GHC),資訊被部分保留並在步驟間混合。當Â^l轉置的譜半徑小於1時,展開的遞歸式意味著來自前面層的貢獻呈指數衰減。有效的深度感受野可以超過名義硬窗口(對m=1大於r或對m>1大於n),儘管資訊逐漸衰減和混合。

贊助商廣告

考慮一個具體配置:(m,n)=(8,64),因此r=8。模型維護n=64個寬度為D/8的槽。在硬路由下,當前層可以利用最近的64層,每層以原始維度的1/8表示。在軟路由下,來自早於64層的貢獻可能隨衰減持續存在,有效地擴大"深度感受野"。

需要注意的是,這裡的注意力類比主要借用了沿深度的KV緩存視角,並不意味著層間連接是通過相似性分數或成對相關性構建的,就像標準自注意力那樣。GHC使用學習的(靜態或輸入條件的)路由矩陣以固定成本在層間攜帶、壓縮和寫入資訊,而不是計算點積分數或對層索引進行softmax。

實驗結果:從小規模到大規模的驗證

為了檢驗分數虛擬拓寬下的VWN有效性,研究團隊使用1.5倍配置作為代表性案例,在大規模語言模型預訓練中聯合評估VWN和多詞預測(MTP),並在Collection A上測量下游性能,定義為表2所列基準的平均分數。在1.5倍設置中,省略了歸約算子之前的組歸一化。

主要評估在內部混合專家(MoE)模型的多個規模上進行綜合實驗,包括MoE 0.4B/4B和MoE 2.5B/30B,均在大規模內部數據集上訓練。每個VWN變體採用(m,n)=(2,3)配置,相對於主幹隱藏尺寸實現1.5倍虛擬拓寬,從而將擴展的嵌入空間與固定寬度的主幹解耦,在近乎恆定的計算下實現受控評估。

在0.4B/4B模型上,訓練目標方面,VWN相對於基線持續降低下一詞預測損失,而MTP略微增加下一詞預測損失。VWN與MTP的組合在增強變體中達到最低損失,但當包含MTP時仍顯示出與基線約0.016的差距。在Collection A的下游評估中,單獨的MTP與基線相當,而VWN MTP在整個訓練過程中提供最高的平均準確率增益。

在2.5B/25B模型上,訓練目標方面,VWN相對於基線降低了下一詞損失,在此規模上在VWN之上添加MTP不會降低優化性能,VWN和VWN MTP都達到類似的低最終損失,在訓練結束時各自比基線低約0.015。在下游評估方面,兩個變體都優於基線,VWN MTP在整個訓練過程中始終產生最佳平均準確率。

贊助商廣告

研究團隊還在更強的內部基線上研究虛擬寬度縮放。所有模型默認包含多詞預測(MTP)頭,聯合優化標準的下一詞和MTP目標。首先在0.8B激活量MoE(MoE-A0.8B)上進行消融,以區分在固定r下增加m(固定r下更細的隱藏分區)和增加r(固定m下更大的虛擬寬度)之間的效果。然後擴展到3.3B激活量MoE(MoE-A3.3B),評估配置(m,n)=(8,64),對應r=8,在保持主幹寬度的同時實現嵌入空間的8倍虛擬拓寬。

消融實驗表明,在MoE-A0.8B上,在不同虛擬寬度因子r下對分數率m進行消融。每個圖顯示下一詞訓練損失與已見詞數(十億)的關係。從左到右:r=2、4和8。在r=2時,將m從2增加到4略微改善收斂,產生明顯但適度的差距。在r=4時,m=8和m=16的變體幾乎重疊,表明對分數率不敏感。在r=8時,m=4和m=8曲線同樣接近,m=8略有優勢。總體而言,一旦m>4,m的效果就會減弱,表明在此規模下,分區粒度超過4提供的益處有限。與第4節的討論一致,研究團隊假設在固定r下,更大的模型傾向於需要更高的m來保持足夠的虛擬容量,而較小的模型在相對較低的m值下飽和。

關於虛擬寬度因子的縮放規律,研究團隊在固定分數率m=8的情況下,通過設置r∈{2,4,8}和n=r·m={16,32,64}來改變虛擬寬度因子,評估VWN在MoE-A0.8B上的表現,分析r的縮放如何影響損失和準確率。在500B詞的訓練期間,VWN產生一致的、單調的增益,隨著r的增大而增大。在500B詞時,VWN×2、VWN×4和VWN×8將下一詞損失分別減少Δ=0.020、0.028和0.035,將下兩詞損失分別減少0.030、0.045和0.058,並將下游準確率分別提高 3.2、 3.5和 4.16個百分點。VWN×8>VWN×4>VWN×2>基線的排序在整個訓練過程中保持一致,表明在固定m的情況下擴大超寬嵌入系統地增強了模型容量。

觀察到的損失減少與虛擬寬度因子r呈對數線性關係。擬合係數為-0.0069,表明虛擬寬度每翻倍對應約0.0069的損失減少。雖然效應大小適中,但它表明虛擬拓寬帶來系統性的效率增益。研究團隊假設更具表現力的主幹和更有效利用虛擬寬度隱藏表示的改進機制可以進一步放大VWN觀察到的效率增益。

贊助商廣告

在大規模模型上,研究團隊在3.3B激活量MoE(MoE-A3.3B)上使用(m,n)=(8,64)進一步評估虛擬寬度縮放,其中隱藏維度被劃分為m=8個分區,實現8倍虛擬寬度擴展。為靈活控制訓練長度,在整個訓練過程中保持學習率恆定。VWN顯著加速了優化。在MoE-A3.3B上,它用2.5倍更少的詞達到基線的下一詞損失,用3.5倍更少的詞達到下兩詞損失。同時,相對於基線的下一詞損失差距從早期階段的Δ=0.025增加到3T詞時的約Δ=0.032,下兩詞損失差距從Δ=0.049增長到Δ=0.056。這些趨勢表明VWN的優勢隨著訓練的進行而放大——其相對效率不僅早期出現,而且隨時間增強。在多詞目標上的更大增益進一步突出了虛擬寬度與MTP監督之間的強協同作用:超寬嵌入為短程組合目標提供了更豐富的表示自由度,而廣義超連接在虛擬寬度空間和主幹之間傳輸梯度,無需擴展中間層寬度。在Collection B的下游評估中,VWN實現的峰值平均準確率比基線高 2.16個百分點,證實了性能差距持續存在並隨著擴展訓練繼續擴大。

VWN的意義與未來展望

說到底,虛擬寬度網路為我們提供了一種新的思路來提升大模型效率。傳統上,研究者們主要關注深度、寬度和數據規模這三個維度的縮放,而VWN開闢了第四個維度——虛擬寬度縮放。這種方法的巧妙之處在於,它將表示能力的提升從主幹寬度中解耦出來,讓模型能在幾乎不增加計算成本的情況下享受更寬表示的好處。

實驗結果表明,適度的1.5倍擴展就能帶來穩定的改進,而擴展到8倍虛擬寬度時,優化加速更加明顯:下一詞預測損失的收斂速度提高了2倍以上,多詞預測損失的收斂速度提高了3倍以上。更重要的是,研究團隊發現了虛擬寬度因子r與損失減少之間的近似對數線性關係,r每翻倍對應約0.0069的平均損失減少。雖然這個增益的幅度適中,但它表明虛擬寬度可以被視為縮放模型效率的一個新的、可預測的維度,補充了現有文獻中的深度、寬度和數據縮放法則。

贊助商廣告

VWN與標準Transformer堆疊和訓練方法集成良好,為研究容量/計算權衡以及探索受控寬度擴展如何有效提高質量提供了具體的參考點。與此同時,將這些算法增益轉化為生產效率取決於系統現實。儘管質量/計算權衡很有前景,但VWN面臨實際約束:隨著隱藏寬度的增長,通信和內存訪問開銷變得不可忽略,當代硬體對非常寬的激活和跨設備路由並不特別友好。目前對極寬配置的工程支持仍然有限,這限制了可部署性。在實踐中,1.5倍到4倍範圍內的虛擬寬度擴展在當今的技術棧上更可行,而更大的擴展可能需要軟體、內存布局和互連策略的協同設計才能充分實現其潛力。

未來的研究可以在幾個方向上擴展這項工作。研究更具表現力的主幹架構可能會放大虛擬寬度的增益。開發更有效利用虛擬寬度隱藏表示的機制可以進一步提高效率。探索虛擬寬度與其他縮放維度(如模型深度、數據規模)之間的相互作用也很有價值。從系統角度看,針對VWN優化硬體和軟體堆棧可以使更大的虛擬寬度擴展在生產環境中變得實用。

對於普通人來說,這項研究的意義在於它為AI模型的發展提供了一條新路徑。過去我們總覺得要讓AI變得更聰明,就得投入更多的計算資源,導致訓練成本水漲船高。VWN告訴我們,通過巧妙的設計,我們可以在不大幅增加成本的情況下提升模型性能。這意味著未來的AI應用可能會變得更加高效和普及,讓更多人能夠從AI技術中受益。

論文地址：

https://arxiv.org/pdf/2511.11238

END

本文來自至頂AI實驗室，一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

Q&A

Q1:虛擬寬度網路(VWN)的核心創新是什麼?

A:VWN的核心創新在於將表示寬度與主幹寬度解耦。傳統上增加模型寬度會導致計算成本平方級增長,而VWN通過擴展嵌入空間而非隱藏層寬度,實現了在幾乎不增加主幹計算成本的情況下獲得更寬表示的好處。在大規模實驗中,8倍虛擬寬度擴展使下一詞預測加速2.5倍,下兩詞預測加速3.5倍,且優勢隨訓練持續擴大。

贊助商廣告

Q2:廣義超連接(GHC)在VWN中起什麼作用?

A:廣義超連接是VWN處理超寬隱藏狀態的關鍵機制。它通過輕量級計算將超寬隱藏狀態壓縮到主幹寬度輸入注意力或前饋模塊,然後將輸出擴展回超寬寬度。GHC統一了超連接和分數連接的思想,提供了靈活的路由和混合機制,既能在層間攜帶資訊,又能讓模型訪問更長範圍的深度資訊,改善梯度流和優化效果。

Q3:VWN的虛擬寬度縮放規律是怎樣的?

A:研究發現虛擬寬度因子與損失之間存在近似對數線性關係,擬合係數為-0.0069,意味著虛擬寬度每翻倍對應約0.0069的損失減少。在固定主幹的情況下,實驗驗證了VWN×2、VWN×4和VWN×8相對基線的改進呈單調遞增趨勢,在下游任務上分別帶來 3.2、 3.5和 4.16個百分點的準確率提升,為虛擬寬度作為大模型效率提升的新維度提供了實證依據。