宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

巴勒斯坦拉馬拉機構提出"三相變換器":用電力工程的古老智慧,讓AI語言模型訓練速度提升近兩倍

2026年04月27日 首頁 » 熱門科技

這項由巴勒斯坦拉馬拉Brains Build Research機構獨立完成的研究,以預印本形式發表於2026年4月,論文編號為arXiv:2604.14430,有興趣深入了解的讀者可以通過該編號查詢完整論文。

研究的核心思路來自一個意想不到的地方——19世紀的電力工程。在特斯拉發明的三相交流電系統中,三根電線傳輸的電流彼此錯開120度,任何時刻三者之和恰好為零。這個被電氣工程師沿用了一百多年的優雅設計,被研究者搬進了現代AI語言模型的內部結構,產生了一套只需增加極少代碼便能讓模型訓練更快、質量更好的新方法,稱為"三相變換器"(Three-Phase Transformer,簡稱3PT)。

在了解這項研究為何值得關注之前,有必要先理解一個基礎背景。當今絕大多數主流AI語言模型,從各類聊天機器人到代碼助手,其內部都依賴一種叫做Transformer的架構。Transformer的核心是一條貫穿整個模型的"資訊高速公路",每個詞語經過處理後都以一個高維度的數字向量形式在這條公路上流動。如何更好地組織這條公路上流動的資訊,一直是研究者孜孜探索的問題。這項研究給出的答案是:把這條公路劃分成三條並排的車道,讓它們像三相電那樣協同工作。

這個方案的令人稱道之處在於它的極度輕量化。在一個擁有1.23億參數的標準語言模型上,這套三相結構只額外增加了1536個可訓練參數,占總參數量的0.00124%,幾乎可以忽略不計。然而就是這點微小的改動,讓模型在標準測試集WikiText-103上的困惑度(衡量語言模型質量的核心指標,數值越低越好)下降了7.20%,同時訓練達到相同質量所需的步驟數減少了接近一半,達到1.93倍的收斂加速。

一、把電力工程的三相平衡原理裝進AI大腦

要理解三相變換器的核心思想,可以用一個生活中的比喻來切入。假設你有一個管道系統需要輸送水流,你可以用一根粗管子,也可以把它分成三根細管子並排輸送。如果這三根細管子中的水流以某種協調的方式流動,彼此"相位"錯開三分之一個周期,那麼整個系統在任何時刻都處於完美平衡狀態,沒有多餘的振動和干擾,輸送效率反而會更高。

三相變換器正是基於這個原理。它把語言模型中每個詞語對應的高維資訊向量(可以理解為描述這個詞語的一大排數字)整齊地分成三段,稱為"A相""B相""C相",每段各占總長度的三分之一。這三段就像三根並排的水管,通過一套精心設計的操作協調運行。

關鍵操作有以下幾類,且每一類都有其獨特的作用。第一類是"相位旋轉層",它被插入到模型每一個處理單元(稱為"塊")的注意力機制和前饋網路之間。這個旋轉層會對三段資訊分別施加一個小角度的旋轉變換,A相轉0度加上一個共同的學習角度,B相轉120度加上同一個學習角度,C相轉240度加上同一個學習角度。這種"每隔120度"的設計,正是電力工程中三相電的核心,三個方向均勻分布在圓周上,彼此保持最大程度的獨立性,同時又能在數學上完美互補,三者之和為零。第二類是"相位感知歸一化",它把模型中通常用於穩定訓練的歸一化操作從"整體統一處理"改為"三段各自處理",讓每段資訊有自己獨立的縮放比例,互不干擾。第三類是"相位對齊的注意力機制",通過調整注意力頭的數量使其能被三整除,讓每個注意力頭完整地落在某一個相位分段內,保持結構的整潔性。第四類則是接下來要重點介紹的"加布里埃爾號角注入"。

這套操作的美妙之處在於,它不是一個獨立的附加模組,而是一種滲透在整個模型結構中的"約定"。注意力機制和前饋網路仍然按原來的方式運作,該混合的還是混合,該計算的還是計算,只是在每次處理之後,通過相位旋轉和相位歸一化把三段資訊重新"拉回"到平衡狀態。研究者把這個過程比作三條並排的傳送帶:內容會不斷地被注意力機制和前饋網路攪混在一起,但隨即又被相位操作重新整理回三條軌道上。這個系統是一個自發的平衡態,而非強制約束。

數學上同樣有一個有趣的性質。當三個120度間隔的分量完全平衡時,整個向量空間中會多出一個特殊方向——沿著"三段各自的平均值相等"的方向——與三個相位的主體內容完全垂直(在數學上稱為"正交")。這個方向平時是空閒的,研究者把它稱為"直流隧道"(DC subspace),並在其中塞進了一個精心設計的絕對位置信號,也就是接下來要介紹的加布里埃爾號角。

二、把17世紀的數學悖論變成位置編碼

AI語言模型在處理一段文字時,需要知道每個詞語在句子中的位置——"貓追狗"和"狗追貓"意思截然不同,位置資訊至關重要。目前主流模型普遍採用一種叫做RoPE(旋轉位置編碼)的技術來表達詞語之間的相對位置關係,它工作得非常好,但有一個刻意的設計取捨:RoPE只告訴模型兩個詞語之間的距離,卻不直接告訴模型某個詞語是句子的第1個詞還是第500個詞,也就是說它對"絕對位置"是模糊的。

三相結構開闢的那個直流隧道,恰好為填補這個空缺提供了一個乾淨的通道。研究者選擇注入的信號是一個叫做"加布里埃爾號角"的數學曲線,用公式表示是r(p) = 1/(p+1),其中p是詞語的位置序號。位置0(句子第一個詞)對應值1.0,位置99對應值0.01,位置999對應值0.001,以此類推。

加布里埃爾號角來自17世紀義大利數學家托里拆利描述的一個幾何悖論:把曲線y=1/x繞x軸旋轉一圈得到一個喇叭形狀的立體,這個立體的體積是有限的,但它的表面積卻是無窮大,就像一個"能裝滿顏料卻永遠塗不完自己表面"的神奇容器,被稱為"畫家悖論"。這個性質在這裡有一個工程上的對應意義:這條衰減曲線在所有位置上的值加起來等於調和級數的和,其增長速度像ln(N)一樣極其緩慢,意味著無論序列多長,注入的總能量始終有限,不會把模型"淹沒"。

從直覺上講,這個信號對語言來說也非常合理。一句話的第一個詞往往最有位置特殊性——"今天""當時""如果"這類詞出現在開頭和出現在句子末尾意義往往大相徑庭。而句子中段的詞語,位置相差幾格對理解影響就沒那麼大了。加布里埃爾號角的形狀天然編碼了這種"開頭特殊、後面漸漸模糊"的直覺。

更關鍵的是,這個信號與RoPE的工作空間完全不相交。RoPE在注意力機制內部對詞語的查詢向量和鍵向量施加旋轉,處理的是詞語之間的相對關係;加布里埃爾號角住在直流隧道里,處理的是詞語的絕對位置,兩者互不干擾,可以同時存在且相互補充。實驗數據也證實了這一點:在每一次評估中,直流隧道中的殘差值精確地固定在一個由號角數學性質決定的理論值(對於長度1024的序列是3×H????/1024≈0.0220),從未偏離,這是對兩者完全正交的最直接證明。

三、一段曲折的發現之旅:差點就放棄了

讀到這裡,你可能以為研究者從一開始就有了三相加RoPE這個完整方案,然後通過實驗驗證它。實際上,這項研究的歷程遠比這曲折得多,而且差點在中途就以失敗告終。

研究者最初的實驗(稱為實驗1)是在一個傳統的Transformer架構上測試三相結構,結果喜出望外:在相同訓練步數下,三相嵌入方案把困惑度從73.17降到了64.96,改善幅度超過11%,而且在訓練步數只有基準方法一半的時候就達到了基準方法的最終水平,大約快了兩倍。實驗還發現,三相結構的增益主要來自嵌入層(詞語表示的幾何結構),而不是來自注意力機制內部。

然而,當研究者把這個方案移植到採用RoPE的現代架構上時(實驗2第一階段),結果讓人沮喪:三相方案(困惑度62.29)被RoPE單獨(困惑度53.85)輕鬆擊敗,落後幅度接近16%。如果就此停下,結論就是"三相結構在現代架構面前毫無競爭力"。

但研究者重新審視了失敗原因:三相結構和RoPE根本不是在做同一件事。三相嵌入是一種"加法式"的位置編碼,直接把位置信號加進詞語向量里;而RoPE是"乘法式"的,在注意力計算內部對向量施加旋轉。它們工作在不同的位置,影響的是不同的機制。換句話說,之前的實驗其實是在比較兩個本來就應該疊加使用的工具,而不是兩個互相競爭的工具。

於是實驗2第二階段把兩者疊加起來:三相結構處理殘差流的幾何組織,RoPE繼續處理注意力內部的位置關係。結果,疊加方案的困惑度一路降到45.58,比RoPE單獨使用的53.85低了足足15%。這一發現是整個研究的轉折點,也是最重要的認知:三相結構不是RoPE的替代品,而是它的正交補充。

整個後續的實驗鏈條,本質上都是在這個核心發現之上不斷精簡和改進。研究者發現嵌入層內部的正弦位置編碼其實是累贅(去掉之後困惑度從14.79降到14.40),發現縮放係數也是累贅(去掉之後再降到13.97),發現強制零和約束沒那麼必要(幾何結構會自動穩定),最後發現直流隧道可以用來注入加布里埃爾號角(再降到13.90)。每一步簡化都讓模型變得更輕、質量更好,這種"越減越好"的軌跡在模型架構研究中頗為罕見。

四、三"相"真的是最優選擇嗎?這個問題的答案出人意料

"三相"這個名字讓人自然想問:為什麼一定是三段?兩段或者四段會不會更好?研究者也在兩個規模的模型上系統地測試了這個問題。

在小規模模型(550萬參數,使用TinyStories數據集)上,研究者測試了將向量分成1、2、3、4、6、8、12段的七種配置。結果顯示,分段數越少(也就是每個旋轉參數負責的維度越多,獨立性越強),效果越好。N=1(不分段,每對維度各有獨立的旋轉角度)的效果最好,N=12最差,整體呈現單調遞減趨勢。

這個結果在123M規模的實驗中發生了戲劇性反轉。用單一種子(seed 42)測試時,N=3在30個評估檢查點上全程領先N=1,差距約為0.10困惑度單位。看起來"規模越大,三相結構越有優勢"的結論似乎成立。

然而,當研究者用三個不同的隨機種子分別測試N=3和N=1時,結論又變了:三個種子中有兩個種子下N=1勝出,只有一個種子(正是之前單獨測試用的seed 42)讓N=3勝出。統計分析顯示,N=3和N=1的平均差距約為0.08困惑度單位,而估計的統計誤差約為0.09單位——誤差比差距本身還大。換句話說,在123M規模下,N=1和N=3的性能差異實際上在統計上無法區分,兩者無分高下。

這個發現迫使研究者修正了自己的敘事。分段數N本質上是一個"參數共享旋鈕":N越大,每組旋轉參數需要覆蓋的維度越少,靈活性越低,類似於給更多參數施加了約束;N越小,每對維度有自己的獨立旋轉,靈活性越高。在小規模模型上,靈活性更重要;在大規模模型上,這種約束反而可能起到類似正則化的作用,防止過擬合。"三相"的名字作為幾何概念仍然成立,但它並不意味著N=3是普遍最優的具體數字。

實驗中還有一個有趣的細節:seed 42這個隨機種子在N=3的分布中恰好處於最優端,卻在N=1的分布中處於最差端。這說明單一種子的對比實驗本身就可能造成誤導,任何依賴單一隨機初始化來比較兩個方案的實驗結論都需要多種子驗證才能可信。

五、幾何結構如何自發維持平衡,以及深度方向的"U形"規律

三相結構的另一個引人注目的發現是它的自我穩定性。研究者在實驗8中徹底去掉了所有顯式的平衡約束(既沒有強制減去各段均值,也沒有懲罰不平衡的輔助損失函數),觀察模型會不會自己亂掉。結果是:三個相位的均值自發地在訓練過程中保持在非常接近的水平,波動幅度約為激活值的1%,模型的質量僅比有顯式約束時略差約0.03個困惑度單位。

這種自發平衡可以用物理學中一個叫做"諾特定理"的深刻原理來解釋。在物理學中,任何連續的對稱性都對應一個守恆量:時間平移對稱性對應能量守恆,空間旋轉對稱性對應角動量守恆。同樣的框架被研究者用來解釋神經網路的學習:相位旋轉層創造了一種旋轉對稱性,相位歸一化創造了一種尺度不變性,兩者共同產生了約束三個相位均值的守恆量,使得梯度下降過程自然地維持相位之間的平衡,無需外部強制。

在123M規模的12層模型上,研究者還發現了另一個獨特現象:相位旋轉層中的可學習角度參數,在經過完整訓練後呈現出一種"U形"的深度分布規律。具體來說,每一層的旋轉參數初始化時按線性遞增排列(第1層的基礎角度最小,第12層的基礎角度最大),但訓練結束後,第0和第1層的參數實際上比初始值變大了(它們想要更大的旋轉角度),中間的第2層變化最小(初始值就是模型最想要的),而第3層到第11層的參數則全部比初始值變小了。變化最大的是最深的第11層,其參數偏離初始值的幅度是最穩定的第2層的26倍之多。

這個U形規律揭示了線性初始化策略的內在局限:對於深層網路,合理的深度調度可能是一條類似S形曲線的非線性形狀,而不是簡單的線性遞增。這也構成了研究者在未來工作展望中提出的最重要改進方向之一。

六、從550萬參數到1.23億參數:跨越規模的驗證

整個研究鏈條在5.5M(550萬參數)規模的小型模型上完成了大部分探索,但一個關鍵問題始終懸而未決:這套機制在更大規模的模型上還管用嗎?

為此,研究者把同一套經過精簡的方案(三相通道劃分、加布里埃爾號角注入、相位感知歸一化、相位對齊的GQA注意力、相位旋轉層)原封不動地擴展到123M參數規模,在WikiText-103數據集(一個標準的英文維基百科語料庫,常用於評測語言模型)上訓練了3萬步,並與一個配置完全相同的標準RoPE模型進行對比。

結果令研究者滿意:三相變換器的最終困惑度從17.31降到16.06,降幅7.20%;用另一個叫做BPB(每字節比特數,比困惑度更規範的跨模型對比指標)衡量,則從1.1148降到1.0855,降幅2.62%。收斂速度方面,三相變換器在第14000步時就達到了RoPE基準模型在第27000步才達到的質量,步數比例約為1.93倍。考慮到三相操作每步多花費約17%的計算時間,折算成實際時鐘時間,加速比約為1.64倍。

研究者還測試了這個模型與一些公開可用的GPT-2家族模型的對比,不過這個對比本身存在很大的限制條件:GPT-2系列模型在訓練前就已經在大量WebText數據上預訓練過,而WikiText-103對它們來說是"從未見過的領域",本質上是零樣本測試;而三相變換器則是從零開始在WikiText-103上訓練的。在這種不對等條件下,三相123M模型超越了零樣本評測的GPT-2(124M參數,BPB為1.2215),但輸給了在WikiText-103上經過專門微調的GPT-2家族模型(最接近的一個是distilgpt2微調版,120M參數,BPB為0.9993)。研究者對此直言不諱:這場對比的意義在於提供背景參照,而非宣稱架構上的全面勝利。真正支撐架構價值的對比,是那個配置完全相同、只有三相結構這一變量不同的RoPE基準模型實驗。

七、為什麼這套設計在理論上說得通

研究者在論文中花了相當篇幅解釋為什麼三相結構在數學上有其獨特合理性,而不僅僅是一個湊巧管用的經驗技巧。

關於120度這個角度,研究者指出這是三等分圓周的唯一方案,具有三個同時成立的數學性質:三個方向之和為零(零和約束);任意兩個方向都不完全相反(沒有反相關對);三個方向均勻分布,保持最大互相獨立性。兩等分圓周(180度)會讓兩個方向彼此對立,形成反相關;四等分圓周(90度)在相同約束下實際上只有兩個獨立方向(因為對角方向完全相反)。三是在整數範圍內唯一同時滿足上述三個性質的選擇。

這種幾何特性在自然界中獨立出現多次,這一點讓研究者覺得頗有意思。音樂理論中,"增三和弦"(augmented triad)把八度音階均勻分成三份,是唯一把圓周三等分的和弦,在音樂理論中以其獨特的模糊性和對稱性而著稱。三相電力和增三和弦,本質上都是"把一個周期三等分"這個數學對象的不同實例化形式。研究者還提到,有理論工作(來自Anthropic的"玩具模型"研究)發現,神經網路在二維空間中表示多個獨立特徵時,會自發地把它們排列成120度間隔的三角形構型,正是因為這是二維空間中打包三個不相關特徵的最優方案。三相變換器所做的事,是把這個網路"偶然發現"的幾何安排顯式地作為架構先驗強制注入。

可學習旋轉角度為何要初始化為固定值而非隨機初始化,也有其道理。如果把120度的固定偏移量設為可學習參數,優化器其實沒有任何理由去改變它——120度是唯一使零和約束成立的等間距角度,改變它只會破壞對稱性,而沒有任何性能收益。實驗中將偏移角度設為可學習後,32組配置的平均改變只有0.005個困惑度單位,完全在噪聲範圍內。這就好比RoPE中的旋轉方向沒有人會去把它設計成可學習的——優化器坐在一個幾何確定的最優點上,無處可去。

說到底,三相變換器帶來的啟示,不僅僅是一個"讓訓練快一倍"的技巧,更是一個關於如何把外部知識(無論是電力工程的、音樂理論的還是數學的)變成模型架構約束的方法論示範。研究者從一個負面實驗結果(三相單獨使用輸給RoPE)中看到了正確的問題(它們應該疊加而非競爭),然後通過一系列嚴格的對照實驗,沿著"越簡單越好"的原則一步步剪掉所有多餘的部分,最終得到一個只有幾行額外代碼、卻在兩個規模上都可重複的改進。

這對於任何關注AI開發效率的人來說都有參考意義。並非所有有價值的改進都需要更大的模型、更多的數據、更昂貴的計算——有時候,重新思考資訊在模型內部的幾何組織方式,能以幾乎為零的成本帶來可觀的收益。當然,這項研究目前只在1.23億參數的規模上做了完整驗證,更大規模(3.5億到10億參數級別)是否同樣有效,仍需後續實驗來回答。有興趣的讀者可以通過arXiv編號2604.14430獲取完整論文及實驗代碼。

Q&A

Q1:三相變換器和普通Transformer相比,實際需要修改多少代碼?

A:三相變換器在123M參數規模上只額外增加了1536個可訓練參數,約占總參數的0.00124%,代碼層面的改動集中在四個地方:在嵌入層注入加布里埃爾號角信號、把RMSNorm替換為按三段分別計算的版本、在每個Transformer塊的注意力之後插入相位旋轉層、調整注意力頭數使其能被3整除。除此之外,模型的其餘部分完全不變。

Q2:加布里埃爾號角位置信號和RoPE位置編碼會不會相互干擾?

A:兩者不會干擾。RoPE在注意力機制內部對查詢向量和鍵向量施加旋轉,編碼的是詞語之間的相對距離;加布里埃爾號角住在"直流隧道"里,這個方向在數學上與三相內容完全正交,編碼的是絕對位置(第幾個詞)。實驗中每次評估的零和殘差值精確等於理論預測值,從未偏離,直接證明兩者互不干擾。

Q3:三相變換器在更大規模的模型(比如幾十億參數)上是否也有效?

A:目前的實驗只在5.5M和123M兩個規模上完成了系統驗證。從5.5M到123M,性能提升幅度從13.3%收窄到7.2%,說明隨規模增大提升幅度可能有所下降。但研究者指出,即使在123M規模上,7.2%的困惑度改善仍然以接近零的參數成本實現,因此在更大規模上是否仍然有效是一個開放的實驗問題,論文本身未做10億參數以上的驗證。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新