這項由谷歌DeepMind研究團隊完成的研究以預印本形式發布於2026年4月,論文編號為arXiv:2604.09168,有興趣深入了解的讀者可以通過該編號查詢完整論文。
深度學習模型變得越來越強大,但代價是越來越"重"——動輒數百億個參數,需要占用大量內存,運行在昂貴的伺服器上。普通人手機里的圖片生成應用,能流暢運行的往往是功能大打折扣的"輕量版"。這種"要麼強大要麼輕便"的兩難困境,困擾著整個AI領域。而這篇論文想做的,就是打破這個困境。
研究團隊提出了一種叫做"彈性循環變換器"(Elastic Looped Transformers,縮寫ELT)的新架構。用最簡單的話來說:傳統的AI模型就像一棟有很多樓層的大樓,每一層都有獨立的裝修和家具(也就是獨立的參數)。而ELT則像一部電梯——它只有一套裝置,但可以反覆上下運行很多次,每運行一次,對圖像的理解就更深一層。這樣一來,你不需要建很多層樓,只需要讓電梯多跑幾趟,就能達到同樣的效果。最終結果相當引人注目:在參數數量只有傳統模型四分之一的情況下,ELT在標準圖像生成測試中達到了相同的質量水平,並且在影片生成任務中還超越了對標模型。
一、為什麼現有的AI模型會越來越"臃腫"?
要理解這項研究解決了什麼問題,得先聊聊AI圖像生成模型的工作方式。以目前主流的擴散模型(Diffusion Model)為例,它的工作原理可以類比為一位畫家從一張布滿噪點的畫布開始,一遍又一遍地擦拭和修改,直到一幅清晰的圖像浮現出來。這個"擦拭和修改"的過程,需要反覆調用一個叫做"變換器"(Transformer)的神經網路模組來預測如何改進圖像。
傳統的做法是:把很多層變換器疊在一起,每一層都有自己獨立的參數(可以理解為每層都有各自獨立的"畫筆工具箱")。層數越多,模型越強大,但占用的內存也越多。DiT-XL這類主流擴散變換器模型的參數量高達6.75億個,而且在每一個去噪步驟中都需要把這些參數完整地調用一遍。
另一個思路是"循環"——讓同一層參數被反覆調用多次,就像那部反覆上下的電梯。這種思路其實早就有人提出來了,最具代表性的是2018年提出的"通用變換器"(Universal Transformers)。然而,在圖像和影片的高質量生成領域,循環架構一直沒能真正站穩腳跟。原因在於一個棘手的問題:如果你訓練模型時規定它循環8次,那它在循環3次或10次時生成的圖像就會一團糟,因為中間狀態的表示對模型來說毫無意義,只有跑完全部8圈,輸出才是有效的。
這就像一個工人被訓練成"必須擰滿8圈螺絲才能停下"——如果你讓他只擰3圈就停,螺絲根本沒有固定住;讓他擰10圈,螺絲可能就滑絲了。這種"只能在固定深度工作"的問題,讓普通循環變換器失去了靈活性,也限制了它的實際應用價值。ELT要解決的,正是這個問題。
二、"彈性電梯"是怎麼煉成的?
ELT的核心機制可以分成兩個部分:循環機制本身,以及讓循環變得"有彈性"的訓練策略。
先說循環機制。研究團隊把若干個變換器層組合成一個"複合塊",用希臘字母Θ(theta)表示這個塊里所有的參數。假設這個塊由N層變換器組成,訓練時讓它循環L次,那麼總的有效計算深度就是N×L。比如,一個有8層的塊循環4次,等效於一個有32層的深層網路,但實際儲存的參數只有8層的量。這樣,模型的參數量由N決定,而計算能力由L決定,兩者被解耦開來了。
然而,光有循環機制是不夠的。如前所述,用傳統方式訓練出來的循環模型,中間狀態(也就是電梯還沒到頂層時的狀態)是混亂無序的。為了解決這個問題,研究團隊提出了"內循環自蒸餾"訓練策略,英文縮寫為ILSD。
"蒸餾"在AI領域是一個常用概念,原意是讓一個小模型去模仿一個大模型的行為,從而讓小模型獲得大模型的能力。ILSD的創意在於:它不需要兩個獨立的模型,而是讓同一個模型自己教自己。具體來說,在每一次訓練時,模型被當作一個"雙軌系統"來運行:一條軌道是"教師軌道",讓模型跑滿最大循環次數(比如8次),得到最高質量的輸出;另一條軌道是"學生軌道",隨機選一個中間循環次數(比如3次),只跑到這裡就停下,得到一個中間狀態的輸出。
接著,訓練目標包含三個部分。第一部分是讓教師軌道的輸出儘可能接近真實圖像,這是主幹任務。第二部分是讓學生軌道的輸出也儘可能接近真實圖像,這給中間狀態加上了直接的"生成質量"約束。第三部分是讓學生軌道的輸出儘可能接近教師軌道的輸出,也就是讓"跑了3圈的結果"去模仿"跑了8圈的結果"——這就是"自蒸餾"的含義。
這個設計有一個非常聰明的地方:學生軌道的計算過程,本身就是教師軌道計算過程的一個子集。教師要跑8圈,而學生是其中的前3圈。所以在一次前向傳播中,兩條軌道共享計算,不需要額外的計算開銷。這與傳統蒸餾方法形成了鮮明對比——傳統方法需要分別跑教師模型和學生模型兩遍,計算量翻倍。
在訓練過程中,研究團隊還引入了一個叫做"學生循環隨機採樣"的機制:每次訓練時,學生軌道的中間停止點是從一個範圍內隨機選取的,而不是固定的某個數字。這使得模型學會了在任意中間深度都能產生有意義的輸出。此外,第二部分損失(學生對真實圖像的損失)和第三部分損失(學生對教師的蒸餾損失)之間的權重會隨訓練進程線性變化:訓練初期,學生主要跟著真實答案學,因為此時教師本身還沒訓練好;隨著訓練推進,學生逐漸更多地去模仿教師,因為教師的輸出質量越來越高。
通過這套訓練策略,模型的每一個中間循環狀態都被推向"解空間"(也就是有意義的圖像表示空間)。用論文中的形象比喻:普通循環變換器就像一個只有終點才有意義的旅程,而ELT經過ILSD訓練後,旅程中的每一站都變得有意義,隨時可以下車。
三、從圖像到影片,ELT的表現如何?
研究團隊在兩個主流任務上驗證了ELT的效果:類別條件圖像生成(給定一個類別標籤,如"貓",生成對應圖像)和類別條件影片生成。
在圖像生成任務上,測試數據集是業界標準的ImageNet 256×256(包含超過100萬張、1000個類別的圖像)。衡量生成質量的指標是FID分數(Fréchet Inception Distance),這個分數越低代表生成質量越好。
研究團隊實現了兩種不同框架下的ELT:基於"掩碼生成變換器"(Masked Generative Transformer,類似於MaskGIT框架)的版本,以及基於"擴散變換器"(Diffusion Transformer,類似於DiT框架)的版本。
在掩碼生成框架下,最強的ELT-XL模型(以7層塊循環4次的配置運行)實現了FID 2.0的成績,與擁有4.46億參數的MaskGIT-XL基線模型完全持平。而ELT-XL自身只有1.11億參數,參數量減少了約75%。對應的ELT-L模型(12層塊循環2次,或8層塊循環3次)則分別實現了FID 2.1和2.2,參數量同樣大幅低於基線。在擴散變換器框架下,以8層塊循環4次(等效深度32層)的配置,ELT的FID為3.16,優於參數量為其4倍的32層標準DiT模型(FID 3.43)。以16層塊循環2次的配置(參數量是標準32層DiT的約一半),FID更是達到2.83,進一步超越基線。
在影片生成任務上,測試數據集是UCF-101,這是一個只有約1370萬個訓練token的小規模數據集,對模型的過擬合防禦能力有較高要求。衡量影片生成質量的指標是FVD(Fréchet Video Distance),同樣是越低越好。ELT的7600萬參數版本(6層塊循環4次)在等算力設置下實現了FVD 72.8,優於擁有3.06億參數的MAGVIT-L基線(FVD 76),參數量減少了約75%。如果允許更多的計算量(6層塊循環6次,採樣步數加倍),FVD可以進一步降低到60.8,取得更加顯著的優勢。值得關注的是,研究團隊認為ELT在UCF-101這樣數據量有限的場景中表現良好,與其循環架構的正則化效果有關——參數共享本身就起到了防止過擬合的作用。
四、"任意時刻推理":一個模型,多種計算預算
ELT最吸引人的特性之一,是研究論文中稱為"任意時刻推理"(Any-Time Inference)的能力。這個詞來自控制論領域,指的是一個算法能夠在任何時刻被打斷並輸出當前最佳結果的能力。
對於普通循環變換器來說,這種能力根本不存在。如果你在它跑完8圈之前強行停下來,得到的只是一張混亂的噪點圖,毫無用處。但經過ILSD訓練的ELT不同:無論你在哪個循環次數停下來,輸出都是有意義的圖像,只不過循環次數越多質量越好。這意味著一個訓練好的ELT模型可以同時服務於不同的應用場景:在高端雲端伺服器上,讓它循環更多次,追求極致的生成質量;在手機或邊緣設備上,讓它循環較少次數,以換取更快的響應速度。用戶可以根據自己的硬體情況和質量需求,動態調整循環次數,而完全不需要重新訓練模型。
研究團隊通過Pareto圖(一種展示效率邊界的圖表)來展示這個特性:橫軸是推理時需要的計算量(以GFLOPs衡量),縱軸是FID分數。對於一個固定的ELT模型,改變推理時的循環次數,就能在這張圖上畫出一條曲線。隨著循環次數增加,計算量線性增大,同時FID穩步降低(質量提升),直到收益遞減。研究團隊發現,這條效率邊界的擬合函數大約是FID = 1922.5 × G的負0.95次方 + 1.48(其中G代表GFLOPs),展現出非常規律的冪律縮放特性。
五、參數少了,速度反而更快?
ELT的參數效率不僅體現在模型文件更小,還帶來了實際運行速度的提升。這背後有一個硬體層面的原因。
現代AI加速器(如GPU或TPU)的工作原理大致如下:它有一個非常快但容量有限的"片上內存"(SRAM),以及一個容量很大但讀寫速度慢得多的"外部高帶寬內存"(HBM)。如果模型參數太多,就必須頻繁地在HBM和SRAM之間來回搬運數據,這種"內存牆"瓶頸會嚴重拖慢速度。
由於ELT的參數量大幅減少,在很多情況下,整個模型的參數可以完整地放進片上內存,完全避免反覆的數據搬運。研究團隊在谷歌TPU v6e上測試了這一效果:對於L規模的ELT模型,吞吐量是同等計算量基線模型的2.9倍;XL規模的是3.3倍;H規模(最大測試規模)的是3.5倍。唯一例外的是B規模(最小的ELT版本),因為即使是B規模的基線模型本身也已經足夠小,能完整放入內存,所以ELT在這個規模上沒有速度優勢。
此外,研究團隊還發現ELT在訓練收斂速度上也有明顯優勢。在等算力設置下,16層塊循環2次的ELT比32層基線DiT快2倍達到相同的FID水平;8層塊循環4次的ELT則快約1.4倍。這意味著訓練成本也隨之降低。
六、深入挖掘:縮放規律和失效場景
研究團隊不只是展示了幾個成功案例,還系統性地探索了ELT的縮放規律,以及它在哪些情況下會失效。
在縮放規律方面,研究發現:增加模型寬度(也就是每一層變換器的維度d)是提升質量最有效的手段;在固定寬度的前提下,增加循環次數可以穩步提升質量,但收益會遞減。當循環次數增加到一定程度後,切換到更寬的模型比繼續增加循環次數更有效。一個極端情況揭示了循環架構的本質限制:以1層塊循環32次的配置(等效深度32),FID高達10.30,遠差於任何有意義的對比基線。這說明單個變換器層的表達能力不足以支撐高質量生成,即使循環再多次也無濟於事。模型需要在每次循環中處理一定複雜度的變換,才能有效地推進表示質量。
在失效場景方面,研究團隊坦誠地指出了兩個主要問題。其一,如前所述,當唯一層數N過少時,無論循環多少次都難以生成高質量內容。其二,當推理時的循環次數L遠超訓練時的最大循環次數L_max時,質量也會下降——模型的共享參數在超出訓練範圍的疊代次數下會"過度疊代",脫離已訓練的收斂區域。有趣的是,研究團隊發現ILSD的訓練策略讓模型具備了一定程度的"超範圍外推"能力:在UCF-101影片生成實驗中,一個以最大4圈訓練的模型,在6圈時仍然能獲得比4圈更好的FVD(69.2 vs 72.9),說明ILSD確實對疊代過程進行了有效的規律化約束。不過研究團隊也指出,這種外推能力的邊界和規律還需要更多研究。
歸根結底,ELT這項研究做的事情,可以用一句話概括:它證明了AI生成模型不需要靠堆砌獨立參數來變強,讓同一組參數反覆"深思熟慮"同樣能達到高質量的結果,而且在合適的訓練策略下,這種反覆思考的過程可以在任意時刻輸出當下最好的答案。這對於在資源有限的設備上部署高質量生成AI,以及動態調配算力資源,都有相當直接的實際意義。對於擴散模型的進一步加速,研究團隊也提到了一個有前景的方向:現有的擴散模型在每個去噪步驟上都分配相同的算力,而ELT可以通過調整不同步驟的循環次數,把更多算力集中在"最需要精細調整"的步驟上,實現更智能的算力分配。
---
Q&A
Q1:彈性循環變換器和普通AI圖像生成模型有什麼根本區別?
A:普通AI圖像生成模型里,每一層神經網路都有自己獨立的參數,層數越多參數越多,占內存越大。彈性循環變換器則是把一組神經網路層反覆循環使用,參數只存一份,但可以多次運行。訓練時用一種叫"內循環自蒸餾"的策略,讓模型在任意循環次數下都能輸出有意義的圖像。這樣一來,用傳統模型四分之一的參數,就能達到同等的生成質量,而且可以根據設備性能靈活調整循環次數。
Q2:內循環自蒸餾訓練是怎麼運作的?
A:內循環自蒸餾(ILSD)的核心思路是:在一次訓練中,讓模型既以完整循環次數運行(教師軌道),也隨機選一個中間循環次數運行(學生軌道)。學生軌道的輸出要同時接近真實圖像和教師軌道的輸出。因為學生的計算過程本身就是教師計算的一個子集,不需要額外的計算開銷。隨著訓練推進,學生越來越多地去模仿教師,最終讓每個中間循環狀態都能輸出有質量的結果。
Q3:彈性循環變換器在手機等低算力設備上真的能用嗎?
A:從原理上看有很大潛力。彈性循環變換器參數量只有對標模型的四分之一,更容易放進設備內存,而且可以通過減少循環次數來降低計算量。實驗中在TPU上已經測到最高3.5倍的吞吐量提升。具體到手機端部署,還需要結合量化、編譯優化等工程手段,但ELT提供的參數效率優勢確實為低算力高質量生成提供了更可行的技術路徑。






