循環一次值多少錢？慕尼黑工業大學研究團隊首次為「循環變換器」定價

這項由慕尼黑工業大學（TUM）醫療人工智慧與帝國理工學院電腦系聯合領導的研究，以預印本形式發布於2026年4月，論文編號為arXiv:2604.21106。有興趣深入了解的讀者可通過該編號在arXiv平台查詢完整原文。

贊助商廣告

在人工智慧的世界裡，有一個讓工程師們長期糾結的問題：如果你想讓一個神經網路"更聰明"，到底是給它配備更多獨立的"零件"划算，還是讓現有的零件反覆多跑幾圈更實惠？這個問題背後牽扯著真實的金錢與算力——訓練一個大型語言模型的成本動輒數百萬美元，任何一個設計決策都會影響最終賬單。

這支研究團隊決定給這個問題一個精確的數字答案。他們的研究核心是一類叫做"循環變換器"（looped transformer）的神經網路架構。普通的語言模型就像一條流水線，資訊從第一道工序流向最後一道工序，每道工序由獨立的"工人"負責，用完即走。而循環變換器則像一個只有少數幾名工人的小工廠——同樣的工人會把手頭的材料反覆加工好幾輪，每輪完成一道精加工。"循環次數"就是這些工人被要求重複工作的次數。

這種"反覆加工"的設計有個顯而易見的好處：工廠需要雇用的工人更少，也就是說模型儲存在硬碟里占用的空間更小。但天下沒有免費的午餐——把相同的工人反覆用來加工同一批材料，跟雇用更多專門的工人各司其職，效果真的一樣嗎？研究團隊給出了一個清晰的量化答案：不一樣，而且差距可以精確測量。他們將這個差距命名為"循環等價指數"（recurrence-equivalence exponent），用符號φ表示。這個指數的發現，是整篇論文最核心的貢獻。

一、工廠里的工人究竟值多少錢

為了搞清楚這個問題，研究團隊設計了一個精巧的對比實驗。他們搭建了四座"規格相同"的工廠：第一座工廠有20名獨立工人，每人只負責自己那道工序，這是普通的非循環模型（循環次數r=1）；第二座工廠只有一個核心工人班組，但要把材料重複加工2次（r=2）；第三座工廠重複4次（r=4）；第四座重複8次（r=8）。

贊助商廣告

關鍵約束是：四座工廠的"產線總長度"完全相同，每處理一個詞所消耗的計算資源也基本一樣。換句話說，四座工廠的"電費賬單"是相同的。不同的只有一件事：循環工廠里獨立工人的數量大幅縮水。具體而言，當循環次數從1增加到8時，獨立的模型參數數量縮減了約3.2倍——相同寬度下，參數量從約9830萬降到約3030萬。

研究團隊在六個不同規模的訓練預算下（從4.64×10??到2.15×10??次浮點運算，跨度約50倍）分別訓練了這四種架構，共進行了116次訓練實驗。他們用驗證集上的預測誤差（即"損失"，越低代表模型越聰明）來衡量每種配置的最終表現。結果清晰地顯示：隨著循環次數增加，同等計算預算下的模型表現持續變差，而且這個差距隨著循環次數增加而單調擴大。

具體到數字，循環2次的模型比普通模型損失高出0.03到0.06個單位；循環4次的高出0.05到0.08個單位；循環8次的高出0.09到0.12個單位。這個差距在算力較小時更為明顯，在最大算力預算下會有所收窄，但即便在最大的訓練預算下，循環模型也沒有追上普通模型——在研究團隊測試的整個算力範圍內，從未出現循環模型反超普通模型的情況。

二、一個數字，道盡"循環的代價"

面對這些實驗數據，研究團隊提出了一個優雅的數學公式來統一描述所有四種架構的表現。這個公式的核心思想是："循環的工人"和"獨立的工人"對模型能力的貢獻方式不同，需要一個特殊的折算比例。

公式的形式繼承自AI領域著名的"Chinchilla縮放定律"——這是2022年由谷歌DeepMind團隊提出的一套描述模型規模、訓練數據量與最終性能之間關係的數學法則，可以理解為AI訓練界的"性價比公式"。研究團隊在這個基礎上增加了一個新項：他們把模型的總參數分成兩部分，一部分是"只用一次的參數"（預處理和後處理模組，每次推理只跑一遍），另一部分是"循環使用的參數"（核心計算模組，被反覆用r次）。

贊助商廣告

他們的新公式把循環參數的貢獻寫成r^φ乘以循環參數量，其中φ就是那個關鍵的"循環等價指數"。這個指數的物理含義非常直覺：如果φ=1，意味著循環一次就完全等同於增加一套獨立參數，四種架構的性能曲線應該重疊在一起；如果φ=0，意味著循環根本沒有任何效果，多循環幾次和不循環一樣沒用。

實驗結果給出的答案是φ=0.46，恰好處於兩個極端的中間偏下位置。研究團隊用統計方法（塊自助抽樣，200次重採樣）驗證了這個數字的可靠性，95%的置信區間為[0.41, 0.53]，沒有任何一次重採樣的結果觸碰到0或1這兩個極端值。當把φ=1（完全等價假設）強行代入公式時，擬合質量從R?=0.997驟降至0.955；而把φ=0代入時，R?也只有0.986。只有自由擬合的φ=0.46才能真正描述實驗數據的規律。

換句話說，把一套參數循環用4次，在模型能力上大約相當於擁有4^0.46≈1.86套獨立參數，只恢復了完整4套的約47%。研究團隊用一個具體的例子來詮釋這意味著什麼：一個4.1億參數的r=4循環模型，在性能上大約等同於一個5.8億參數的普通模型——但它的訓練成本卻和一個10億參數的普通模型相當。你花了10億模型的訓練錢，買到的卻是5.8億模型的性能。

三、每種架構各有偏好：寬而不深的循環模型

除了核心的φ指數，研究團隊還對每種架構單獨擬合了Chinchilla縮放定律，得出了一些有意思的實踐結論。

對於普通的非循環模型（r=1），研究團隊發現其"數據最優分配比例"（即在固定算力下，參數和訓練數據量各該占多大比重）約為52%偏向訓練數據。換句話說，普通模型在算力有限時，增大訓練數據集與增大模型規模的收益大約各占一半。

而對於循環模型，這個平衡發生了顯著偏移：r=2、4、8的模型，最優數據分配比例分別上升到61%到67%左右，意味著循環模型更傾向於用"多訓練"來補償"少參數"的劣勢。同時，循環模型的最優寬度也更大——面對參數共享帶來的容量損失，循環模型傾向於把自己"變寬"來補救，儘管這樣做會讓每次推理消耗更多算力。

贊助商廣告

這一發現為實踐提供了明確的指導：如果你決定使用循環架構，應當選擇比同等算力下普通模型更寬的網路，並且準備更多的訓練數據。不過，更寬的模型也意味著推理成本更高——這是不可避免的代價。

研究團隊還進行了一次"超出格子"的驗證實驗：在最大格子規模約20倍的算力下（約4×10??次浮點運算，規模參數s=34，訓練數據470億個詞），同時訓練了一對r=1和r=4的大模型。結果顯示循環模型的驗證損失高出0.061個單位，落在研究格子內測量的[0.05, 0.08]區間內，證明這個性能差距在更大規模下依然成立。

四、不同干預手段的"循環價值"對比

發現了φ這個指數之後，研究團隊進一步把它用作測量工具，對兩種常見的"提升循環模型"的方法進行了深入評估。這兩種方法都能讓模型的驗證損失下降——也就是說，表面上看它們都是有效的改進。但φ揭示了截然不同的內在機制。

第一種方法叫做"截斷反向傳播"（truncated backpropagation）。理解這個概念需要先了解神經網路是如何學習的：訓練時，模型會把預測錯誤的信號從後往前傳遞，用來調整每個"工人"的工作方式，這個過程叫做反向傳播。對於循環模型，這個信號需要沿著所有的循環步驟逆向傳遞，這非常耗費計算資源。截斷反向傳播的思路是：只讓最後幾個循環步驟接收學習信號，前面的循環步驟只做計算，不參與學習更新。這樣可以節省約30%的訓練算力，意味著同樣的訓練預算可以多訓練約31.5%的數據。

從驗證損失來看，截斷反向傳播的效果不錯——數字確實下降了，模型看起來更聰明了。但研究團隊把φ代入分析後，發現了令人警惕的信號：φ從0.46下降到了0.38。這意味著在截斷訓練下，每次額外的循環能貢獻的有效參數等價量更少了，循環機制實際上被訓練得更差了。

原因並不難理解。以循環2次（r=2）的模型為例，截斷後只有最後一次循環接收完整的學習信號。第一次循環雖然還在參與計算，但它的工作方式得不到有效糾正。研究團隊在擬合質量分析中也發現，r=2的模型在截斷訓練下殘差最大，印證了這個推斷。對r=4和r=8的模型單獨重新擬合φ，結果是0.37，與包含r=2時的0.38幾乎相同，說明問題並非r=2特有，而是整個截斷機制都在削弱循環的學習能力。

贊助商廣告

研究團隊的解讀是：截斷反向傳播帶來的驗證損失改善，本質上是一種"以推理成本換訓練效率"的重新分配——你用"多訓練數據、更寬模型"換來了表面上更好的損失數字，但每次循環本身的資訊處理能力變弱了，而更寬的模型意味著推理時每個詞的處理成本更高。這個交換是否合算，取決於具體的部署場景。

第二種方法叫做"超級連接"（hyperconnections）。普通循環模型在每次循環之間只傳遞一條"資訊流"，就像工人手裡只有一份工件在流轉。超級連接則把這條資訊流擴展成多條並行的"車道"（研究團隊測試了K=2條車道），不同車道的資訊在每次循環時進行混合和交叉，讓資訊在循環之間流動得更充分。

超級連接同樣降低了驗證損失，但φ的變化方向完全相反：從0.46躍升到了0.65。這意味著在超級連接的幫助下，每次額外循環能貢獻的有效參數等價量大幅增加了。更有說服力的是，採用超級連接的r=2模型在某些算力預算下甚至能夠追平或超越r=1的普通模型，這在基礎架構中從未出現過。

超級連接的另一個好處是：更高的φ意味著循環參數對模型能力的貢獻更大，因此計算最優的模型寬度反而可以縮小。更窄的模型意味著更低的推理成本，這與截斷反向傳播導致推理成本上升的情況形成了鮮明對比。研究團隊指出，超級連接是真正意義上的架構改進，而不是把計算成本從訓練側轉移到推理側的財務把戲。

不過研究團隊也坦誠了一個局限：超級連接本來是為了替換普通神經網路層與層之間的殘差連接而設計的，理論上也可以被用在普通的非循環模型（r=1）上。本研究只把它用在了循環模型的循環邊界處，沒有測試"對普通模型也加上超級連接後φ會怎樣變化"。如果r=1的基線性能也因此提升，那麼φ的增幅可能會有所收窄。

五、下游任務的驗證：哪些能力受到了真實影響

為了讓研究結論更接地氣，研究團隊還在20個具體的下游任務上比較了四種架構的表現。這些任務被分成五大類，各自測試不同的智能能力。

贊助商廣告

第一類是"參數化知識"，也就是閉卷問答——不給模型任何參考資料，直接問它"白宮在哪個城市"這類需要記憶的問題。這類任務的成績完全取決於模型有多少獨立參數用來儲存知識。結果完全符合φ=0.46的預測：r=1的普通模型在所有算力預算下都領先，差距隨著循環次數增加而單調擴大，r=8的循環模型在最大測試規模下落後0.28個單位的損失分數。

第二類是"閱讀理解"，就是給模型一段文字然後問相關問題。這類任務對參數儲存量的依賴較低，更依賴模型在當前上下文中的資訊提取能力。結果顯示r=2和r=4的循環模型與r=1基本持平，只有r=8明顯落後（差距0.05到0.18個單位），說明循環架構對這類任務的損害相對有限。

第三類是"數學文字題"，如"小明有5個蘋果，給了小紅3個，還剩多少"。這類任務需要多步推理，是循環模型理論上應該最有優勢的領域。然而在研究團隊測試的算力規模內，四種架構之間幾乎看不出系統性差異，噪音淹沒了信號。研究團隊坦誠地指出：在他們能負擔的模型規模下，這類推理任務對所有模型來說都太難了，無法產生有區分度的分數。

第四類是"推理基元"，包括歸納頭測試（讓模型識別某種重複出現的模式）和變量賦值題（給出一系列賦值語句，問某個變量的最終值）。這類任務在理論上也應該對循環架構友好。但實驗結果顯示，在研究團隊的測試規模下，r=1的普通模型在大多數預算下反而領先。深度更深的推理變體（需要多跳推理的d1版本）接近隨機猜測，根本無法區分架構優劣。

第五類是"組合符號推理"，如讓模型判斷括號是否匹配、回答知識圖譜問題等。在這一類任務上，不同循環次數的模型表現參差不齊，沒有統一的規律——循環模型在某些子任務上領先，普通模型在另一些子任務上領先。

總體來看，在研究團隊能測試的算力範圍內，唯一能穩定體現出循環架構劣勢的是"參數化知識"類任務；而循環模型理論上最應展示優勢的推理類任務，在這個規模下信號太弱，無從評判。研究團隊在470億詞的更大規模驗證實驗中也觀察到了同樣的三類格局，說明這個結論在更大規模下依然成立。

贊助商廣告

六、這一切對未來的AI開發意味著什麼

歸根結底，研究團隊想傳達的核心資訊是：當你評估一種新的循環模型訓練方法時，僅僅看驗證損失是不夠的，因為損失下降可能來自兩個完全不同的來源。

第一個來源是"真正的容量提升"——也就是循環機制本身變得更強了，每次循環能處理更複雜的資訊，φ值因此上升。這是真正值得追求的改進，因為它意味著你可以用更少的推理成本達到同樣的性能。

第二個來源是"算力側重新分配"——循環機制本身並沒有變好，但訓練預算被重新分配，讓模型訓練了更多數據或使用了更大的寬度，從而彌補了容量損失。這種改進有時會伴隨著推理成本的上升，是一種隱性的權衡，用表面上好看的損失數字掩蓋了實際代價。

研究團隊建議，今後開發循環模型時，應該把Δφ（新方法與基線φ的差值）作為核心評估指標之一，與驗證損失並列匯報。一個讓φ上升的改進是真正的架構進步；一個讓φ下降但損失也下降的改進，需要仔細審視它是否只是在推理側悄悄透支資源。

評估Δφ的成本並不高：只需要在四個較小的算力預算下跑約20次實驗，總計約5×10??次浮點運算，比訓練一個完整的大模型便宜一個數量級。這套方法適用於任何形式的循環變換器架構，不局限於研究團隊測試的特定設計。

研究團隊同時點明了幾個有待未來工作填補的空白。φ=0.46隻是他們在特定架構配置（20層、預處理2層+後處理2層）下測量到的基線值，不同的預處理/後處理層數比例可能給出不同的φ。此外，循環次數上限由架構本身決定，在他們的配置下最多只能達到r=16。更重要的是，"更低的φ究竟意味著更差的推理能力"這一假設，在他們能負擔的規模下無法得到驗證，需要更大的算力才能檢驗。

說到底，這項研究做的事情其實很簡單：它為一個長期以來只有定性討論的問題提供了定量答案。循環一次值多少錢？答案是：不到一個獨立新模組的一半價值，大約是47%。但這個價格不是固定的——好的架構設計能讓它漲到65%，糟糕的訓練方式能讓它跌到38%。現在，AI工程師終於有了一把量尺。

贊助商廣告

Q&A

Q1：循環變換器（looped transformer）和普通變換器相比，到底有什麼優缺點？

A：循環變換器的優勢在於用更少的獨立參數完成同等深度的計算，占用的儲存空間更小，理論上對推理類任務有更強的歸納偏置。缺點是參數共享導致儲存知識的容量下降，慕尼黑工業大學的研究發現循環4次的模型在性能上只相當於擁有約1.86倍獨立參數，遠低於理想情況下的4倍。此外，循環模型在訓練時需要更寬的網路來補償容量損失，這會提升推理成本。

Q2：φ值（循環等價指數）是怎麼測量出來的，普通人可以理解這個過程嗎？

A：研究團隊訓練了循環次數分別為1、2、4、8的四種架構共116個模型，每種架構在六個不同算力預算下各訓練多個不同規模的版本。他們把所有實驗數據放入一個統一的數學公式里，通過數值優化讓公式儘可能準確地預測每個模型的驗證損失。φ就是這個公式里控制"循環貢獻折算比例"的那個參數，當φ自由調整時擬合質量最高，最終收斂於0.46。

Q3：超級連接（hyperconnections）為什麼能提升循環模型的φ值？

A：普通循環模型在每次循環間只傳遞一條資訊流，資訊流轉不夠充分。超級連接把資訊流擴展為多條並行車道，每次循環時這些車道的資訊會相互混合交叉，讓模型在有限的參數內能更充分地利用每次循環的計算。慕尼黑工業大學的測試顯示，K=2條車道的超級連接將φ從0.46提升到0.65，意味著每次循環的有效貢獻提升了約41%，同時還把最優模型寬度壓縮下來，降低了推理成本。