這項由蘋果公司(Apple)與伊利諾伊大學香檳分校(UIUC)聯合開展的研究,於2026年5月以預印本形式發布在arXiv平台,論文編號為arXiv:2605.08078。研究提出了一種名為"正則化軌跡模型"(Normalizing Trajectory Models,簡稱NTM)的全新圖像生成框架,致力於用極少的計算步驟生成高質量圖像,同時保留嚴格的概率理論基礎。
當你讓一個AI系統根據文字描述畫一張圖時,它其實在做一件有點像"從混沌中雕刻秩序"的事情:從一張完全隨機的噪點圖出發,一步一步地把它變成你想要的那張清晰圖像。這個過程就像雕塑家從一塊粗糙的大理石里鑿出一尊雕像——每一刀都讓它更接近最終形態。
然而,這個過程有一個讓工程師頭疼的問題:雕塑家需要鑿很多刀才能保證質量,通常是五十刀甚至更多。如果你強迫雕塑家只用四刀完成,結果往往是一個模糊、粗糙、說不清是人是鬼的東西。這正是當前AI圖像生成領域面臨的核心困境——在追求速度(少步驟)和追求質量之間存在著看起來難以逾越的鴻溝。
研究團隊的突破在於:他們發現,問題的根源不是"步驟不夠多",而是"每一步用的數學工具太簡單"。傳統方法在每一步都假設圖像變化符合一種叫做"高斯分布"的鐘形曲線規律,就好比每次雕刻都只會用同一種固定力度的鑿子。NTM則引入了更靈活的"可逆變換器",讓每一步都能適應圖像實際的複雜變化,就像換了一套可以隨時調整角度和力度的精密雕刻工具。最終結果令人印象深刻:NTM只用四步,就達到了傳統方法需要五十步才能實現的圖像質量。
---
一、為什麼"少走幾步"在AI畫圖里這麼難?
在展開NTM的具體原理之前,有必要先弄清楚傳統方法的瓶頸究竟在哪裡。
現有的主流AI圖像生成技術,無論是大名鼎鼎的DALL-E、Stable Diffusion,還是後來居上的FLUX,都建立在同一個核心假設之上:圖像從噪點變成清晰圖像的每一小步,其概率分布都可以用一個"鐘形曲線"(高斯分布)來近似描述。這個假設本身並不荒謬——當每一步的跨度很小時,這個近似確實相當準確,就好比你從北京到上海,如果每次只走一米,那每一步的方向誤差基本可以忽略不計。
但如果你想從北京一步跨到上海呢?每一步的跨度變大了,那個"鐘形曲線"假設就開始失效了。在數學上,當步驟減少時,每一步需要跨越的變化區間變大,真實的概率分布會變成多個鐘形曲線疊加在一起的複雜形狀——有時候呈現多個峰值,有時候拖著一條很長的尾巴。單一的鐘形曲線根本無法準確描述這種複雜性,導致生成的圖像質量急劇下降。
以往研究者們為了解決這個問題,嘗試了三條路。第一條是"蒸餾"(distillation):讓一個擅長走許多小步的老師模型,把它的知識壓縮給一個只走少數步的學生模型,就像把一本厚厚的百科全書提煉成一張知識卡片。第二條是"一致性模型"(consistency models):訓練模型直接預測從任意噪點到最終圖像的結果,繞過中間過程。第三條是"對抗訓練"(GAN-based方法):引入一個"挑剔的評判者"來訓練模型,讓生成結果看起來更真實。這三條路各有成效,但都有一個共同的代價:它們都放棄了精確計算概率的能力。換句話說,你無法用這些模型精確地衡量"這張圖在數學上有多大概率真實存在"。這就好比你雖然能快速畫出一幅不錯的山水畫,但你說不清楚這幅畫裡的每一筆在數學上各自代表什麼含義。
NTM的研究團隊認為,這個代價是不必要的。他們想找到一條既快速(少步驟)又精確(可計算概率)的道路。
---
二、NTM的核心思路:在秘密空間裡讓困難問題變簡單
NTM的核心思路,用一個直觀的比喻來說,就像是在解一道複雜的數學題時換了一個坐標系。
原來的坐標系裡,計算很複雜;換到新坐標系之後,同樣的問題變得容易多了——計算完再把結果轉換回來即可。NTM里扮演"換坐標系"角色的組件,被研究者稱為"可逆變換器"(transporter)。
具體來說,NTM由兩個協同工作的核心部件構成。第一個叫"變換器"(transporter),它的任務是把原始圖像空間裡的數據,映射到一個經過精心設計的"潛在空間"(latent space)里。在這個新空間裡,圖像在每一步之間的變化規律,恰好能被一個簡單的鐘形曲線準確描述——那些在原始空間裡令人頭疼的多峰分布和厚尾分布,在新空間裡都被"拉直"了。
第二個部件叫"預測器"(predictor),它在新的潛在空間裡工作,負責預測圖像從噪點到清晰這一過程中,每一步應該如何演變。由於新空間裡的分布已經足夠簡單,預測器只需要一個較為直接的數學模型就能完成任務。
這兩個部件合在一起,形成了一個完整的"正則化流"(normalizing flow)——這是數學上一類經典的可逆映射工具。"可逆"這個性質至關重要:因為變換器是可逆的,你可以精確地追蹤數據在變換前後的概率變化,從而用一個叫做"變量替換公式"的數學工具,精確計算出圖像在整個生成軌跡上的概率。
還有一個巧妙的設計值得專門提及:這兩個部件共享參數。變換器被同時應用於當前時刻的圖像(噪點圖)和目標時刻的圖像(清晰圖),這意味著同一套"坐標轉換規則"被用於整條生成軌跡的所有節點。這種共享設計不僅節省了計算資源,還保證了軌跡上各個節點的表示在同一個語言體系下,便於預測器做跨時間步的推理。
NTM的訓練目標,數學上可以寫成一個精確的負對數似然函數——這是一種衡量"模型預測與實際數據有多吻合"的標準,每一項都有明確的物理含義。訓練的過程,就是不斷調整變換器和預測器的參數,讓這個概率儘可能高。
---
三、架構設計:淺層變換器 加上 深層預測器
NTM的架構設計,體現了研究團隊在"把計算資源放在哪裡"這個問題上的深思熟慮。
變換器的設計借鑑了TarFlow(一種基於自回歸Transformer的正則化流)和STARFlow(一種用於文本到圖像生成的深淺結合正則化流)的成果。具體來說,變換器由兩個輕量級的自回歸流模組組成,每個模組只有四個Transformer層。它的工作方式有點像掃描一張圖片——第一個模組從左到右掃描圖像的每個像素塊,第二個模組從右到左掃描,兩次掃描的方向相反,確保捕獲到圖像中所有方向的空間關係。每個像素塊的變換值,都依賴於前面已經處理過的像素塊,這種依賴結構保證了整個變換是可逆的,同時使得概率計算的複雜度可以管控。
相比之下,預測器則是整個系統中最"厚重"的部分:一個擁有24層的完整Transformer網路。但這個厚重換來了一個關鍵優勢:預測器使用的是非因果(non-causal)全注意力機制,也就是說,它可以同時看到生成軌跡上所有時間步的資訊,在空間維度上並行處理所有像素塊。這意味著雖然預測器層數多、參數量大,但在實際推理時所有的空間位置是同時計算的,不需要一個位置一個位置地順序處理。
這種"輕變換器 加 重預測器"的分工,體現了一種精妙的權衡邏輯:變換器負責處理每一步內部的局部空間變換,只需要捕獲相對簡單的局部非高斯結構;預測器則負責在整條軌跡上進行跨時間步的全局推理,把大量的模型容量集中在對生成過程最關鍵的預測任務上。在論文的討論部分,研究者明確指出,每一步的條件分布(給定當前噪點圖,預測下一步的圖像)比完整的圖像邊緣分布(直接從噪點預測最終圖像)要簡單得多,因此輕量的變換器在每一步就足夠用了,而無需像STARFlow那樣在單步內堆砌256個自回歸塊。
---
四、從零訓練與在預訓練模型上微調:兩條路各有門道
NTM不僅可以從零開始訓練,還可以利用現有的預訓練擴散模型或流匹配模型作為起點進行微調。這兩條路在工程上各有巧思。
從零訓練時,研究者構建了一條"隨機前向軌跡":給定一張乾淨的圖片,按照一套預設的時間步調度表(比如四步走:從完全清晰到完全噪點),用一個已知的數學公式依次添加噪聲,生成一條從清晰到噪點的軌跡。然後,NTM的訓練目標就是儘可能準確地模擬這條軌跡的逆向過程——從噪點一步步恢復到清晰圖像。訓練時可以選擇端到端的方式(同時優化軌跡上所有步驟的概率),也可以選擇逐對方式(每次隨機抽取相鄰的兩個時間步進行訓練)。此外,單個模型可以同時處理不同步數的軌跡(如四步、八步、十六步),只需在訓練時讓每個樣本獨立隨機選擇步數即可,這使得一個模型就能適應不同的速度-質量權衡需求。
微調的路則需要更多技巧。研究團隊以FLUX.2-klein(一個40億參數的預訓練流匹配模型)為起點,設計了一套優雅的初始化方案。首先,變換器被初始化為"恆等變換"(identity),也就是說一開始它什麼都不做,直接把輸入原樣傳遞出去。其次,預測器的均值預測被設置為等於預訓練模型的高斯後驗均值,方差則通過一個"零初始化"的小網路進行修正——初始時修正量為零,訓練過程中逐漸學習偏離高斯假設。這個設計保證了在訓練剛開始時,整個NTM在數學上與原始預訓練模型完全等價,不會造成初始質量的崩潰。
然而,研究者發現,如果單純用NTM的概率損失來微調,訓練早期會非常不穩定——模型會很快偏離預訓練的解,導致"災難性遺忘"。為此,他們引入了一個輔助損失函數(auxiliary loss):在每一步,要求NTM的均值預測與凍結的預訓練模型的預測保持一致,這就像給正在學習的學生安排了一位"隨時提醒他不要跑偏"的老師。隨著訓練進行,這個輔助損失的權重會逐漸退火(cosine decay),讓模型最終能自由地超越高斯假設,學到更豐富的分布形式。消融實驗證實,去掉這個輔助損失,微調會在訓練早期迅速發散,生成的圖像變得一塌糊塗。
---
五、軌跡分數去噪與快速生成器:讓四步生成更快更好
擁有精確概率的模型,帶來了一個意想不到的額外紅利:測試時的自我精煉能力。
NTM在生成圖像時,輸出的是一條從噪點到圖像的完整軌跡,而這條軌跡本身就是一條"含噪序列"——因為它來自馬爾可夫前向過程,每個時間步的值都不是完全乾淨的。由於NTM可以精確計算整條軌跡的聯合對數概率,其關於軌跡的梯度就自然地提供了一個"聯合分數函數"(joint score function),指示著如何同時修正軌跡上所有時間步的值,使整條軌跡在數學上更加"可信"。
關鍵在於,這條軌跡上各個時間步的噪聲是相互關聯的(因為它們來自同一張乾淨圖像經過不同程度的加噪),所以修正一個時間步的誤差,通過軌跡協方差矩陣,可以同時傳播到其他時間步。這比單獨獨立地修正每個時間步更有效,就像你在校對一段話時,發現某個詞明顯用錯了,順帶也能推斷出前後幾句話的意思是否也需要調整。
具體操作時,研究者用一個加權梯度步驟來更新整條軌跡,權重正是前向過程的協方差矩陣,然後通過一個歸一化因子把結果映射回乾淨圖像空間。這個過程需要一次反向傳播,計算量雖然可以接受(因為模型的輕量化設計),但畢竟比純前向計算要慢。
為了徹底消除這個開銷,研究者進一步訓練了一個輕量級的"去噪器"(denoiser)。這個去噪器是一個具有全注意力機制的非因果Transformer,它接收預測器在最乾淨時間步輸出的潛在表示,直接預測去噪後的最終圖像,繞過變換器的自回歸解碼和基於反向傳播的軌跡精煉。去噪器的訓練目標是,對真實數據軌跡運行完整的NTM加軌跡分數精煉,把精煉後的乾淨圖像作為監督信號,讓去噪器用一次前向計算就"記住"精煉效果。實驗數據表明,這個去噪器實現了接近九倍的速度提升(從每秒0.20張圖提高到每秒1.88張圖),同時與完整精煉方案的感知相似度差異(LPIPS)僅為0.121,保持了相當高的保真度。
---
六、實驗結果:NTM在基準測試上的表現
研究團隊在兩個設置下系統地評估了NTM的性能。
從零訓練的設置下,NTM在256×256解析度的文本到圖像生成任務上進行了測試,使用GenEval(一個評估模型能否準確生成包含指定對象、顏色、數量、位置等要素的圖像的基準)和DPG-Bench(使用長而複雜的描述文字評估生成忠實度的基準)兩個評估指標。結果顯示,NTM以四個去噪步驟在GenEval上取得了0.82的總分,在DPG-Bench上取得了79.64分。作為對比,此前最佳的同類正則化流模型STARFlow在GenEval上只有0.56分,而且需要256個自回歸步驟,比NTM慢得多。NTM還與一系列主流擴散模型進行了橫向比較:SDXL得分為0.55,PixArt-α為0.48,SD3-Medium為0.62,FLUX.1-dev為0.66,Janus-Pro-7B為0.80,HiDream-I1-Full為0.83,Seedream 3.0為0.84,Qwen-Image為0.87,Nucleus-Image為0.87。NTM從零訓練的0.82分,在正則化流方法中遙遙領先,並與強力的擴散模型基準處於同一量級。
在類別條件ImageNet 256×256生成任務上(用FID-50K指標衡量圖像質量,數值越低越好),NTM以四步達到了3.83的FID,以八步達到3.24,以十六步達到2.80。STARFlow(FAE版本)需要256個自回歸步驟才能達到2.67的FID,NTM以少得多的步驟取得了非常接近的結果。這組實驗的特別之處在於,NTM完全依賴精確的負對數似然訓練,沒有使用任何對抗損失或感知損失,證明了單純的精確概率訓練就足以產生競爭力十足的生成質量。
微調設置下,NTM以FLUX.2-klein為基礎,在512×512解析度上微調後,GenEval得分達到0.76,DPG-Bench達到83.38分。這一結果略低於從零訓練版本在GenEval上的表現,研究者指出,位置關係和顏色屬性綁定等子任務在當前微調階段仍有提升空間,可能需要更長時間的訓練或更強的預訓練骨幹網路。消融實驗還表明,使用T=4步的微調設置在質量與速度之間取得了最佳平衡,T=8和T=16雖然在細節保留上有所提升,但推理速度相應降低。
---
七、當NTM只走一步時為什麼會失敗,以及這說明了什麼
研究團隊在論文的討論部分坦誠地分析了NTM的局限性。
當把步數壓縮到T=1時,NTM的生成質量會嚴重退化,產生模糊扭曲的圖像。研究者指出,這不是訓練上的問題,而是一個根本性的容量瓶頸:單步設置下,整個數據分布的非高斯結構必須完全由輕量的變換器獨自承擔,而預測器退化為單步高斯採樣,提供不了任何非高斯建模能力。輕量變換器(每塊4層)的表達能力遠不如STARFlow的深層塊(每塊24層以上,加多個模組),因此單步質量遠不如STARFlow。如果把變換器加深到和STARFlow相當,確實可以恢復單步質量,但推理速度又會被自回歸解碼拖回到STARFlow的水平,完全失去了少步驟設計的意義。
這個失敗案例揭示了NTM框架內在的設計權衡空間:變換器越深、步數可以越少,但推理延遲也越高;變換器越淺、步數需要越多,但每步的解碼開銷越低。NTM在T=4到T=8的區間內找到了最佳平衡點:變換器足夠輕以保持快速推理,步數足夠少以滿足實際應用需求,而多步結構又為輕量變換器分擔了建模負擔。這種權衡關係也為未來研究指出了方向:自適應深度變換器、沿軌跡漸進式分配容量等架構創新,有望進一步將精確似然生成推向更少的步驟乃至單步生成。
---
說到底,NTM做了一件看起來矛盾卻又合乎邏輯的事:它用更複雜的數學工具(正則化流),換來了更簡單的生成過程(更少的步驟)。
傳統方法的困境在於,為了讓每一步的數學假設成立,必須把整個生成過程切成很多很小的碎片。NTM則選擇了另一條路:每一步都承認真實分布的複雜性,用可逆變換器把複雜問題轉化為簡單問題,然後在新坐標系裡用精確的概率工具求解。這使得四步就足以完成五十步才能達到的質量。
對普通用戶來說,這意味著未來的AI繪圖工具可以變得更快——不是犧牲質量換速度,而是通過更聰明的數學框架同時做到兩者。更有意義的是,NTM保留了精確計算圖像概率的能力。這個看似抽象的性質,在現實中有很多潛在的應用:你可以用它來檢測一張圖是否是AI生成的,或者評估生成圖像在某個語境下的"合理性"。這個研究最引人深思的地方或許在於:速度與精度的權衡,並非永恆的物理定律,而只是工具選擇的結果。換對了工具,魚和熊掌有時候真的可以兼得。有興趣深入了解技術細節的讀者,可以通過arXiv編號2605.08078查閱完整論文,代碼也已開源在蘋果官方GitHub倉庫ml-starflow中。
---
Q&A
Q1:NTM和傳統擴散模型生成圖像的方式有什麼根本區別?
A:傳統擴散模型在每一步都假設圖像變化符合鐘形曲線(高斯分布),步驟少時這個假設會失效,導致圖像模糊。NTM通過一個可逆變換器把圖像映射到一個新坐標系,在新坐標系裡鐘形曲線假設精確成立,從而在數學上精確描述每一步的真實分布,四步就能達到傳統方法五十步的質量。
Q2:NTM保留精確概率計算有什麼實際用途?
A:精確概率意味著模型可以為任意一張圖像評分,衡量它在數學上"有多像真實圖像"。這個能力可以用於檢測AI生成內容、過濾質量差的生成結果、以及支持測試時的自我精煉(NTM的軌跡分數去噪正是利用了這一點)。傳統的蒸餾或對抗訓練方法則無法提供這種精確的概率評估。
Q3:NTM在微調時為什麼需要輔助損失,去掉會怎樣?
A:NTM微調初期,單純的概率損失信號不足以約束模型不偏離預訓練結果,變換器和預測器會相互"推卸責任",導致訓練早期迅速發散、圖像質量崩潰。輔助損失強制NTM的均值預測與凍結的預訓練模型保持一致,提供穩定的錨點,讓變換器有機會從恆等變換出發逐步學習有意義的空間變換。實驗圖像顯示,去掉輔助損失的微調產生的圖像完全無法識別。






