蘋果與伊利諾伊大學的研究者如何讓AI繪圖只需四步就能媲美五十步的效果

這項由蘋果公司（Apple）與伊利諾伊大學香檳分校（UIUC）聯合開展的研究，於2026年5月以預印本形式發布在arXiv平台，論文編號為arXiv:2605.08078。研究提出了一種名為"正則化軌跡模型"（Normalizing Trajectory Models，簡稱NTM）的全新圖像生成框架，致力於用極少的計算步驟生成高質量圖像，同時保留嚴格的概率理論基礎。

贊助商廣告

當你讓一個AI系統根據文字描述畫一張圖時，它其實在做一件有點像"從混沌中雕刻秩序"的事情：從一張完全隨機的噪點圖出發，一步一步地把它變成你想要的那張清晰圖像。這個過程就像雕塑家從一塊粗糙的大理石里鑿出一尊雕像——每一刀都讓它更接近最終形態。

然而，這個過程有一個讓工程師頭疼的問題：雕塑家需要鑿很多刀才能保證質量，通常是五十刀甚至更多。如果你強迫雕塑家只用四刀完成，結果往往是一個模糊、粗糙、說不清是人是鬼的東西。這正是當前AI圖像生成領域面臨的核心困境——在追求速度（少步驟）和追求質量之間存在著看起來難以逾越的鴻溝。

研究團隊的突破在於：他們發現，問題的根源不是"步驟不夠多"，而是"每一步用的數學工具太簡單"。傳統方法在每一步都假設圖像變化符合一種叫做"高斯分布"的鐘形曲線規律，就好比每次雕刻都只會用同一種固定力度的鑿子。NTM則引入了更靈活的"可逆變換器"，讓每一步都能適應圖像實際的複雜變化，就像換了一套可以隨時調整角度和力度的精密雕刻工具。最終結果令人印象深刻：NTM只用四步，就達到了傳統方法需要五十步才能實現的圖像質量。

---

一、為什麼"少走幾步"在AI畫圖里這麼難？

在展開NTM的具體原理之前，有必要先弄清楚傳統方法的瓶頸究竟在哪裡。

現有的主流AI圖像生成技術，無論是大名鼎鼎的DALL-E、Stable Diffusion，還是後來居上的FLUX，都建立在同一個核心假設之上：圖像從噪點變成清晰圖像的每一小步，其概率分布都可以用一個"鐘形曲線"（高斯分布）來近似描述。這個假設本身並不荒謬——當每一步的跨度很小時，這個近似確實相當準確，就好比你從北京到上海，如果每次只走一米，那每一步的方向誤差基本可以忽略不計。

贊助商廣告

但如果你想從北京一步跨到上海呢？每一步的跨度變大了，那個"鐘形曲線"假設就開始失效了。在數學上，當步驟減少時，每一步需要跨越的變化區間變大，真實的概率分布會變成多個鐘形曲線疊加在一起的複雜形狀——有時候呈現多個峰值，有時候拖著一條很長的尾巴。單一的鐘形曲線根本無法準確描述這種複雜性，導致生成的圖像質量急劇下降。

以往研究者們為了解決這個問題，嘗試了三條路。第一條是"蒸餾"（distillation）：讓一個擅長走許多小步的老師模型，把它的知識壓縮給一個只走少數步的學生模型，就像把一本厚厚的百科全書提煉成一張知識卡片。第二條是"一致性模型"（consistency models）：訓練模型直接預測從任意噪點到最終圖像的結果，繞過中間過程。第三條是"對抗訓練"（GAN-based方法）：引入一個"挑剔的評判者"來訓練模型，讓生成結果看起來更真實。這三條路各有成效，但都有一個共同的代價：它們都放棄了精確計算概率的能力。換句話說，你無法用這些模型精確地衡量"這張圖在數學上有多大概率真實存在"。這就好比你雖然能快速畫出一幅不錯的山水畫，但你說不清楚這幅畫裡的每一筆在數學上各自代表什麼含義。

NTM的研究團隊認為，這個代價是不必要的。他們想找到一條既快速（少步驟）又精確（可計算概率）的道路。

---

二、NTM的核心思路：在秘密空間裡讓困難問題變簡單

NTM的核心思路，用一個直觀的比喻來說，就像是在解一道複雜的數學題時換了一個坐標系。

原來的坐標系裡，計算很複雜；換到新坐標系之後，同樣的問題變得容易多了——計算完再把結果轉換回來即可。NTM里扮演"換坐標系"角色的組件，被研究者稱為"可逆變換器"（transporter）。

具體來說，NTM由兩個協同工作的核心部件構成。第一個叫"變換器"（transporter），它的任務是把原始圖像空間裡的數據，映射到一個經過精心設計的"潛在空間"（latent space）里。在這個新空間裡，圖像在每一步之間的變化規律，恰好能被一個簡單的鐘形曲線準確描述——那些在原始空間裡令人頭疼的多峰分布和厚尾分布，在新空間裡都被"拉直"了。

贊助商廣告

第二個部件叫"預測器"（predictor），它在新的潛在空間裡工作，負責預測圖像從噪點到清晰這一過程中，每一步應該如何演變。由於新空間裡的分布已經足夠簡單，預測器只需要一個較為直接的數學模型就能完成任務。

這兩個部件合在一起，形成了一個完整的"正則化流"（normalizing flow）——這是數學上一類經典的可逆映射工具。"可逆"這個性質至關重要：因為變換器是可逆的，你可以精確地追蹤數據在變換前後的概率變化，從而用一個叫做"變量替換公式"的數學工具，精確計算出圖像在整個生成軌跡上的概率。

還有一個巧妙的設計值得專門提及：這兩個部件共享參數。變換器被同時應用於當前時刻的圖像（噪點圖）和目標時刻的圖像（清晰圖），這意味著同一套"坐標轉換規則"被用於整條生成軌跡的所有節點。這種共享設計不僅節省了計算資源，還保證了軌跡上各個節點的表示在同一個語言體系下，便於預測器做跨時間步的推理。

NTM的訓練目標，數學上可以寫成一個精確的負對數似然函數——這是一種衡量"模型預測與實際數據有多吻合"的標準，每一項都有明確的物理含義。訓練的過程，就是不斷調整變換器和預測器的參數，讓這個概率儘可能高。

---

三、架構設計：淺層變換器加上深層預測器

NTM的架構設計，體現了研究團隊在"把計算資源放在哪裡"這個問題上的深思熟慮。

變換器的設計借鑑了TarFlow（一種基於自回歸Transformer的正則化流）和STARFlow（一種用於文本到圖像生成的深淺結合正則化流）的成果。具體來說，變換器由兩個輕量級的自回歸流模組組成，每個模組只有四個Transformer層。它的工作方式有點像掃描一張圖片——第一個模組從左到右掃描圖像的每個像素塊，第二個模組從右到左掃描，兩次掃描的方向相反，確保捕獲到圖像中所有方向的空間關係。每個像素塊的變換值，都依賴於前面已經處理過的像素塊，這種依賴結構保證了整個變換是可逆的，同時使得概率計算的複雜度可以管控。

贊助商廣告

相比之下，預測器則是整個系統中最"厚重"的部分：一個擁有24層的完整Transformer網路。但這個厚重換來了一個關鍵優勢：預測器使用的是非因果（non-causal）全注意力機制，也就是說，它可以同時看到生成軌跡上所有時間步的資訊，在空間維度上並行處理所有像素塊。這意味著雖然預測器層數多、參數量大，但在實際推理時所有的空間位置是同時計算的，不需要一個位置一個位置地順序處理。

這種"輕變換器加重預測器"的分工，體現了一種精妙的權衡邏輯：變換器負責處理每一步內部的局部空間變換，只需要捕獲相對簡單的局部非高斯結構；預測器則負責在整條軌跡上進行跨時間步的全局推理，把大量的模型容量集中在對生成過程最關鍵的預測任務上。在論文的討論部分，研究者明確指出，每一步的條件分布（給定當前噪點圖，預測下一步的圖像）比完整的圖像邊緣分布（直接從噪點預測最終圖像）要簡單得多，因此輕量的變換器在每一步就足夠用了，而無需像STARFlow那樣在單步內堆砌256個自回歸塊。

---

四、從零訓練與在預訓練模型上微調：兩條路各有門道

NTM不僅可以從零開始訓練，還可以利用現有的預訓練擴散模型或流匹配模型作為起點進行微調。這兩條路在工程上各有巧思。

從零訓練時，研究者構建了一條"隨機前向軌跡"：給定一張乾淨的圖片，按照一套預設的時間步調度表（比如四步走：從完全清晰到完全噪點），用一個已知的數學公式依次添加噪聲，生成一條從清晰到噪點的軌跡。然後，NTM的訓練目標就是儘可能準確地模擬這條軌跡的逆向過程——從噪點一步步恢復到清晰圖像。訓練時可以選擇端到端的方式（同時優化軌跡上所有步驟的概率），也可以選擇逐對方式（每次隨機抽取相鄰的兩個時間步進行訓練）。此外，單個模型可以同時處理不同步數的軌跡（如四步、八步、十六步），只需在訓練時讓每個樣本獨立隨機選擇步數即可，這使得一個模型就能適應不同的速度-質量權衡需求。

贊助商廣告

微調的路則需要更多技巧。研究團隊以FLUX.2-klein（一個40億參數的預訓練流匹配模型）為起點，設計了一套優雅的初始化方案。首先，變換器被初始化為"恆等變換"（identity），也就是說一開始它什麼都不做，直接把輸入原樣傳遞出去。其次，預測器的均值預測被設置為等於預訓練模型的高斯後驗均值，方差則通過一個"零初始化"的小網路進行修正——初始時修正量為零，訓練過程中逐漸學習偏離高斯假設。這個設計保證了在訓練剛開始時，整個NTM在數學上與原始預訓練模型完全等價，不會造成初始質量的崩潰。

然而，研究者發現，如果單純用NTM的概率損失來微調，訓練早期會非常不穩定——模型會很快偏離預訓練的解，導致"災難性遺忘"。為此，他們引入了一個輔助損失函數（auxiliary loss）：在每一步，要求NTM的均值預測與凍結的預訓練模型的預測保持一致，這就像給正在學習的學生安排了一位"隨時提醒他不要跑偏"的老師。隨著訓練進行，這個輔助損失的權重會逐漸退火（cosine decay），讓模型最終能自由地超越高斯假設，學到更豐富的分布形式。消融實驗證實，去掉這個輔助損失，微調會在訓練早期迅速發散，生成的圖像變得一塌糊塗。

---

五、軌跡分數去噪與快速生成器：讓四步生成更快更好

擁有精確概率的模型，帶來了一個意想不到的額外紅利：測試時的自我精煉能力。

NTM在生成圖像時，輸出的是一條從噪點到圖像的完整軌跡，而這條軌跡本身就是一條"含噪序列"——因為它來自馬爾可夫前向過程，每個時間步的值都不是完全乾淨的。由於NTM可以精確計算整條軌跡的聯合對數概率，其關於軌跡的梯度就自然地提供了一個"聯合分數函數"（joint score function），指示著如何同時修正軌跡上所有時間步的值，使整條軌跡在數學上更加"可信"。

關鍵在於，這條軌跡上各個時間步的噪聲是相互關聯的（因為它們來自同一張乾淨圖像經過不同程度的加噪），所以修正一個時間步的誤差，通過軌跡協方差矩陣，可以同時傳播到其他時間步。這比單獨獨立地修正每個時間步更有效，就像你在校對一段話時，發現某個詞明顯用錯了，順帶也能推斷出前後幾句話的意思是否也需要調整。

贊助商廣告

具體操作時，研究者用一個加權梯度步驟來更新整條軌跡，權重正是前向過程的協方差矩陣，然後通過一個歸一化因子把結果映射回乾淨圖像空間。這個過程需要一次反向傳播，計算量雖然可以接受（因為模型的輕量化設計），但畢竟比純前向計算要慢。

為了徹底消除這個開銷，研究者進一步訓練了一個輕量級的"去噪器"（denoiser）。這個去噪器是一個具有全注意力機制的非因果Transformer，它接收預測器在最乾淨時間步輸出的潛在表示，直接預測去噪後的最終圖像，繞過變換器的自回歸解碼和基於反向傳播的軌跡精煉。去噪器的訓練目標是，對真實數據軌跡運行完整的NTM加軌跡分數精煉，把精煉後的乾淨圖像作為監督信號，讓去噪器用一次前向計算就"記住"精煉效果。實驗數據表明，這個去噪器實現了接近九倍的速度提升（從每秒0.20張圖提高到每秒1.88張圖），同時與完整精煉方案的感知相似度差異（LPIPS）僅為0.121，保持了相當高的保真度。

---

六、實驗結果：NTM在基準測試上的表現

研究團隊在兩個設置下系統地評估了NTM的性能。

從零訓練的設置下，NTM在256×256解析度的文本到圖像生成任務上進行了測試，使用GenEval（一個評估模型能否準確生成包含指定對象、顏色、數量、位置等要素的圖像的基準）和DPG-Bench（使用長而複雜的描述文字評估生成忠實度的基準）兩個評估指標。結果顯示，NTM以四個去噪步驟在GenEval上取得了0.82的總分，在DPG-Bench上取得了79.64分。作為對比，此前最佳的同類正則化流模型STARFlow在GenEval上只有0.56分，而且需要256個自回歸步驟，比NTM慢得多。NTM還與一系列主流擴散模型進行了橫向比較：SDXL得分為0.55，PixArt-α為0.48，SD3-Medium為0.62，FLUX.1-dev為0.66，Janus-Pro-7B為0.80，HiDream-I1-Full為0.83，Seedream 3.0為0.84，Qwen-Image為0.87，Nucleus-Image為0.87。NTM從零訓練的0.82分，在正則化流方法中遙遙領先，並與強力的擴散模型基準處於同一量級。

贊助商廣告

在類別條件ImageNet 256×256生成任務上（用FID-50K指標衡量圖像質量，數值越低越好），NTM以四步達到了3.83的FID，以八步達到3.24，以十六步達到2.80。STARFlow（FAE版本）需要256個自回歸步驟才能達到2.67的FID，NTM以少得多的步驟取得了非常接近的結果。這組實驗的特別之處在於，NTM完全依賴精確的負對數似然訓練，沒有使用任何對抗損失或感知損失，證明了單純的精確概率訓練就足以產生競爭力十足的生成質量。

微調設置下，NTM以FLUX.2-klein為基礎，在512×512解析度上微調後，GenEval得分達到0.76，DPG-Bench達到83.38分。這一結果略低於從零訓練版本在GenEval上的表現，研究者指出，位置關係和顏色屬性綁定等子任務在當前微調階段仍有提升空間，可能需要更長時間的訓練或更強的預訓練骨幹網路。消融實驗還表明，使用T=4步的微調設置在質量與速度之間取得了最佳平衡，T=8和T=16雖然在細節保留上有所提升，但推理速度相應降低。

---

七、當NTM只走一步時為什麼會失敗，以及這說明了什麼

研究團隊在論文的討論部分坦誠地分析了NTM的局限性。

當把步數壓縮到T=1時，NTM的生成質量會嚴重退化，產生模糊扭曲的圖像。研究者指出，這不是訓練上的問題，而是一個根本性的容量瓶頸：單步設置下，整個數據分布的非高斯結構必須完全由輕量的變換器獨自承擔，而預測器退化為單步高斯採樣，提供不了任何非高斯建模能力。輕量變換器（每塊4層）的表達能力遠不如STARFlow的深層塊（每塊24層以上，加多個模組），因此單步質量遠不如STARFlow。如果把變換器加深到和STARFlow相當，確實可以恢復單步質量，但推理速度又會被自回歸解碼拖回到STARFlow的水平，完全失去了少步驟設計的意義。

這個失敗案例揭示了NTM框架內在的設計權衡空間：變換器越深、步數可以越少，但推理延遲也越高；變換器越淺、步數需要越多，但每步的解碼開銷越低。NTM在T=4到T=8的區間內找到了最佳平衡點：變換器足夠輕以保持快速推理，步數足夠少以滿足實際應用需求，而多步結構又為輕量變換器分擔了建模負擔。這種權衡關係也為未來研究指出了方向：自適應深度變換器、沿軌跡漸進式分配容量等架構創新，有望進一步將精確似然生成推向更少的步驟乃至單步生成。

贊助商廣告

---

說到底，NTM做了一件看起來矛盾卻又合乎邏輯的事：它用更複雜的數學工具（正則化流），換來了更簡單的生成過程（更少的步驟）。

傳統方法的困境在於，為了讓每一步的數學假設成立，必須把整個生成過程切成很多很小的碎片。NTM則選擇了另一條路：每一步都承認真實分布的複雜性，用可逆變換器把複雜問題轉化為簡單問題，然後在新坐標系裡用精確的概率工具求解。這使得四步就足以完成五十步才能達到的質量。

對普通用戶來說，這意味著未來的AI繪圖工具可以變得更快——不是犧牲質量換速度，而是通過更聰明的數學框架同時做到兩者。更有意義的是，NTM保留了精確計算圖像概率的能力。這個看似抽象的性質，在現實中有很多潛在的應用：你可以用它來檢測一張圖是否是AI生成的，或者評估生成圖像在某個語境下的"合理性"。這個研究最引人深思的地方或許在於：速度與精度的權衡，並非永恆的物理定律，而只是工具選擇的結果。換對了工具，魚和熊掌有時候真的可以兼得。有興趣深入了解技術細節的讀者，可以通過arXiv編號2605.08078查閱完整論文，代碼也已開源在蘋果官方GitHub倉庫ml-starflow中。

---

Q&A

Q1：NTM和傳統擴散模型生成圖像的方式有什麼根本區別？

A：傳統擴散模型在每一步都假設圖像變化符合鐘形曲線（高斯分布），步驟少時這個假設會失效，導致圖像模糊。NTM通過一個可逆變換器把圖像映射到一個新坐標系，在新坐標系裡鐘形曲線假設精確成立，從而在數學上精確描述每一步的真實分布，四步就能達到傳統方法五十步的質量。

Q2：NTM保留精確概率計算有什麼實際用途？

A：精確概率意味著模型可以為任意一張圖像評分，衡量它在數學上"有多像真實圖像"。這個能力可以用於檢測AI生成內容、過濾質量差的生成結果、以及支持測試時的自我精煉（NTM的軌跡分數去噪正是利用了這一點）。傳統的蒸餾或對抗訓練方法則無法提供這種精確的概率評估。

贊助商廣告

Q3：NTM在微調時為什麼需要輔助損失，去掉會怎樣？

A：NTM微調初期，單純的概率損失信號不足以約束模型不偏離預訓練結果，變換器和預測器會相互"推卸責任"，導致訓練早期迅速發散、圖像質量崩潰。輔助損失強制NTM的均值預測與凍結的預訓練模型保持一致，提供穩定的錨點，讓變換器有機會從恆等變換出發逐步學習有意義的空間變換。實驗圖像顯示，去掉輔助損失的微調產生的圖像完全無法識別。