清華大學與英偉達聯手打造「影片生成加速器」：讓AI用1-2步就能生成高質量流媒體影片

這項由清華大學、德克薩斯大學奧斯汀分校與英偉達清華大學與英偉達聯手打造影片生成加速器讓AI用12步就能生成高質量流媒體影片聯合開展的研究，發表於2026年6月24日，論文編號為arXiv:2606.25473。有興趣深入了解的讀者可以通過該編號在arXiv平台上查閱完整論文。

贊助商廣告

**研究概要：AI影片生成遇到了什麼難題？**

如今，AI生成影片已經不是什麼新鮮事了。但你有沒有注意到，很多AI影片生成工具在生成影片時，往往需要等待相當長的時間？這是因為大多數影片擴散模型（一種專門用於生成影片的AI技術）在工作時，需要像雕塑家打磨一塊大理石一樣，反覆"磨光"每一幀畫面，通常需要50步甚至更多的疊代步驟才能產出令人滿意的結果。每一步都要消耗計算資源，於是實時流媒體影片生成就成了一件奢侈的事。

更進一步的挑戰在於，當AI需要逐幀生成一段連續影片時（這種方式叫做"自回歸"生成，即每生成一幀都要參考之前的幀），還存在一個棘手的"訓練與推理不一致"問題。簡單來說，就是AI在訓練時參考的是標準的"完美幀"，而在實際生成影片時只能參考自己剛剛生成的幀，兩者之間的差距會導致影片越生成越差，就像傳話遊戲中資訊越傳越失真一樣。這個問題被學界稱為"曝光偏差"。

清華大學和英偉達的研究團隊針對這兩個核心難題，提出了一套名為**Causal-rCM**的完整解決方案。這套方案能讓AI在僅僅1到2步就生成高質量的流媒體影片，同時還能支持可交互的"世界模型"（即AI能根據玩家的操作實時生成遊戲或模擬場景畫面）。以基於Wan2.1-1.3B模型的測試為例，僅用1步或2步採樣，就在權威評測榜單VBench-T2V上拿到了84.63的高分，超越了此前所有同類方案。

---

一、先搞清楚"擴散模型"和"自回歸"這兩個概念

要理解這項研究，得先弄清楚兩個基礎概念，不過別擔心，這兩件事其實很好理解。

擴散模型的工作原理，類似於從一張充滿噪點的模糊照片中逐步"擦除"噪點，最終還原出一張清晰圖像的過程。不同的是，AI並不是在還原一張真實存在的照片，而是在通過這個"去噪"過程憑空創造一張新圖像。每"擦除"一輪噪點就是一個採樣步驟，步驟越多，圖像質量往往越高，但耗時也越長。

贊助商廣告

自回歸生成則像是講故事時的接龍遊戲。AI先生成影片的第一幀，然後參考第一幀生成第二幀，再參考前兩幀生成第三幀，如此依次推進。這種方式天然適合生成連續流暢的影片，也為影片流媒體播放（即邊生成邊看）提供了可能。

這項研究所使用的基礎模型叫做**因果擴散變換器**，它同時具備上述兩種能力：在空間維度上用擴散方式生成每一幀的細節，在時間維度上則用自回歸方式逐幀或逐組推進。而"因果"這個詞，指的是當前幀只能看到過去的幀，不能"偷看"未來——就像你讀故事時只能向前翻頁，不能向後翻。

---

二、三種"訓練模式"的優劣之爭

在自回歸影片生成中，研究者們探索出了三種不同的訓練方式，每種方式都有其獨特的性格特徵。

第一種叫做**教師強制（Teacher-Forcing，TF）**。在這種模式下，AI在訓練時每次生成新的一幀，都能看到前面所有幀的"標準答案"（即真實的影片幀）。這就像學生做練習題時，每道題都能看到前一道題的正確答案再往下做。這種方式訓練穩定、效率高，但問題在於：實際推理（生成影片）時，AI只能看到自己之前生成的幀，而不是真實答案幀。訓練和實際使用之間的這種落差，就是"曝光偏差"的根源。

第二種叫做**擴散強制（Diffusion-Forcing，DF）**。這種方式更激進一些——它給每一幀單獨加上不同程度的噪點，讓AI在嘈雜的條件下訓練，從而讓模型更加"皮實"。然而，即便如此，用人工噪點模擬出來的"糟糕條件"，仍然與AI實際推理時遇到的那種"自己造成的錯誤積累"有本質區別。

第三種是最新提出的**自強制（Self-Forcing，SF）**。這種方式徹底打破了前兩種的局限，直接在訓練時模擬推理過程：讓AI自己先生成前面的幀，然後參考自己生成的這些幀來訓練下一幀的生成能力。這就像讓學生不看任何答案，自己做完整套卷子，然後對照答案評分、糾錯。這種方式能直接解決曝光偏差問題，但代價是訓練難度更高——如果AI生成的初始質量太差，整個訓練過程就會陷入混亂。

贊助商廣告

---

三、兩種"壓縮技術"的哲學之爭：正向散度與反向散度

理解了三種訓練模式後，再來看另一個維度：如何讓AI從"需要50步"變成"只需1-2步"。這涉及到所謂的**蒸餾技術**，就是把一個功能強大但速度很慢的"教師模型"的知識，壓縮傳授給一個輕量快速的"學生模型"的過程。

研究中主要涉及兩種蒸餾方式，它們有著截然不同的哲學取向。

**一致性蒸餾（Consistency Models，CM）**的核心思想是讓學生模型學會"無論從哪一步噪點出發，都能一步跳到同一個終點"。這就好比教一個學生認識"蘋果"這個詞：無論你把蘋果切開、壓扁還是削皮，學生都應該認出它就是蘋果。這種方法忠實於教師模型的軌跡（即去噪路徑），傾向於產生覆蓋多樣性的結果，屬於"正向散度"優化，用學術語言說就是最小化學生分布和教師分布之間的正向KL散度。其特點是穩定、多樣，但有時結果不夠"精緻"。

**分布匹配蒸餾（Distribution Matching Distillation，DMD）**則完全不同。它不關心學生模型是怎麼走到終點的，只關心最終生成的結果是否"看起來像真實影片"。它會維護一個額外的"鑑別網路"，專門評估學生生成的結果質量，然後反向推動學生改進。這是"反向散度"優化，最小化的是教師分布相對於學生分布的反向KL散度。其特點是生成質量高、細節精緻，但容易走極端——學生模型可能為了取悅鑑別網路而放棄多樣性，即所謂的"模式崩塌"。

這兩種方法就像兩種不同的教學哲學：前者像讓學生廣泛閱讀經典著作，後者像讓學生反覆練習應試技巧。各有所長，也各有所短。

---

四、rCM：把兩種哲學合二為一的"天才食譜"

清華大學與英偉達團隊此前已經在靜態圖像生成領域提出了**rCM（score-regularized Consistency Model）**框架，這套框架的核心洞見正是將上述兩種蒸餾哲學組合使用：用一致性蒸餾（CM）來保證多樣性和穩定性，用分布匹配蒸餾（DMD）來追求極致質量。兩者互相補充，形成了"正向散度+反向散度"的互補組合。

贊助商廣告

而本次研究的核心貢獻，就是將這套框架從圖像生成擴展到**自回歸影片生成**領域，命名為**Causal-rCM**。

在影片生成的自回歸場景下，rCM的那種"蒸餾目標層面的正反向互補"自然延伸為"因果訓練範式層面的正反向互補"：教師強制（TF）扮演了正向、離線、覆蓋多樣性的角色，恰好對應一致性模型（CM）的哲學；而自強制（SF）扮演了反向、在線策略、追求質量的角色，恰好對應分布匹配蒸餾（DMD）的哲學。

於是，Causal-rCM的整體方案自然而然地成為：**先用教師強制方式訓練一致性模型（TF-CM），再用自強制方式進行分布匹配蒸餾（SF-DMD）**。這不是湊巧的搭配，而是有著清晰理論邏輯的設計選擇。

---

五、三個階段的"修煉之路"

Causal-rCM的完整訓練流程分為三個依次推進的階段，每個階段都為下一階段打好基礎。

**第一階段：從雙向模型到因果模型**。現有的很多強力影片生成模型（比如Wan2.1）是"雙向"的，意思是它們在生成某一幀時可以參考整段影片的所有幀，包括未來的幀。而流媒體生成需要"因果"模型——只能看過去，不能看未來。因此第一階段的任務是：用教師強制（TF）方式對雙向模型進行微調，讓它變成一個合格的因果擴散模型。這個因果模型既充當"因果教師"，也作為後續蒸餾階段的學生初始化起點。

**第二階段：從多步模型到少步模型（TF-CM蒸餾）**。拿到因果教師模型後，第二階段的目標是讓學生模型學會"一步頂多步"——即用1-4步就能生成因果教師模型需要幾十步才能生成的結果。這裡用到的就是教師強制一致性蒸餾（TF-CM），具體分為離散時間版本（TF-dCM）和連續時間版本（TF-sCM/MeanFlow）兩種實現。

**第三階段：用自強制DMD精調（SF-DMD）**。有了一個質量不錯的少步因果模型作為出發點，第三階段用自強制分布匹配蒸餾進一步打磨：讓學生模型自己連續生成多幀影片（模擬真實推理過程），然後計算生成結果與真實分布之間的差距，並據此更新模型。這個階段是對第二階段結果的"精修"，能有效解決曝光偏差，讓模型在真實流式推理時的表現更穩定。

贊助商廣告

研究團隊指出，第二階段提供的初始化質量對第三階段至關重要。如果一開始初始化太差（比如直接用沒經過一致性蒸餾的原始模型去做SF-DMD），訓練過程會極不穩定，容易出現模式崩塌（生成的影片千篇一律、缺乏多樣性）。

---

六、連續時間一致性模型：為什麼快了10倍？

在一致性蒸餾這一步，研究團隊有一項重要的技術創新：首次在自回歸影片生成領域實現了**連續時間一致性模型（TF-sCM/MeanFlow）**，比傳統的離散時間版本（TF-dCM）收斂速度快了整整10倍。

離散時間版本（dCM）的工作方式，類似於在一條連續的路上只設置有限個"路標"，要求學生模型學會從任意相鄰路標跳到終點。而連續時間版本（sCM）則將路標無限細化，讓學生模型學習的是"在任意位置，沿著切線方向走會到哪裡"這樣更精確的資訊，相當於給每個點都配備了一個精準的指南針。

這個"切線方向"在數學上用**雅可比向量積（JVP）**來計算，簡單說就是：給定當前點和移動方向，計算函數輸出的變化率。問題在於，對大型影片變換器（一種專門處理影片數據的神經網路結構）進行JVP計算，傳統方法會產生天量的中間數據，內存直接爆炸。

為此，研究團隊自研了一套**自定義掩碼的FlashAttention-2 JVP算子**。普通的注意力機制（神經網路中讓AI學會"關注什麼"的組件）在計算時需要處理完整的注意力矩陣，而FlashAttention-2是一種已知的高效變體，能用更省內存的方式完成計算。研究團隊在此基礎上進一步擴展，讓它支持自定義注意力掩碼（即教師強制訓練所需的因果掩碼），同時還能高效地計算JVP，使得整個連續時間一致性蒸餾在大規模影片模型上變得切實可行。

---

七、從公式到工程：一套完整的"食譜手冊"

Causal-rCM不僅僅是一套算法，研究團隊還提供了完整的工程基礎設施，確保所有組件能在大規模分布式訓練中協同工作。

贊助商廣告

在內存管理上，研究團隊引入了**選擇性激活檢查點（SAC）**技術，在反向傳播時只對計算密集的部分（如注意力和MLP模組）進行重計算，而不是保存全部中間結果，從而大幅降低顯存占用。

在多GPU並行訓練上，使用了**FSDP2（全分片數據並行第2版）**進行模型參數的跨GPU分片，同時配合**展平式Ulysses上下文並行**處理長影片序列。具體來說，就是把影片的時空維度全部展平成一條長序列，然後把這條序列均勻分配給多個GPU，每個GPU負責處理自己那段序列，各GPU之間通過all-to-all通信協調注意力計算。

在推理加速上，研究團隊精心設計了**KV緩存**機制（類似於LLM推理時的緩存技術）。因果模型在生成每一幀時，需要訪問之前所有幀的特徵表示（KV狀態）；生成完一幀後，還需要額外做一次"乾淨幀編碼"才能更新緩存，供下一幀使用。這意味著一個N步的去噪過程實際上需要N+1次前向計算。

為了解決這個問題，研究團隊引入了**噪聲上下文（Noisy Context）**技術：直接復用最後一步去噪時的KV狀態作為下一幀的上下文，省去額外的編碼步驟，將每幀的實際計算量從N+1次降為N次。額外的好處是，殘留的輕微噪聲像一個低通濾波器，能抑制長時間生成時積累的高頻細節錯誤，同時保留整體的運動趨勢。

---

八、"自定義步驟調度"：讓計算資源花在刀刃上

除了上述技術之外，研究團隊還引入了一種直覺上很自然、效果卻很顯著的技巧：**自定義步驟調度（Custom Step Schedule）**。

在自回歸影片生成中，第一組幀（稱為"第一個chunk"）通常是最難生成的，因為它需要從無到有確立整段影片的場景、布局和視覺風格。而後續的幀有了前面內容作參考，生成難度相對較低。因此，可以給第一組分配更多的去噪步驟，給後續組分配較少的步驟。

比如，一個"名義上2步"的模型，實際上可以使用[4, 2, 2, ...]的調度策略：第一組用4步，後續各組用2步。這樣既保證了第一組的質量，又控制了整體延遲。

贊助商廣告

更有趣的是，研究團隊在實驗中發現了一個反直覺的現象：在逐幀生成（每個chunk只有1幀）的設置下，1步或2步的模型反而比4步模型得分更高。原因在於，當每個chunk只有1幀時，AI有足夠能力用1-2步生成一幀畫面；過多的步驟反而會放大自回歸誤差的累積效果，還會導致訓練不穩定（例如出現持續向左旋轉的攝像機漂移現象）。而在逐塊生成（每個chunk有3幀）的設置下，情況則相反：4步模型更好，因為需要更多步驟來處理3幀之間的內部時序關係和運動連貫性。

---

九、實驗結果：數字背後的故事

研究團隊以Wan2.1系列模型（一個先進的開源影片生成模型家族）為基礎進行了全面的實驗驗證，解析度為832×480，每個影片81幀。訓練數據全部使用合成數據——由雙向Wan2.1-14B教師模型用100步採樣生成，而非真實影片。

在逐幀生成（c1-1）設置下，Causal-rCM 4步模型的VBench-T2V總分達到84.29，已經大幅超越了對比方法Causal Forcing的81.56。更令人驚嘆的是，2步模型和1步模型都達到了84.63，與4步模型持平甚至更高。與此同時，推理效率顯著提升：4步模型的第二幀延遲為0.46秒，2步模型降至0.31秒，1步模型進一步降至0.23秒，吞吐量從每秒8.3幀提升至每秒15.9幀。作為參考，雙向Wan2.1-1.3B（需要50×2步）的VBench得分為82.78，吞吐量僅為每秒0.72幀。

在逐塊生成（c3-3）設置下，Causal-rCM同樣全面超越了Self-Forcing（83.76）、LongLive（83.62）、Causal Forcing（83.96）和AnyFlow（84.31）等對比方法，4步版本達到84.37，2步版本達到84.30，吞吐量從每秒17.4幀（4步）提升至每秒25.6幀（2步帶噪聲上下文）。

在不同初始化策略的對比實驗中，研究團隊系統比較了六種不同的SF-DMD初始化方式：擴散強制（DF）、教師強制（TF）、擴散強制知識蒸餾（DF-KD）、教師強制知識蒸餾（TF-KD）、教師強制離散一致性蒸餾（TF-dCM）和教師強制連續一致性蒸餾（TF-sCM）。結果顯示，TF-CM類的初始化（無論dCM還是sCM）在逐幀設置下表現最佳，能在較少的SF-DMD訓練疊代內達到最高質量。

贊助商廣告

不過有一個有趣的觀察：雖然TF-sCM提供了比TF-dCM更強的初始化起點（更快達到更高質量），但在隨後的SF-DMD階段，TF-dCM的訓練穩定性反而更好，能持續訓練更多疊代並最終達到略高的峰值分數。這說明"更好的起點"不一定帶來"更好的終點"，初始化質量和後續訓練穩定性之間存在微妙的權衡關係。

而在逐塊設置下，DF/TF初始化雖然VBench得分最高（接近84.80-84.95），但研究團隊通過視覺檢查發現，這些模型生成的影片存在明顯的過度平滑和過度飽和問題——水面、頭髮、樹葉等細節區域像是被塗了一層厚厚的磨皮濾鏡，缺乏真實的紋理細節。相比之下，TF-CM初始化的模型在VBench得分稍低的情況下，視覺質量更加真實可信。這再次說明，單純追求量化指標有時會誤導我們對實際質量的判斷。

---

十、讓AI"玩遊戲"：交互式世界模型的應用

除了流媒體影片生成，研究團隊還將Causal-rCM應用到了更有趣的場景：基於英偉達最新旗艦模型**Cosmos 3**的交互式世界模型。

Cosmos 3是一個多模態世界基礎模型，採用"雙塔混合專家"架構，包含一個專門處理文字和指令的"理解塔"（UND）和一個專門處理視覺、動作、聲音資訊的"生成塔"（GEN）。兩個塔通過共享的多模態注意力層和統一的3D位置編碼協同工作。

為了讓Cosmos 3支持交互式世界建模，研究團隊將GEN塔的視覺部分從"所有幀同時處理"的雙向注意力模式，改造為"只能看過去幀"的因果自回歸注意力模式。改造後的模型支持三種使用方式：純文本驅動的影片生成、圖像驅動的影片延伸，以及動作條件驅動的"前向動力學"生成（即根據玩家的動作指令預測接下來會發生什麼）。

在動作條件驅動的模式下，每個影片幀（視覺超級令牌）都與一個對應的動作令牌配對，動作令牌描述了從當前幀到下一幀應該發生的變化。經過Causal-rCM蒸餾後，這個交互式Cosmos 3模型展示出了實時流式交互能力：給定相同的初始場景，模型能根據"向左轉"、"向右轉"、"直行"等不同的動作指令，生成走向截然不同的未來場景，就像一個能實時響應方向盤操作的自動駕駛模擬器。

贊助商廣告

---

十一、與前人工作的比較和定位

研究團隊在論文中非常坦誠地梳理了與現有工作的關係。從工程基礎設施的維度看，Causal-rCM是目前唯一同時支持所有核心特性的開源方案：既支持教師強制、擴散強制、自強制三種訓練範式，又支持連續時間JVP（sCM/MeanFlow），同時具備FSDP2、上下文並行、選擇性激活檢查點的完整組合，以及支持預RoPE和後RoPE兩種KV緩存模式。

從算法角度看，研究團隊還將整個研究領域的蒸餾方法整理成了一個統一的框架：所有方法都可以看作是"CM路線"或"CTM路線"（CTM是CM的擴展版本，即一致性軌跡模型）中的某個子集，各方法之間的關係一目了然。研究團隊認為，從粗粒度到細粒度的蒸餾遞進（比如先用dCM熱身，再用sCM精調）可能是未來更系統化的標準流程。

---

十二、局限與未來方向

當然，這項研究也存在若干尚待解決的挑戰，研究團隊在論文中坦率地指出了這些問題。

在逐幀生成的設置下，4步SF-DMD訓練至今仍然不夠穩定：經過一段時間訓練後，模型容易出現持續方向性的攝像機漂移（比如影片中的攝像機總是向左旋轉），這個問題在逐塊設置下並不突出。研究團隊猜測，在動作條件驅動的交互場景下，由於動作指令提供了明確的運動先驗，這個問題可能會自然消失。

另一個挑戰是，分階段訓練雖然效果好，但是否能像原版rCM那樣將所有目標合併到一個聯合訓練階段，目前仍然困難。原因可能在於因果教師模型和雙向教師模型之間存在分布差異，使得聯合優化變得複雜。

在基礎設施層面，當前的自定義掩碼FlashAttention JVP算子是用Triton編寫的，性能上只能與使用標準FlashAttention-2的TF-dCM相當，還不及FlashAttention-3/4這類更先進的算子。未來通過更底層的優化（如CUDA原生實現），有望進一步提升TF-sCM的訓練速度。

---

歸根結底，Causal-rCM這項研究的價值在於：它沒有只是提出一個新奇的想法然後在小模型上驗證一下，而是提供了一套從算法設計到工程實現都經過嚴密考量的完整方案，並在Wan2.1和Cosmos 3這兩個工業級模型上取得了實質性的性能突破。把"需要50步的高質量影片生成"壓縮到"僅需1-2步"這件事，對於未來的實時交互遊戲、自動駕駛仿真、影片通話質量增強等場景而言，意味著AI影片生成技術走向實用化又邁進了重要一步。

贊助商廣告

感興趣的讀者可以通過arXiv編號2606.25473查閱完整論文，研究代碼也已開源在GitHub的NVlabs/rcm倉庫中，供研究者自由探索和復現。

---

**Q&A**

Q1：Causal-rCM是什麼，它和普通的影片生成AI有什麼區別？

A：Causal-rCM是由清華大學和英偉達聯合提出的一套影片生成蒸餾方案，核心目的是讓自回歸影片擴散模型只需1到2步就能生成高質量影片，而普通模型需要50步甚至更多。它結合了"教師強制一致性蒸餾"和"自強制分布匹配蒸餾"兩種互補方法，不僅速度快，還解決了影片逐幀生成時越來越差的"曝光偏差"問題，實測在VBench-T2V評測上取得84.63的高分。

Q2：Causal-rCM為什麼比之前的TF-dCM收斂快10倍？

A：關鍵在於從離散時間改成了連續時間一致性模型（TF-sCM）。離散版本（dCM）只在有限幾個時間節點上約束模型，而連續時間版本（sCM）給每個時間點都配上精確的"方向感"，資訊密度大幅提升。實現這一點需要計算雅可比向量積（JVP），研究團隊為此專門開發了支持自定義因果掩碼的FlashAttention-2 JVP算子，使大型影片模型上的JVP計算變得高效可行。

Q3：自強制DMD訓練為什麼需要一個好的初始化，隨機初始化行不行？

A：不行。自強制DMD（SF-DMD）的優化目標是反向KL散度，這類目標天然存在"模式崩塌"風險——模型為了最小化損失，可能只生成少數幾種"安全"的影片而放棄多樣性。如果初始化太差，模型一開始生成的影片質量就很低，後續的判別網路也跟著學偏，整個訓練會迅速崩潰。TF-CM提供的初始化已經能生成質量不錯、多樣性尚可的影片，給SF-DMD一個穩定的起點，後者才能進一步精修而不是從頭崩塌。