中國科大領銜研究：一張圖片就能生成任意天氣的動態影片，攝像機和物體運動還能精準控制

這項由中國科學技術大學與理想汽車聯合開展的研究，發表於2026年的國際學習表徵大會（ICLR 2026），論文編號為arXiv:2606.20083，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

你有沒有想過，只需要給電腦看一張照片，它就能自動生成一段影片——影片裡的攝像機按照你指定的路線移動，街上的車輛沿著你規劃的軌跡行駛，而且整個場景還能隨你心意變成下雨、下雪、起霧或陰天？這件事聽起來像科幻小說，但研究團隊已經把它做到了，他們把這個系統叫做Holo-World。

要理解這項研究的意義，不妨先想像一個電影導演的工作。導演需要拍一場暴風雪中的城市街景，但實際拍攝時天氣晴朗。過去，團隊要麼等待合適的天氣、要麼花大錢搭建布景、要麼在後期製作中逐幀修改。現在，Holo-World提供了另一條路：給它一張晴天的城市照片，告訴它"讓攝像機沿著這條街道向前推進，右側有一輛卡車正在超車，整個場景變成大雪紛飛"，它就能生成一段符合所有要求的影片。更重要的是，影片裡的建築、道路和場景布局與原始照片保持高度一致，不會因為加了雪就讓建築物位置跑偏。

這項研究真正的突破在於，它把三件過去完全分開研究的事情整合到了同一個系統里：控制攝像機怎麼動、控制場景里的物體怎麼動、控制天氣是什麼狀態。過去的研究就像三個獨立的工匠，分別只會做攝像機控制、物體控制或天氣特效，而Holo-World是第一個把這三個工種融為一體的"全能工匠"。

一、為什麼這麼難？從一張圖片出發麵臨的雙重困境

要理解研究團隊克服了什麼障礙，先要搞清楚這件事到底難在哪裡。

現有的天氣影片生成方法，幾乎都需要先有一段完整的影片作為輸入，然後在這段影片的基礎上把天氣改掉——就像拿著一段已經拍好的晴天影片，再用軟體把它變成雨天。這種方式有天然的優勢：因為輸入影片已經提供了完整的場景結構、物體運動軌跡和時間連續性，系統只需要改變天氣外觀就行了，不用自己"想像"未來的場景長什麼樣。

贊助商廣告

Holo-World的任務要難得多。它只有一張圖片，需要自己生成未來的場景演變，同時還要控制攝像機路徑和物體運動，再疊加天氣變化。這就像讓一個人只看了一張房間的照片，就要描述接下來五分鐘裡這個房間從不同角度看分別是什麼樣子，還要在描述過程中把室內改成冬天布置——這需要對空間結構有極深的理解，還要在想像中同時操控多個變量。

研究團隊識別出兩個核心難題。第一個是數據難題：目前根本沒有一種數據集能同時提供攝像機位置資訊、物體運動資訊、天氣狀態標註這三種資訊。攝像機控制研究有自己的數據，物體控制研究有自己的數據，天氣編輯研究有自己的數據，但把三者統一在一起的數據集不存在。第二個是建模難題：在同一個模型里，"保持場景原樣"和"改變天氣外觀"這兩個目標會互相干擾——訓練模型學會保持背景穩定的知識，會壓制它學習改變天氣外觀的能力；反過來，讓它大幅改變天氣，又容易讓它把場景的幾何結構也一起破壞掉。

二、從零搭建：HoloStateData數據集的誕生

面對數據的空白，研究團隊選擇自己動手建立一個全新的數據集，取名HoloStateData。這個數據集的核心設計理念是把每一段影片都變成一個"狀態記錄"——不僅記錄影片本身，還記錄拍攝時攝像機在哪裡、場景里有什麼物體、天氣是什麼狀態，以及如果要換一種天氣，目標天氣的影片是什麼樣子。

數據來源分為三個部分，各有側重。第一部分叫做真實數據集，來源是一個名為SpatialVID-HQ的真實影片庫，裡面有各種各樣的現實場景、多樣的攝像機運動方式和真實的動態物體。這部分數據的作用是教會模型在沒有天氣變化的情況下如何保持場景穩定、跟隨攝像機控制。第二部分是模擬數據集，來自虛幻引擎（一款專業遊戲開發軟體）渲染的合成影片——同一個場景在晴天和目標天氣下分別渲染一次，這樣就得到了結構完全一致、只有天氣不同的配對影片，是訓練天氣轉換能力最乾淨的數據。第三部分是影片到影片生成數據，把真實影片作為起點，再用影片編輯模型生成對應的目標天氣版本，從而把天氣監督信號擴展到真實的攝像機路徑和動態物體場景上。

贊助商廣告

把這些原始影片變成訓練樣本需要一系列自動化的處理步驟。研究團隊用Qwen3-VL（一款多模態大模型中國科大領銜研究一張圖片就能生成任意天氣的動態影片攝像機和物體運動還能精準控制）自動給每段影片生成兩種文字描述：一種是場景描述，專門描述場景里有什麼、攝像機怎麼動、物體如何運動，但刻意不描述天氣；另一種是天氣描述，只描述目標天氣狀態，不涉及場景內容。這種分開標註的設計非常關鍵——它讓模型知道"場景是什麼"和"天氣是什麼"是兩個可以獨立控制的維度。

物體控制資訊的提取依靠Grounded-SAM2這一工具：先在第一幀圖片裡檢測出物體，然後在整段影片中追蹤物體的輪廓，最後把每一幀中每個物體的位置轉換成一個緊緊包裹物體的矩形框，作為模型的物體控制輸入。

攝像機控制和場景幾何資訊的提取則用到了一組專業工具。Depth Anything和UniDepth提供單目深度估計，MegaSaM從影片中恢復攝像機參數，MoGe提供密集的深度和法線資訊。有了這些，研究團隊就能沿著估計的攝像機軌跡，把第一幀的三維幾何結構"渲染"成一系列帶透視變換的背景圖像，作為模型的攝像機控制輸入。

整個數據集最終包含約1.5萬個訓練樣本，其中真實數據約7571個，模擬數據約3541個，影片到影片生成數據約3954個。天氣類型涵蓋雲（占20.2%）、雨（占25.46%）、雪（占34.22%）和霧（占20.12%）四大類。此外，研究團隊還專門保留了150個樣本作為獨立的測試基準，其中真實、模擬、影片生成各50個，確保測試數據與訓練數據完全隔離。

三、核心設計：讓"保持場景"和"改變天氣"各司其職

有了數據，接下來的挑戰是設計出一個能同時完成兩件矛盾事情的模型。研究團隊的核心思路是"分工"——不讓同一組參數同時學習保持場景和改變天氣，而是給這兩件事分配專屬的"員工"。

Holo-World的基礎是一個叫做Wan2.1-T2V-14B的大型影片生成模型，參數量高達140億，是一個已經在海量影片數據上預訓練好的強大基礎。研究團隊把這個基礎模型完全凍結，不去改動它的任何參數，而是在它身上"插件式"地接入了一套新機制，叫做統一場景適配器（UniSA）。

贊助商廣告

統一場景適配器由兩個部分組成，分別叫做世界適配器和狀態適配器。世界適配器專門負責處理場景保持任務——它接收渲染出來的背景RGB圖像、深度圖、法線圖和物體控制框作為輸入，學習如何讓生成的影片在攝像機運動時保持場景結構穩定、物體位置準確。狀態適配器專門負責處理天氣轉換任務——它以渲染的背景RGB作為場景外觀參考點，同時接收天氣文字描述，學習如何在保持場景骨架的前提下改變天氣外觀。

這兩個適配器共享同一個凍結的影片骨幹網路，但它們各自有完全獨立的訓練參數，學到的東西存在不同的"記憶空間"里，互不干擾。在模型推理時，兩個適配器各自產生一個"提示信號"，疊加到骨幹網路的中間層上，共同引導影片生成。世界適配器的提示信號始終激活，而狀態適配器的提示信號有一個開關：當樣本不需要天氣變換時，開關關閉，模型只做場景保持；當樣本需要天氣變換時，開關打開，兩個提示信號共同作用。

這種設計的精妙之處在於，真實影片訓練樣本（不需要天氣變換的那部分）不會迫使狀態適配器學習什麼都不改變——因為狀態適配器在這類樣本訓練時根本就不參與，它只在有天氣變換目標的樣本上才被激活。這樣，狀態適配器就不會學到"什麼都別動"這個對它來說有害的習慣。

四、推理時的另一重保障：場景-天氣分解的引導機制

即便有了分工明確的兩個適配器，還有另一個問題需要解決：在生成影片的過程中，如何確保天氣效果足夠強烈，同時又不破壞場景結構？

這個問題源於影片生成模型普遍使用的一種技術叫做無分類器引導（CFG）。簡單來說，這種技術的工作方式是：先生成一個"什麼條件都沒有"的基礎預測，再生成一個"所有條件都滿足"的目標預測，然後把差異放大，讓最終結果朝著目標方向走得更遠。這就像調收音機時先找到信號最弱的基準點，再找到信號最強的目標點，然後把音量調到超過目標點，以確保聲音足夠清晰。

贊助商廣告

這種方法的問題是：天氣信號和場景信號混在同一個"差異"里，你沒辦法只把天氣那部分放大，而不同時放大場景那部分。如果把引導強度調大，天氣效果變強了，但場景可能也被過度"重繪"，出現顏色偏移或紋理失真。如果把引導強度調小，場景保持良好，但天氣效果又太弱。

研究團隊提出了場景-天氣分解引導機制（SW-CFG）來解決這個矛盾。具體做法是在每一步生成過程中，同時運行三次模型預測：第一次不給任何文字條件，得到一個純粹由視覺控制信號驅動的基礎預測；第二次只給場景文字描述（不包含天氣描述），得到加入場景語義後的預測；第三次給完整的場景加天氣描述，得到最終目標預測。這三次預測定義了兩個獨立的方向：第二次與第一次的差值代表"場景語義方向"，第三次與第二次的差值代表"天氣語義方向"。最終的生成結果是把這兩個方向分別用不同的強度係數放大後相加，場景方向用較小的係數（避免過度重繪場景），天氣方向用較大的係數（確保天氣效果清晰可見）。

對於不需要天氣變換的真實影片樣本，天氣方向的係數自動歸零，系統退化為只有場景引導。對於需要天氣變換的樣本，兩個方向同時發揮作用。這種設計讓天氣效果的增強和場景結構的保持可以獨立調節，互不干擾。

五、用什麼輸入，產出什麼效果

整個系統的輸入設計也值得仔細說明，因為這直接決定了用戶如何使用這個模型。

最核心的輸入是一張圖片——這是整個場景的起點，系統從這張圖片出發估計場景的三維幾何結構。然後，用戶需要提供一條攝像機軌跡，告訴模型攝像機接下來要怎麼移動（向前推進、向左平移、向上仰拍等等）。根據這張圖片的幾何和攝像機軌跡，系統自動渲染出一系列背景圖像，這些渲染圖像反映了如果真的沿這條路徑拍攝，場景應該是什麼樣子——但它們看起來還很粗糙，因為幾何估計並不完美，很多細節會缺失或變形。

贊助商廣告

除了攝像機控制，用戶還可以指定場景中物體的運動——只需要在第一幀圖片上標記物體的位置，系統會給每個物體生成一個軌跡框序列作為控制信號，告訴模型這個物體在影片的每一幀應該出現在哪裡。

最後，如果需要天氣變換，用戶提供一句簡短的天氣描述，比如"把影片改成輕雨狀態，保持場景結構不變"。如果不需要天氣變換，這個輸入留空，系統就只做場景保持。

系統的輸出是一段81幀的影片，影片中的場景結構與輸入圖片高度一致，攝像機按照指定軌跡運動，物體按照指定軌跡移動，天氣按照指定描述呈現。

六、實驗數據說明了什麼

研究團隊在HoloStateData的150個測試樣本上進行了系統評測，把Holo-World與多個同類方法進行了比較。

在場景保持能力的評測上，測試了不需要天氣變換的50個真實影片樣本。評測工具是VBench-I2V——一套專門用於評估圖片到影片生成質量的標準測試體系，覆蓋影片整體質量、主體一致性、背景一致性、運動流暢度、動態程度、美學質量、畫面清晰度、圖片與影片主體一致性、圖片與影片背景一致性等九個維度。Holo-World在綜合評分上達到89.05分，高於對比方法中的Uni3C（88.25分）、GEN3C（87.24分）、VerseCrafter（88.41分）和NeoVerse（88.00分）。在圖片與影片主體一致性和背景一致性兩個最關鍵的指標上，Holo-World分別達到99.43和99.40分，處於最高水平。

攝像機控制精度方面，Holo-World的旋轉誤差為0.719度，平移誤差為1.123單位，物體運動控制誤差為7.731單位，均優於所有對比方法。其中VerseCrafter在旋轉誤差上也達到了0.834度的較好水平，但在平移誤差和物體控制上不如Holo-World。

在天氣生成能力的評測上，測試了模擬和影片生成兩個子集合併的100個天氣樣本，對比對象是兩個影片到影片天氣編輯系統：Cosmos-Transfer2.5和Wan2.7-Edit。需要特別說明的是，這兩個對比系統可以拿到完整的源影片作為輸入，而Holo-World只能從一張圖片出發——這意味著Holo-World工作條件更艱難，卻取得了更好的結果。

贊助商廣告

天氣對齊率方面，Holo-World達到86%，意思是在100個測試樣本中有86個生成了明確可見的目標天氣效果。相比之下，Wan2.7-Edit達到79%，而Cosmos-Transfer2.5隻有30%。VLM綜合評分方面，Holo-World達到68.51分（滿分100分），Wan2.7-Edit為61.92分，Cosmos-Transfer2.5為47.64分。人工評測中，評估者在不知道影片來自哪個系統的情況下進行盲選，結果顯示83%的情況下人們認為Holo-World的天氣效果比Cosmos-Transfer2.5更好，62%的情況下認為比Wan2.7-Edit更好。

消融實驗進一步揭示了每個設計組件的貢獻。研究團隊依次添加各個組件，觀察指標變化。從完全沒有任何控制的基準出發，背景PSNR（衡量背景保持質量的指標，越高越好）為13.20，天氣對齊率為51%。加入G-buffer控制（即深度圖和法線圖）後，背景PSNR提升到15.34，天氣對齊率提升到62%——這說明幾何引導不僅幫助保持場景結構，還間接幫助了天氣效果的生成，因為更準確的場景理解讓天氣粒子和大氣效果有了更合理的"附著位置"。進一步加入UniSA雙適配器結構後，背景PSNR繼續提升到16.36，VLM評分提升，但天氣對齊率略微下降到58%——這說明單靠架構分離，模型在天氣效果表達上會偏向保守。最後加入場景-天氣分解引導機制，背景PSNR跳升至18.12，同時天氣對齊率大幅回升到86%，VLM評分也達到最高的68.51分。這說明架構分離和引導分解必須配合使用，缺一不可。

關於引導強度的實驗也提供了有趣的細節。當天氣引導係數設為2時，天氣對齊率達到86%，VLM評分為68.51分，背景質量指標保持在最優水平。當係數進一步提升到4時，天氣對齊率跳升到96%，VLM評分達到78.42分，而背景質量指標完全沒有下降。這表明在合理範圍內提高天氣引導係數只會讓天氣效果更強，不會損害場景穩定性——這正是分解引導設計的價值所在。相比之下，傳統的無分解引導在提高引導強度時會同時損害背景質量。

贊助商廣告

七、這項研究的邊界和局限

研究團隊在論文結尾對研究範圍做了清晰的界定：Holo-World是一個可控影片生成系統，而不是一個物理仿真器。它生成的天氣效果基於學習到的視覺統計規律，而不是真實的流體力學或大氣物理模擬。這意味著生成的雨滴、雪花或霧氣在視覺上看起來合理，但並不遵循精確的物理方程。

從測試規模來看，150個樣本的評測集相對較小，研究團隊也坦承這是一個有代表性的診斷集而非大規模隨機測試集。此外，當前模型只支持四類天氣（雲、雨、雪、霧），對於日出、日落、極端天氣等更複雜的狀態還沒有覆蓋。

自動評估中使用Qwen3-VL同時負責數據標註和評測結果判斷，存在潛在的詞彙和校準偏差——研究團隊通過引入人工評測和皮爾遜相關係數分析對這一問題進行了驗證，結果顯示天氣對齊率與人工評分的相關係數為0.78，VLM綜合評分與人工評分的相關係數為0.66，說明自動指標與人類判斷有較強但不完美的一致性。

歸根結底，Holo-World解決的問題可以用一句話來概括：過去，控制攝像機、控制物體、控制天氣是三件完全獨立的事，而現在，你可以在一個統一的框架下同時完成這三件事，而且只需要從一張圖片出發。這對遊戲開發、影視製作、自動駕駛仿真測試、虛擬現實內容創作等領域都有明顯的實用價值——不需要等待特定天氣、不需要外景拍攝，只要一張圖片加上幾行參數描述，就能生成你需要的任意狀態下的場景影片。當然，從實驗室成果到大規模工程應用還有一段距離，但這項研究提供了一個清晰的技術路徑，也為後續的研究者劃定了問題邊界和解決方向。如果你對這項研究的技術細節感興趣，可以通過arXiv:2606.20083找到完整論文，所有訓練細節、評測指標定義和評估提示詞均在附錄中完整公開。

Q&A

Q1：Holo-World只需要一張圖片就能生成影片，和普通的天氣影片編輯軟體有什麼不同？

贊助商廣告

A：普通的天氣影片編輯軟體需要輸入一段完整的影片，然後在現有畫面上疊加天氣效果，系統可以直接參考原影片的場景布局和時間變化。Holo-World只需要一張圖片，系統要自己推斷出場景的三維結構，然後按照用戶指定的攝像機路徑和物體軌跡來生成未來畫面，同時還要把天氣狀態改成目標天氣——這三件事要同時完成，難度遠高於在現成影片上修改天氣。

Q2：HoloStateData數據集是怎麼保證天氣影片的場景結構不出現偏差的？

A：HoloStateData的關鍵設計是"源端控制與目標天氣嚴格分離"。所有用於引導模型生成的控制信號——包括渲染的背景圖像、深度圖、法線圖和物體框——全部從源端影片（原始天氣狀態）構建，目標天氣影片只作為訓練的監督目標，絕對不參與控制信號的構建。這樣模型在生成時看到的幾何和攝像機資訊始終來自同一個場景，不會因為目標天氣影片的視覺差異而造成幾何資訊泄漏或偏移。

Q3：Holo-World的場景-天氣分解引導機制為什麼能同時提高天氣效果又不損害背景質量？

A：傳統引導方式把場景語義和天氣語義混在同一個方向里放大，調高引導強度會同時放大兩者，導致天氣更強時背景也被過度改寫。分解引導的做法是單獨計算場景方向（只加場景文字時的預測與無文字預測的差值）和天氣方向（加全部文字的預測與只加場景文字的預測的差值），然後用兩個獨立的係數分別控制這兩個方向的強度。天氣係數調高時，只有天氣那部分信號被放大，場景那部分信號不受影響，所以背景質量指標在天氣效果大幅增強時能保持穩定。