這項由上海人工智慧實驗室(Shanghai Academy of AI for Science)與復旦大學聯合主導、新加坡科技設計大學參與的研究,以預印本形式於2026年4月9日發布在arXiv平台,論文編號為arXiv:2604.08121。有興趣深入了解的讀者可通過該編號在arXiv檢索到完整論文。
研究背景:一場代價高昂的"文理之爭"
人類在成長過程中,往往先學會用眼睛感知世界,才慢慢發展出用語言描述所見之物的能力。一個嬰兒在開口說話之前,已經能辨認媽媽的臉、貓咪的輪廓和蘋果的顏色。這種"先看後說"的發育順序暗示了一件有趣的事:視覺感知能力在某種程度上先於語言表達能力存在。
AI研究者們在構建"能看懂影片又能生成影片"的智能系統時,卻走上了一條截然相反的路。過去幾年裡,主流做法是先建一個很強大的"語言模型"——也就是能讀懂文字、回答問題的AI大腦——然後費盡心思地往裡面塞進"生成影片"的能力。這就好比先培養了一個博學的圖書館員,再逼他去學拍電影,過程費時費力不說,拍出來的電影質量也未必好。
問題的根源在於一個巨大的計算量鴻溝。生成一段影片所需要的計算量,遠遠超過理解一段文字所需的計算量。以目前最先進的圖像生成模型為例,生成一張高清圖片需要處理約4096個"計算單元",而且要反覆運算50次。再把這個規模放大到影片,一段僅僅5秒的720P影片就需要處理將近74000個計算單元,同樣要重複運算40到50次。換句話說,生成影片的計算量輕鬆突破數百萬,而生成一段相同長度的文字描述,所需計算量可能只有前者的幾千分之一。
正是這個懸殊的代價差異,催生了這項研究的核心問題:既然影片生成本來就這麼"貴",為什麼不直接從一個已經會生成影片的AI出發,再教會它理解影片呢?畢竟,能夠生成一段影片的AI,必然已經深刻理解了文字和畫面之間的對應關係——否則它根本沒辦法根據文字描述畫出對應的畫面。
Uni-ViGU(統一影片生成與理解框架)就是這一思路的具體實現。它的名字本身就是一份宣言:Unified Video Generation and Understanding,統一的影片生成與理解。
一、影片生成器為什麼天然就"懂"影片?
在深入了解Uni-ViGU的設計之前,有必要先弄清楚一個關鍵問題:為什麼一個"只會生成影片"的AI,會被認為已經對影片有了深入理解?
現代影片生成AI的核心工作方式,是把一堆隨機噪點(可以理解為一張布滿雪花的電視螢幕)逐步"雕刻"成一段清晰的影片。這個過程叫做"擴散",整個模型則叫做擴散模型。具體來說,這類AI會先把輸入的影片壓縮成一種更緊湊的"隱藏表示"(類似於把一本厚厚的書提煉成一頁摘要),然後在這個壓縮的空間裡學習如何從噪點還原出有意義的畫面。
這個過程中,AI需要接受文字提示作為引導——你告訴它"一隻貓坐在陽光下的窗台上",它就要生成對應的畫面。要做到這一點,AI必須深刻理解"貓""陽光""窗台"這些概念在視覺上的表現形式,以及它們之間的空間和光線關係。這意味著,一個訓練成熟的影片生成AI,其內部已經隱含了大量關於"文字-影片"對應關係的知識。
Uni-ViGU的研究團隊正是看到了這一點。他們的核心判斷是:如果AI已經學會了"從文字到影片"的映射,那麼"從影片到文字"的映射(也就是影片理解)本質上是同一個映射的反向過程。利用這種對稱性,可以大大降低讓AI學會看懂影片的難度。
研究團隊選擇的基礎模型是WAN2.1,這是目前業界最先進且高效的文字-影片生成模型之一。WAN2.1的內部架構包含三個主要部分:一個叫做VAE的影片壓縮器(負責把影片壓縮成緊湊的數字表示,以及把數字表示還原成影片),一個文字編碼器(負責把文字轉換成AI能理解的數字形式),以及一個叫做DiT的擴散Transformer(負責實際的"去噪"生成過程,是整個系統的大腦)。
在這個架構基礎上,Uni-ViGU要做的事情可以比作給一位技藝精湛的導演加裝了一套"看片寫劇本"的新技能——原有的拍攝能力完好保留,新增的能力則建立在拍攝經驗的基礎之上。
二、解決"兩種語言"的衝突:統一流匹配方法
現在出現了一個棘手的技術問題。影片生成和文字生成在本質上是兩種截然不同的過程,把它們強行合併在一個框架里,就像試圖讓一台打字機同時承擔鋼琴的工作——鍵盤長得有點像,但運作原理完全不同。
影片的世界是"連續的"——顏色、亮度、運動可以取任意中間值,影片中每一幀的每一個像素都是一個連續變化的數值。文字的世界則是"離散的"——詞語就是詞語,"貓"和"狗"之間沒有半步的中間狀態,每個詞要麼存在要麼不存在,不能取0.5個詞這種中間值。
傳統的擴散模型擅長處理連續數據,而傳統的文字生成則依賴"從左到右,一個字一個字預測下一個字"的自回歸方式(就像我們寫文章時的正常習慣),兩者在數學上是互不兼容的。
研究團隊提出了一個叫做"統一流匹配"的方法來解決這個問題。可以把它理解為設計了一套雙軌制的變形規則:影片的"變形"走一條連續的軌道(從隨機噪點平滑地變成清晰影片),文字的"變形"走另一條離散的軌道(從隨機亂碼平滑地聚攏成有意義的詞語),兩條軌道在同一個系統里同時運作,互相協同。
具體來說,對於影片,模型學習的是如何從一團隨機噪點(數學上叫高斯噪聲)出發,沿著一條直線路徑"流動"到真實影片的數字表示。這條路徑上的每一步,都是噪點和真實影片按比例混合的結果——就像調色板上,純白和純紅各占多少比例,中間就是對應比例的粉紅色。
對於文字,處理方式稍有不同,但思路相似。研究團隊把詞彙表里的每一個詞都先轉換成一個連續的數字向量(可以理解為詞語的"數字指紋"),然後同樣讓模型學習從隨機噪點"流動"到對應詞語的數字指紋。當推理完成後,最終得到的數字向量再通過查找最相似詞彙的方式,還原成具體的文字。
最關鍵的設計在於:影片的流動進度和文字的流動進度是相互獨立的。在一次訓練中,影片可能已經80%清晰了,而文字只有20%成形;或者反過來。這種獨立性讓模型必須學會在各種資訊不完整的組合下,都能正確理解影片和文字之間的對應關係,從而習得更魯棒的跨模態理解能力。
在推理(實際使用)時,這套系統可以靈活切換工作模式。如果要做影片理解(看懂影片並生成描述),就把影片固定為已知的清晰狀態,讓文字從噪點開始慢慢"還原"出來。如果要做影片生成,就把文字固定為已知的提示詞,讓影片從噪點開始生成。如果要同時生成影片和配套描述文字,就讓兩者都從噪點出發,同步演化,互相引導。
三、聰明地改造大腦:模態驅動的專家混合架構
有了處理兩種模態的數學框架,下一個問題是:在AI的神經網路內部,應該怎麼修改它的"大腦結構",才能在不破壞原有影片生成能力的前提下,添加文字生成能力?
研究團隊對WAN2.1的內部結構進行了一番解剖分析。影片生成AI的大腦(DiT,擴散Transformer)由許多層神經網路堆疊而成,每一層包含三個主要組件:自注意力層、交叉注意力層和前饋網路層(FFN)。
自注意力層的功能類似於讓影片中的每一個區域都"環顧四周",觀察其他區域的情況,從而理解整個場景的空間和時間關係。交叉注意力層則負責讓影片內容與文字提示相互"對話"——它是AI理解"畫面要符合文字描述"的核心機制。前饋網路層則是獨立處理每一個位置的資訊,可以理解為對每個局部特徵進行深度加工和提煉,其中儲存的主要是特定模態(影片)的專有知識。
這種功能分工揭示了一個關鍵洞察:跨模態的對齊知識(也就是"這個詞對應這種畫面"的知識)主要儲存在注意力層里,因為注意力層天然擅長處理不同位置、不同實體之間的關係。而具體模態的生成技巧(影片要怎麼畫、文字要怎麼寫)則主要由前饋網路層負責。
基於這個判斷,研究團隊採取了一個外科手術般精準的改造方案:保留所有注意力層不動,只為每個前饋網路層添加一個新的"文字專家"分支,而原有的"影片專家"前饋網路權重完全保留。
改造後的架構可以用一個工作室的比喻來理解:所有人(影片和文字的資訊)共用同一個開放式會議室(共享的注意力層),在這裡自由交流、互通資訊;但離開會議室後,影片工作者回到自己的影片編輯工作檯(影片專用前饋網路),文字工作者則去自己的寫作桌(文字專用前饋網路),各自用專業工具完成深度加工。
這個設計有幾個實際好處值得細說。首先,注意力參數完全共享,意味著影片生成過程中已經學會的跨模態對齊知識,可以直接被文字生成過程所使用,不需要從零學起。其次,新增的文字前饋網路是獨立的,不會干擾原有的影片生成能力,影片生成的質量得以完全保留。第三,增加的參數量相對很小——僅僅是為每一層多加了一個前饋網路——而不需要複製整個模型。
值得一提的是,這種架構在AI領域有一個專門的名字叫"專家混合"(Mixture of Experts,MoE),但通常的MoE需要用一個額外的"路由器"來決定每次應該使用哪個專家。Uni-ViGU的設計更為簡潔:路由規則完全由輸入數據的模態類型決定——影片就用影片專家,文字就用文字專家,沒有任何額外的路由器開銷,也沒有路由決策出錯的風險。
四、兩階段漸進式訓練:從"記住老本"到"學會新技能"
架構設計好了,接下來是訓練方法。研究團隊設計了一套兩階段漸進式訓練方案,把它命名為"雙向訓練機制"。
第一階段叫做"知識喚醒"階段。還記得前面說過,影片生成AI已經學會了"從文字到影片"的映射嗎?知識喚醒階段要做的,就是把這個映射"激活"成雙向的。具體操作是:用一批影片和對應的文字提示詞作為訓練數據,讓模型在看到影片的同時,試圖"猜出"這段影片當初是用什麼提示詞生成的。
但這裡有個潛在的取巧風險:如果訓練時直接把原始提示詞也輸入給模型,模型可能會偷懶地直接複製提示詞,完全不去理會影片內容。為了堵住這個漏洞,研究團隊引入了一個叫做"條件丟棄"的機制——在訓練時,有一定概率隨機抹掉輸入的提示詞,迫使模型必須從影片本身去推斷對應的文字,而不能依賴現成的提示詞作弊。
訓練數據規模方面,第一階段使用了1萬個影片-提示詞對。這看起來數量不多,但這裡有個聰明的設計:訓練用的影片本身就是由WAN2.1(也就是Uni-ViGU的基礎模型)根據提示詞生成的合成影片。由於影片和提示詞來自同一個生成模型,它們之間的對應關係對這個模型來說是"與生俱來"的知識,所以只需要相對少量的訓練樣本就能完成知識喚醒。
另一個值得注意的工程細節是損失函數的權重設置。在訓練過程中,影片部分大約有3萬個計算單元,而文字部分只有256個。如果按照相同的權重來優化,影片已經訓練得很好的部分會主導整個訓練過程,文字理解能力反而得不到充分訓練。研究團隊因此把文字部分的訓練權重相應放大(具體數值約為30000/256,大約120倍),確保每個計算單元得到同等程度的優化關注。
第一階段完成後,模型已經能夠根據影片內容生成基本的文字描述,但生成的內容往往比較粗淺——畢竟訓練用的目標文字只是簡短的提示詞,而短提示詞通常只包含場景的大致輪廓,缺少細節。
這就引出了第二階段:能力精煉階段。這個階段的目標是把模型的影片理解能力從"看個大概"升級到"深入觀察"。具體做法是:在原有影片和提示詞的基礎上,再引入一批由大語言模型輔助生成的"詳細說明"——這些詳細說明包含了影片中人物的服裝顏色、表情動作、背景中的細節裝飾、場景的光線變化、物體的運動軌跡等大量具體資訊。
訓練目標從"猜出簡短提示詞"變成了"生成詳盡描述"。這樣的訓練數據有一個精心設計的約束:簡短提示詞被限制在0到128個詞以內,而詳細說明則必須在128到256個詞之間。這種長度差異確保了詳細說明中包含大量提示詞裡根本沒有的資訊,模型必須真正去"看"影片,才能生成這些額外的細節,無法再靠讀取提示詞取巧。
能力精煉階段使用了另外1萬個影片-提示詞-詳細說明的三元組數據,訓練步數為6萬步,學習率相對第一階段降低,採用更精細的微調方式。整個訓練過程在16塊H800顯卡上進行,耗時約一周。
五、同時"拍影片"和"寫劇本":聯合生成能力
Uni-ViGU最令人眼前一亮的能力,是能夠同時生成影片和與之配套的詳細文字描述。這不是"先生成影片,再用另一個模型描述影片"的串聯做法,而是在同一個模型內部,讓影片和文字從各自的隨機噪點出發,同步演化、互相引導。
這個過程可以用一段即興音樂表演來理解。兩位演奏者(影片和文字)同時從"隨機亂彈"開始,逐漸找到共同的節奏和旋律。在整個演奏過程中,每一步,影片流正在成形的畫面會提供視覺上的"情緒"和"氛圍",引導文字流產生更貼切的描述;與此同時,文字流中逐漸成形的語義結構,反過來告訴影片流應該往哪個方向繼續發展。兩者通過共享的自注意力層不斷交換資訊,最終共同收斂到一個語義高度一致的影片-文字對。
從論文給出的具體案例可以看到這種協同效應的威力。以一個"海邊房屋門廊上的男服務員手持飲料托盤"的場景為例,原始提示詞只給出了大致場景描述,而Uni-ViGU聯合生成的詳細說明則包含了服務員穿著黑色西裝配白襯衫、右手高舉銀色托盤、托盤上有四個裝有橙色飲料的高腳杯、走過淺色木質甲板、海鷗在頭頂飛翔並投下動態陰影等大量具體細節。這些細節不僅忠實反映了影片內容,而且用詞準確、表達流暢,達到了真實影片字幕的質量水平。
另一個案例是一個紅蘋果被水流沖淋的極簡場景,生成的詳細說明捕捉到了蘋果放在木架上的具體姿態、水流的節律性涌動、背景中升起的蒸汽、從側面透進來的戲劇性光束等視覺細節,整個描述具有強烈的臨場感和電影質感。
六、研究的位置與意義:站在哪條河流的交匯點
Uni-ViGU的出現並非憑空而來,它處於幾條重要研究脈絡的交匯點上,理解這些背景有助於更準確地把握這項研究的價值。
在"統一多模態理解與生成"這個大方向上,過去的主流路線是從語言模型出發擴展視覺能力。早期方法(如Janus、Show-o等)把圖像生成變成了詞語預測的一種——把圖像切成一個個小格子,每個格子用一個詞來表示,這樣圖像生成就變成了"寫一篇關於圖像的特殊文章"。這種做法實現了統一,但視覺質量有所損失,因為圖像的細膩層次被粗糙的離散詞彙抹平了。後來的方法(如MetaMorph、BLIP3-O等)保留了擴散模型的視覺質量,但讓語言模型和擴散模組分開訓練,導致兩邊的知識無法充分共享。更新的方法(如引用中的雙塔框架)則讓理解模組和生成模組各建一套語言模型,再用交叉注意力連接,雖然更緊密,但參數量翻倍的代價相當可觀。
Uni-ViGU選擇了一條不同的路:從生成模型出發,以最小的架構改動(只增加文字專用FFN層)和最小的訓練成本(共2萬樣本,一周訓練)實現統一。這種"輕量化改造強大基礎模型"的思路,與另外兩項相關工作有相似之處:一個是MMAR(在擴散模型中統一圖文生成的早期工作),另一個是Omni-Diffusion(用離散擴散方法統一圖文理解與生成)。但Uni-ViGU的特點在於專注於影片模態,並且充分利用了預訓練影片生成模型中已有的豐富知識,而非從頭訓練。
在"擴散模型做文字生成"這條研究線上,LLaDA等工作已經證明了擴散框架可以在文字生成任務上與自回歸語言模型相競爭。Uni-ViGU把這種離散文字擴散和連續影片擴散放在同一個模型里聯合訓練,是對這一研究方向的自然延伸,同時也是其在影片理解場景下的首次系統性應用。
說到底,這項研究告訴了我們什麼
歸根結底,Uni-ViGU代表了一種思維方式的轉變:不是把"會說話的AI"訓練到也能"畫畫",而是把"會畫畫的AI"教會了"用語言描述自己畫的東西"。前者的代價極其昂貴,因為繪畫(尤其是影片)是這兩件事裡更難更複雜的那個;後者則聰明得多,因為能畫出東西的AI已經理解了畫面,讓它用語言說出來不過是把內部知識外化。
當然,這項研究還有很多待完善之處。訓練數據目前僅有2萬個樣本,這與動輒數百萬樣本的主流訓練規模相比還相當有限。當前版本也主要展示了影片理解(生成描述)和影片生成的能力,在需要回答具體問題(如"影片中有幾個人?")等更複雜的理解任務上,還需要進一步驗證和改進。此外,所用的訓練影片是由AI生成的合成影片,真實世界影片的複雜性和多樣性是否能被同樣好地處理,也是值得持續關注的問題。
但這項研究在方法論上提出的問題,卻有著相當深遠的意義:當我們擁有了一個能夠"模擬世界"的生成模型,它對世界的"理解"究竟達到了什麼程度?這種理解能夠如何被解鎖和利用?這些問題的答案,也許將深刻影響AI系統的未來發展方向。對於對這個方向感興趣的讀者,可以通過arXiv檢索編號arXiv:2604.08121查閱完整論文,獲取所有技術細節和實驗結果。
Q&A
Q1:Uni-ViGU是什麼,它和普通的影片AI有什麼不同?
A:Uni-ViGU是由上海人工智慧實驗室與復旦大學聯合研發的統一影片生成與理解框架。普通影片AI要麼只會生成影片,要麼只會分析影片,兩者通常是分開的系統。Uni-ViGU的特別之處在於,它從一個已經能生成高質量影片的AI出發,通過輕量化改造,讓同一個模型既能根據文字提示生成影片,也能看懂影片並生成詳細的文字描述,甚至可以同時生成影片和配套說明。
Q2:Uni-ViGU是如何讓影片生成AI學會"看懂"影片的?
A:核心思路是利用影片生成和影片理解的對稱性。一個能根據文字提示生成影片的AI,內部已經編碼了大量"文字-畫面"對應關係。Uni-ViGU通過兩階段訓練來激活這種反向能力:第一階段讓模型從影片中猜出原始提示詞,第二階段則要求模型生成包含更多細節的詳盡描述,迫使模型真正"看"影片而非靠提示詞取巧。整個過程只用了2萬個訓練樣本,一周內完成訓練。
Q3:統一流匹配方法解決了什麼具體問題,為什麼不能直接把影片和文字放在一起訓練?
A:影片數據是連續的(顏色亮度可以取任意中間值),而文字是離散的(詞語之間沒有"半個詞"的中間狀態),兩者在數學上不兼容,無法直接用同一套訓練方式處理。統一流匹配方法的解決方案是給影片設計一條連續變化的"流動軌道",給文字設計一條離散但同樣可以用連續數學表示的"流動軌道",兩條軌道在同一個模型里同步運作,速度可以相互獨立,從而讓模型在各種資訊不完整的組合下都能學習兩種模態之間的對應關係。






