這項由新加坡國立大學的楊洛、趙軒雷,香港科技大學(廣州)的林白炯,香港大學的朱凌婷,雪梨大學的唐立堯,香港中文大學的劉宇琦,以及光速公司的錢盛舉、王鑫等研究者合作完成的突破性研究,於2025年11月20日發表在預印本平台arXiv上,論文編號為arXiv:2511.16668v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當前的影片生成技術已經發展到了令人驚嘆的地步。OpenAI的Sora-2、Google的Veo-3.1等模型能夠根據文字描述生成極其逼真的影片內容,這些AI系統仿佛擁有了神奇的"創作魔力"。然而,就像一個畫家可以畫出美麗的畫作,但不一定能解開數學難題一樣,這些影片生成模型雖然在視覺效果上表現卓越,但它們的"思考能力"究竟如何?它們能否像人類一樣進行邏輯推理、空間認知和物理直覺的運用?
這正是研究團隊想要解決的核心問題。他們注意到,儘管影片生成模型在創造視覺內容方面已經達到了專業級水準,但科學界對這些模型的推理能力缺乏系統性的評估方法。就像我們評判一個學生不能只看他的繪畫作品,還要考察他的數學、物理和邏輯思維能力一樣,評估AI模型也需要更全面的"考試體系"。
為了填補這個空白,研究團隊開發了名為V-ReasonBench的綜合評估基準。這套評估體系就像一個專門為影片生成模型設計的"智力測試",包含了四大核心推理維度:結構化問題解決、空間認知、模式推理和物理動力學。每個維度都包含精心設計的任務,總共涵蓋13種不同類型的推理挑戰,從簡單的數學運算到複雜的物理現象預測。
研究團隊採用了一個巧妙的評估策略,稱為"幀鏈推理"(Chain-of-Frame)。這個概念類似於人工智慧領域著名的"思維鏈"方法,但專門適用於影片模態。具體來說,就是給模型提供一個初始圖像和任務指令,讓模型生成一段影片,其中每一幀都代表推理過程中的一個步驟,最後一幀展示最終答案。這就好比讓學生在考試中不僅要寫出答案,還要展示解題的完整過程。
在實際測試中,研究團隊對六個當前最先進的商用影片生成模型進行了全面評估,包括Sora-2、Veo-3.1、Hailuo-02、Vidu-Q2、KlingAI-2.5-Turbo-Pro和Seedance-1.0-Lite。測試結果揭示了一個有趣的現象:不同模型在各個推理維度上表現出明顯的差異化特徵,沒有任何一個模型能在所有方面都表現優異。
**一、四大推理維度:給AI模型的全方位"體檢"**
V-ReasonBench的核心創新在於將影片推理能力分解為四個互補的維度,每個維度都對應著人類認知的不同方面。這種分類方法就像醫生給病人做全身檢查時要分別檢查心肺功能、血液指標、神經反應等各個系統一樣,確保評估的全面性和準確性。
結構化問題解決維度主要考察模型處理規則導向任務的能力。這個維度包含四個子任務:數學運算、代碼執行、數獨遊戲和井字棋遊戲。數學運算任務要求模型完成各種難度級別的算術題,從簡單的加減法到複雜的四則混合運算。代碼執行任務則讓模型像程序員一樣跟蹤代碼的執行過程,預測最終輸出結果。數獨遊戲測試模型的約束滿足推理能力,而井字棋遊戲則評估模型在對抗性環境中的策略規劃能力。
空間認知維度專門評估模型對幾何關係和空間變換的理解能力。這個維度包括形狀拼裝、視覺對稱和顏色連接三個子任務。形狀拼裝任務類似於拼圖遊戲,要求模型通過旋轉和位移將幾何圖形正確放置到相應的槽位中。視覺對稱任務考察模型識別和完成各種對稱模式的能力,包括水平對稱、垂直對稱、對角線對稱和180度旋轉對稱。顏色連接任務則像連線遊戲一樣,要求模型在網格中用非相交的路徑連接相同顏色的端點。
模式推理維度探測模型的歸納學習和抽象思維能力。這個維度包含序列補全、類比推理和規則跟隨三個子任務。序列補全任務展示一系列遵循特定規律的圖像,要求模型推斷下一個圖像應該是什麼樣子。類比推理任務採用經典的"A對B正如C對什麼"的形式,測試模型理解關係映射的能力。規則跟隨任務通過幾個示例展示某種變換規律,然後要求模型將同樣的規律應用到新的輸入上。
物理動力學維度評估模型對基本物理原理的直覺理解。這個維度包括物體滑動、連通容器和溫度變形三個子任務。物體滑動任務要求模型預測放置在斜面上的物體是否會滑落,這需要對重力、摩擦力和物體屬性的綜合考量。連通容器任務考察模型對流體靜力學的理解,要求預測液體在連通容器中的最終平衡狀態。溫度變形任務則測試模型對熱脹冷縮、相變等熱學現象的認知。
**二、創新評估方法:從"看結果"到"看過程"的轉變**
傳統的AI模型評估通常只關注最終輸出的正確性,就像只看學生的考試答案而不管解題過程一樣。但V-ReasonBench採用了一種更加先進的評估策略,不僅要看模型能否給出正確答案,更要觀察它的"思考過程"是否合理。
這種方法的核心是"最後幀評估"策略。研究團隊巧妙地設計了所有任務,使得正確的推理過程必然導致正確的最終狀態,而錯誤的推理過程則會在最後一幀中暴露問題。這就像設計一個精巧的機械裝置,只有每個齒輪都正確轉動,整個機器才能正常工作並產生預期的最終狀態。
為了確保評估的準確性和可擴展性,研究團隊開發了三種互補的評估方法。第一種是掩碼評估法,主要用於有明確物體邊界的任務。這種方法會自動識別圖像中的關鍵區域,然後重點比較這些區域的預測結果與標準答案的相似度。第二種是網格評估法,專門用於需要精確空間定位的任務,比如對稱性補全或規則應用。這種方法將圖像劃分為規則的網格,然後逐格比較預測結果的準確性。第三種是視覺語言模型評估法,用於那些具有簡單視覺布局且AI模型能夠可靠理解的任務,比如數學運算或代碼執行結果的提取。
這種多層次的評估策略有效避免了單一評估方法可能帶來的偏差。研究團隊特別注意到,純粹依賴視覺語言模型進行評估可能會在處理複雜網格結構或細粒度幾何關係時出現誤判。因此,他們根據不同任務的特點選擇最合適的評估方法,確保每個任務都能得到公平且準確的評估。
**三、六大模型的"考試成績單":各有千秋的表現特色**
研究團隊對六個頂級影片生成模型進行了全面測試,結果展現了一幅複雜而有趣的能力圖譜。每個模型都像具有不同專長的學生一樣,在某些科目上表現出色,而在其他科目上則相對薄弱。
Sora-2作為OpenAI的旗艦模型,在測試中展現了最均衡的表現,總平均得分達到43.86分(滿分100分)。它在結構化問題解決方面表現尤為突出,得分高達72分,這意味著它在處理數學運算、邏輯推理和策略規劃等任務時具有相當強的能力。在空間認知方面,Sora-2也取得了36.76分的不錯成績,顯示出它對幾何關係和空間變換的良好理解。在模式推理維度,該模型得到40分,證明它具備一定的歸納學習和抽象思維能力。然而,有趣的是,Sora-2在物理動力學方面的表現相對較弱,只得到26.67分,這表明儘管它在邏輯推理方面很強,但對物理世界的直覺理解還有待提高。
Hailuo-02作為國產模型的代表,展現了另一種有趣的能力分布模式。它的總平均得分為37.52分,在四個維度中表現最為均衡。特別值得注意的是,它在物理動力學方面與Vidu-Q2並列第一,得分達到36.67分,這表明中國的研發團隊在模擬物理世界方面投入了相當的精力。在結構化問題解決方面,Hailuo-02得分46.86分,雖然低於Sora-2,但仍然顯示出不錯的邏輯推理能力。
Veo-3.1作為Google的代表作品,得到了24.25分的平均成績。它的表現相對中庸,在各個維度都沒有特別突出的亮點,但也沒有明顯的短板。這種平衡性表現可能反映了Google在模型訓練時追求全面發展的策略。
相比之下,其他三個模型的表現則顯得更加專業化或者說存在明顯的發展重點差異。Kling-2.5-Turbo-Pro的平均得分為11.34分,Vidu-Q2得到16.69分,而Seedance-1.0-Lite只有10.68分。這些較低的分數並不意味著這些模型在影片生成質量上有問題,而是說明它們在推理任務上還有很大的提升空間。
研究團隊還進行了人類偏好對齊驗證,結果顯示自動評估結果與人類評判的一致性達到97.09%。這個高度的一致性證明了V-ReasonBench評估方法的可靠性。剩餘的2.91%差異主要出現在一些視覺上模糊的情況,比如接近對稱的配置或部分遮擋的物理場景,在這些情況下人類評估者通常會對微小的感知偏差表現出更高的容忍度。
**四、令人意外的發現:視覺豐富度與推理準確性的矛盾**
在深入分析模型表現時,研究團隊發現了一個既有趣又令人擔憂的現象。許多影片生成模型存在一種"過度美化"的傾向,它們似乎無法忍受簡潔、乾淨的測試環境,總是試圖向其中添加額外的視覺元素來"改善"畫面效果。
以Seedance-1.0-Lite為例,當面對一個簡單的井字棋遊戲板時,模型沒有保持原有的簡潔設計,而是將其轉換成一個卡通風格的場景,添加了角色形象和裝飾性圖標。在另一個案例中,同樣的模型將一個標準的井字棋布局映射到了棋盤上,周圍環繞著各種棋子和標記物。雖然這些變化從視覺敘事的角度來看是無害的,甚至可以說是"創意性"的,但它們破壞了任務所要求的嚴格符號和空間精確性。
這種現象背後的原因可以追溯到這些模型的訓練數據特徵。當前的影片生成模型主要在開放域影片數據上進行訓練,這些訓練數據強調視覺真實性和豐富性,很少包含圖表式的清潔數據。因此,當模型遇到具有小符號和細線條的最簡化輸入時,可能會將其視為"不完整"的內容,並嘗試通過添加額外細節來"改進"它們。
訓練和解碼選擇進一步加強了這種行為模式。重建目標獎勵精細紋理,時間平滑項鼓勵運動(即使正確的解決方案應該是靜態的),以及對圖表式數據的有限暴露,這些因素共同推動生成器朝向美學補全的方向發展,而不是結構保持渲染。這種趨勢與依賴精確空間或符號約束的任務產生了衝突。
**五、影片長度的悖論:更長的"思考時間"未必帶來更好的結果**
研究團隊還探索了一個直覺上很有趣的問題:給模型更多的"思考時間"(即更長的影片時長)是否會提高推理質量?在幀鏈推理框架中,更長的影片時長理論上對應著更長或更詳細的推理過程,這在直覺上似乎應該能夠增強推理準確性。
然而,實驗結果卻展現了一個反直覺的模式:延長影片時長並不能持續帶來更好的推理效果或更高質量的輸出。相反,更長的序列往往會引入冗餘或不相關的內容,在某些情況下甚至會導致模型在最終幀中產生與任務無關的幻覺對象。
這種現象與先前關於時間推理的研究發現相一致。增加序列長度確實能擴展可用的因果證據,但同時也會放大注意力漂移和時間錯誤綁定的問題。雖然當額外幀包含相關資訊且模型能夠有效整合遠距離線索時,更長的片段可以提高性能,但過度的時間擴展往往會稀釋注意力並積累噪聲。
研究團隊通過具體案例展示了這一現象。在數獨和規則跟隨等任務中,當給予模型更長的生成時間(比如從4秒增加到8秒,或從5秒增加到10秒)時,結果輸出並沒有顯示出一致的改善。這表明,就像人類思考一樣,有時候過度思考反而可能導致錯誤的結論或不必要的複雜化。
**六、影片模型與圖像模型的對決:時間維度的優勢與劣勢**
為了更好地理解時間建模在推理中的作用,研究團隊將Veo-3.1與NanoBanana進行了對比,前者代表基於影片的推理範式,後者代表基於圖像的推理範式。這種對比就像比較一個能夠看到完整電影的觀察者和只能看到靜態照片的觀察者在解決問題時的不同表現。
圖像模型在單個靜態幀上操作,因此嚴重依賴結構先驗、文本線索和模式識別。這使得它們在代碼推理和符號任務方面具有高可靠性,在這些任務中,語法、布局和字符級精度是性能的驅動因素。然而,缺乏時間資訊限制了它們推斷動態過程的能力。當面對涉及動量傳遞、平衡、碰撞、空間變換或鏈式結構幾何操作的任務時,它們往往選擇視覺上合理但不反映正確因果過程的結果。
影片模型表現出相反的強度特徵。通過生成幀鏈序列,Veo-3.1能夠明確建模轉換過程,表示潛在的運動路徑,並在時間上保持空間和因果連續性。這種幀級演進為模型提供了模擬物理動態和多步驟空間變換的內部機制,這直接提高了物理導向任務的準確性。重要的是,同樣的幀鏈機制也有益於代碼推理任務:中間幀充當穩定符號生成過程的視覺檢查點,減少局部不一致性並改善逐步邏輯執行。
通過幀鏈的時間建模為影片模型在物理和程序推理方面提供了明顯優勢。圖像模型在靜態結構任務方面表現強勁,而影片模型利用過程感知的時間動態來處理多步驟、因果和仿真密集型問題。將精確的靜態解析與基於幀鏈的時間建模相結合,為構建更強的視覺推理系統提供了一個有希望的路徑。
**七、AI影片推理中的"幻覺"現象:正確答案,錯誤過程**
在探索性研究階段,研究團隊觀察到了影片推理中的幾種有趣的幻覺現象。這些現象的特點是模型有時能夠產生正確的最終結果(最後一幀),但遵循的卻是不正確的推理過程。這就像學生在數學考試中寫出了正確答案,但解題步驟完全錯誤一樣。
在迷宮解決任務中,研究團隊發現小鼠在最終幀中成功到達了奶酪的位置,但它的中間軌跡卻穿過了實心牆壁,違反了基本的物理約束。類似的問題也出現在導航任務中。在牛頓擺任務中,球的最終配置(運動和靜止的球)與真實標籤保持一致,但中間幀違反了動量守恆定律。例如,當釋放最左邊的球時,整個系統保持靜止而不是立即傳遞運動。
這些案例體現了時間幻覺現象,其中發明或錯序的動作和虛構的轉換保留了正確的端點但破壞了因果一致性。這種現象已在最近的影片語言模型評估中被記錄,多模態幻覺調查也證實了它們對密集或抽象視覺模式的脆弱性。
從基準測試的角度來看,這種"正確答案,錯誤過程"的失敗很難檢測,如果我們只檢查端點的話。而且使用視覺語言模型作為中間幀判斷器也很難裁決,因為視覺語言模型本身可能會誤綁定時間關係或產生缺失步驟的幻覺。因此,研究團隊傾向於採用端狀態可驗證的任務,其中任何過程錯誤都必然會產生不正確的終端狀態。
**八、研究意義與未來展望:推理能力評估的新標杆**
V-ReasonBench的推出標誌著影片生成模型評估領域的一個重要里程碑。這套基準系統不僅填補了當前評估體系中推理能力測試的空白,更為整個人工智慧社區提供了一個標準化、可重現的評估框架。
從技術發展的角度來看,這項研究揭示了當前最先進影片生成模型在推理能力方面存在的顯著差距。儘管這些模型在視覺生成質量上已經達到了令人印象深刻的水平,但它們的推理能力仍然遠遠落後於人類水平。這種發現對於指導未來的模型開發具有重要意義,提示研發人員不能僅僅關注視覺效果的提升,還需要在推理能力的培養上投入更多精力。
研究團隊的發現也為訓練數據的選擇和模型架構的設計提供了重要啟示。目前大多數影片生成模型的訓練數據主要來源於開放域影片內容,這些數據強調視覺豐富性和娛樂性,但缺乏對推理能力的系統性培養。未來的模型訓練可能需要更多地包含圖表式、符號化的內容,以及明確的推理步驟展示。
從應用前景來看,具備強推理能力的影片生成模型將開啟全新的應用可能性。在教育領域,這樣的模型可以生成展示複雜概念推導過程的教學影片,幫助學生更好地理解抽象概念。在科學研究中,它們可以可視化複雜的物理過程或數學證明,為研究人員提供直觀的理解工具。在工程設計領域,它們可以模擬和預測各種工程方案的執行效果,幫助設計師優化方案。
然而,這項研究也提醒我們,實現真正智能的影片生成模型還面臨諸多挑戰。如何平衡視覺美觀性與推理準確性、如何處理複雜的多步驟推理過程、如何避免幻覺現象的產生,這些都是需要進一步研究和解決的問題。
說到底,V-ReasonBench為我們提供了一個全新的視角來審視影片生成模型的能力。它告訴我們,真正智能的AI系統不僅要能夠創造美麗的視覺內容,更要能夠進行深入的思考和推理。這項研究為整個人工智慧領域樹立了一個新的評估標杆,推動著我們朝著更加智能、更加可靠的AI系統不斷前進。未來隨著更多研究團隊基於這個基準開展工作,我們有理由期待看到推理能力更強、更接近人類智能水平的影片生成模型的出現。對於感興趣的研究者,可以通過訪問項目頁面https://oahzxl.github.io/VReasonBench/獲取更多技術細節和數據集資訊。
Q&A
Q1:V-ReasonBench評估基準包含哪些推理任務?
A:V-ReasonBench包含四大推理維度共13種任務:結構化問題解決(數學運算、代碼執行、數獨、井字棋),空間認知(形狀拼裝、視覺對稱、顏色連接),模式推理(序列補全、類比推理、規則跟隨),物理動力學(物體滑動、連通容器、溫度變形)。每個任務都專門測試影片生成模型的不同推理能力。
Q2:為什麼影片生成模型會出現"過度美化"問題?
A:這主要因為模型的訓練數據偏重視覺豐富性。當前影片生成模型主要在開放域影片上訓練,這些數據強調真實性和多樣性,缺乏簡潔的圖表式內容。因此模型遇到簡單、乾淨的測試環境時,會認為內容"不完整"而添加裝飾元素,雖然提升了視覺效果但破壞了推理任務所需的精確性。
Q3:影片模型比圖像模型在推理方面有什麼優勢?
A:影片模型通過幀鏈推理能夠模擬完整的思考過程,特別在物理動力學和多步驟推理方面表現更好。它們能夠建模運動軌跡、表示時間變化,對涉及動量傳遞、碰撞等動態過程的任務有明顯優勢。圖像模型雖然在符號處理和代碼執行等靜態任務上更可靠,但缺乏時間維度資訊限制了它們處理動態推理的能力。






