AI影片生成模型到底懂物理嗎？弗萊堡大學、馬克斯·普朗克研究所和CISPA聯合研究給出了讓人警醒的答案

這項由弗萊堡大學、馬克斯·普朗克資訊學研究所以及CISPA亥姆霍茲資訊安全中心聯合完成的研究，以預印本形式於2026年5月22日發布，論文編號為arXiv:2605.23699，感興趣的讀者可通過該編號在arXiv平台查閱完整論文。

贊助商廣告

當AI開始"看圖說話"，它真的理解物理世界嗎

近年來，AI生成影片的技術進步速度令人瞠目。只需要給模型一張圖片，或者幾秒鐘的影片片段，它就能自動生成一段看似流暢、畫面精美的後續影片——球在滾動，物體在碰撞，一切看起來都那麼真實。於是，越來越多的研究者相信，這些模型正在逐步成為"世界模型"，也就是能夠理解和預測真實物理世界運作規律的智能系統。

然而，"看起來真實"和"真正理解物理規律"之間，可能存在一道巨大的鴻溝。打個比方：一個從未學過物理的人，如果看了足夠多的蘋果落地影片，他也許能畫出一幅看起來很像蘋果落地的圖——但如果你換一個角度拍攝，或者把蘋果換成一個橙子，他可能就畫歪了。他學到的不是"重力定律"，而是"我見過的那種蘋果落地畫面的樣子"。

這三所頂尖機構的研究團隊正是想弄清楚：當前最先進的AI影片生成模型，究竟更像那個"學會了重力定律的物理學生"，還是那個"只是記住了蘋果落地畫面的繪畫愛好者"？

為了回答這個問題，他們構建了一套名為CRONOS的測試基準，通過系統性地改變影片中的各種視覺條件，來檢驗這些模型的預測是否真正穩定、合理。研究結果揭示的問題，對於任何對AI未來抱有期待的人來說，都值得認真對待。

一、測試的核心思路：換一件衣服，AI就認不出你了嗎

CRONOS測試的核心邏輯，可以用一個日常場景來理解。假設你認識一個人叫小明，你知道他走路的姿勢、說話的方式，知道當他被一輛自行車撞到時會摔倒。現在，如果小明換了一件襯衫，你還能預測他被撞後會怎麼摔倒嗎？當然可以，因為摔倒的方式跟襯衫顏色無關。

贊助商廣告

但如果是AI呢？研究團隊的核心問題正在於此：當場景的視覺外觀發生變化——換個拍攝角度、換個背景環境、換個物體顏色，甚至換個物體種類——AI對同一個物理事件的預測質量，會不會隨之產生大幅波動？

如果AI真正理解了物理規律，那麼換個角度看同一個碰撞事件，它的預測質量應該基本不變。但如果AI只是記住了特定畫面風格下的視覺模式，那麼一旦視覺條件改變，它的表現就會大打折扣。這種"在不同視覺條件下保持預測質量穩定"的能力，研究團隊將其命名為"反事實物理一致性"。

二、構建測試場：一個由虛幻引擎打造的物理實驗室

為了進行這種系統性的測試，研究團隊需要一套能夠精準控制所有變量的影片數據集。真實世界的影片拍攝無法做到這一點——你很難在完全相同的物理事件下，精確地只改變拍攝角度，而保持物體、場景、光照完全一致。

於是，他們選擇了虛幻引擎——一款被電影和遊戲行業廣泛使用的專業級三維渲染工具。在這個數字物理實驗室里，他們能夠精確控制每一個參數：物體的質量、摩擦力、彈性係數，以及相機的位置、場景的背景環境、物體的外觀顏色，所有這些都可以被單獨調整，而其餘條件保持完全不變。

這套虛擬實驗室渲染出的影片解析度達到1920×1080像素，幀率為每秒30幀，視覺質量相當精良，同時能夠為每個物體提供精準的分割遮罩，方便後續的精細化評測。

在具體的物理事件設計上，研究團隊精心挑選了三種典型場景，分別代表物理交互的不同基本類型。第一種是"滾落"事件：一個物體在平面上滾動，然後從邊緣跌落，這個過程涉及接觸面的變化和自由落體運動，考驗AI對重力和慣性的理解。第二種是"碰撞"事件：一個運動物體撞上另一個靜止物體，這考驗AI是否能正確預測動量傳遞和碰後運動軌跡，以及是否能維持物體的形狀完整性。第三種是"遮擋"事件：一個物體滾過一段路程後，被另一個物體遮擋，然後再次出現，這考驗AI是否能在物體暫時消失於視野後，仍然正確推斷它的後續運動。

贊助商廣告

這三種事件加在一起，覆蓋了物理世界中剛體運動的核心交互形式——既有運動軌跡預測，又有物體交互，還有長時序的邏輯一致性。

三、四把手術刀：精準切開影響預測的四個視覺維度

有了這個虛擬實驗室，研究團隊就開始系統性地進行"反事實幹預"——也就是在保持物理事件完全相同的前提下，一次只改變一個視覺因素，觀察AI的預測質量如何變化。他們選擇了四個干預維度。

第一個維度是場景干預，即改變背景環境。數據集中包含了五種不同的場景，有室內也有室外，有不同的地面材質和空間布局。對於滾落事件，場景的變化還會影響物體跌落的高度，這意味著場景干預不僅是視覺上的變化，有時還會引入真實的物理參數差異。

第二個維度是拍攝視角干預，即從不同角度拍攝完全相同的物理事件。這種干預最為關鍵，因為視角的改變不影響任何物理參數——物體的質量、速度、軌跡完全沒有變化，只是攝像機換了個位置。一個真正理解物理的模型，面對同一個事件的不同視角，預測質量應該保持穩定。

第三個維度是物體外觀干預，即改變物體的顏色或表面紋理，但不改變物體的形狀和物理參數。這是最"無害"的干預——換個顏色完全不影響物理運動，所以理想情況下，AI的預測質量應該對外觀變化完全不敏感。

第四個維度是物體類別干預，即將主體物體替換為另一種物體。這是最複雜的干預，因為不同的物體不僅外觀不同，物理屬性也會有所差異，比如不同的質量、摩擦係數和彈性，這些都會影響實際的運動軌跡。所以這個干預既測試AI能否適應視覺變化，也測試它能否相應調整對物理參數的判斷。

最終，這套全因子設計產生了675段參考影片（遮擋事件因為需要保持特定的能見度結構而不進行視角變化），覆蓋3種物理事件、5個場景、5種物體類別、最多4個拍攝視角、3種外觀變化的組合。

贊助商廣告

四、評測標準：不只是"好看不好看"，而是"對不對"

傳統的AI影片評測通常只看生成影片的視覺質量——畫面是否清晰、物體邊緣是否銳利。但CRONOS的研究團隊認為，這遠遠不夠。他們設計了一套多維度、更細緻的評測指標體系，每個指標都聚焦於生成影片的一個具體方面。

外觀穩定性衡量的是影片中物體的視覺身份是否保持一致。假如你在第一幀看到一個紅色的小球，但隨著影片進行，它的顏色開始漂移、紋理變得奇怪，這就是外觀不穩定的表現。研究團隊使用了一個叫DINOv2的深度學習視覺特徵提取器，通過比較各幀中物體圖像的特徵相似度來量化這種穩定性。關鍵的技術細節是，他們會先把背景遮蓋，只分析物體本身，這樣就不會受到背景變化的干擾。

背景穩定性衡量的是背景區域是否保持靜止和一致。在這些物理事件影片中，背景應該完全不動——沒有莫名其妙出現的新物體，沒有光照漂移，沒有攝像機晃動。背景變化的檢測方式是直接比較各幀背景區域與第一幀的像素級差異，任何異常的背景變動都會拉低這個分數。

三維形狀穩定性是一個相當新穎的指標。物體的三維形狀在整個影片過程中應該保持不變——一個球從頭到尾應該是球形，不應該突然變成橢圓或者奇怪的多邊形。為了衡量這一點，研究團隊使用了一個叫SAM3D的三維形狀重建模型，從每幀影片中推斷物體的三維網格，然後用Chamfer距離（一種衡量兩個三維形狀差異的數學工具）來量化形狀變化。

運動相似性衡量的是AI生成影片中的運動模式與參考影片中的運動是否相似。這裡有一個精妙的設計：他們使用了一個叫DisMo的運動編碼器，這個編碼器專門被訓練成對物體外觀不敏感，只關注運動本身的抽象模式。這樣一來，即使物體換了顏色，運動相似性的衡量也不會因此受到干擾，能更純粹地評估AI是否預測出了正確的運動軌跡。

贊助商廣告

物理合理性則是更宏觀的事件級評估。研究團隊用一個叫做Qwen3-VL-32B的視覺語言大模型來"觀看"影片，並回答一系列針對特定物理事件設計的判斷題。比如對於滾落事件，問題包括"物體是否在到達邊緣後跌落了""物體跌落時是否在加速"等；對於碰撞事件，則會問"兩個物體是否發生了接觸""碰撞後的運動變化是否符合物理規律"等。每個事件有5道專屬題，另有5道通用題（如"背景是否保持靜止""物體在影片過程中是否保持了形狀和顏色"），總共十道題的答對率決定了最終的物理合理性分數。

最後，成功率是一個將上述所有指標綜合起來的二元判斷——一段影片只有在所有單項指標都超過預先標定的閾值時，才算"通過"。這些閾值是通過真人用戶研究來標定的：凡是人類評註者認為該維度表現不達標（低於5分制的3分）的影片，對應的自動化指標就應該落在閾值以下。這種與真實人類感知對齊的標定方式，使得成功率具有實際意義。

在靈敏度分析方面，研究團隊還專門設計了一個衡量"干預敏感性"的指標：對於同一組干預實驗（比如同一物理事件在不同視角下的多個版本），計算各個版本的指標分數之間的最大差距。差距越小，說明模型對該干預類型越不敏感，即表現出越好的反事實物理一致性。

五、參與測試的AI選手：四個來自不同門派的影片生成高手

研究團隊選擇了當前開源社區中最具代表性的幾款影片生成模型來參加這場測試。Cosmos2.5是由英偉達 AI影片生成模型到底懂物理嗎弗萊堡大學馬克斯普朗克研究所和CISPA聯合研究給出了讓人警醒的答案發布的自回歸影片生成模型，採用了token逐步預測的方式生成影片，研究團隊分別測試了它的2B（20億參數）和14B（140億參數）兩個版本，以研究模型規模對性能的影響。MAGI-1由Sand AI開發，是另一款自回歸架構的影片模型，參數量為4.5B。CogVideoX1.5來自智譜AI，是基於擴散Transformer架構的圖生影片模型，參數量為5B。Wan2.2則是由阿里通義團隊發布的大型影片生成模型，參數量達14B。

贊助商廣告

測試分為兩種條件。圖像生成影片（I2V）條件下，所有模型只接收物理事件的第一幀圖像作為輸入，需要自主預測後續發展。影片生成影片（V2V）條件下，Cosmos和MAGI-1額外接收了前5幀影片，這些幀包含了物體的初始運動方向和速度資訊，因此提供了更多關於物理狀態的線索。

為了減少隨機性帶來的影響，每個實驗配置下都生成了三個不同隨機種子的影片，取其中運動相似性最高的那個來代表該模型在該配置下的最優表現——這種"最優三次"的評測方式，讓模型有機會展示自己的最佳狀態。

所有實驗中使用的文字提示語都經過精心設計，描述場景配置、物體屬性和預期的運動方式，但不會提供過於具體的軌跡細節，以便保留合理的不確定性空間。

六、真人先驗證：讓人類來校準機器的眼光

在正式分析AI表現之前，研究團隊做了一件非常嚴謹的事：通過真實的人類用戶研究來驗證他們設計的自動化評測指標是否真的有意義。

他們通過Prolific平台招募了8位合格的人工標註員，每人都經過資質審核和入職考試，並以每小時14英鎊的報酬參與工作。標註員們觀看了從各個模型中精心挑選出來的540段影片，對每段影片在物體外觀、物體形狀、背景穩定性、運動合理性和事件質量五個維度上進行1到5分的評分。每段影片由3位標註員評分，取中位數作為最終的人類評分。

將人類評分與自動化指標的分數進行對比，研究團隊發現兩者之間存在顯著的正相關關係。背景穩定性指標與人類評分的相關係數高達1.00，三維形狀穩定性的相關係數為0.92，物理合理性指標的相關係數為0.86，外觀穩定性的相關係數為0.82。運動相似性指標的相關係數為0.68，雖然相對較低，但p值為0.07，仍在可接受的統計顯著性範圍內。這些驗證結果支持了研究團隊在後續分析中使用這套自動化指標的合理性。

七、測試結果：幾個讓人清醒的發現

贊助商廣告

當所有測試跑完，數字彙總出來之後，研究團隊得到了幾個具有相當重量的發現。

第一個發現是：所有參與測試的開源AI影片模型，在生成基礎物理事件影片方面的表現都相當糟糕。即使是表現最好的模型，總體成功率也只有22%——也就是說，10段影片裡有將近8段是"不合格"的。其他大多數模型的成功率甚至不到15%。從各項指標來看，所有模型都在至少一個維度上存在明顯的短板，沒有任何一個模型能在所有方面同時達標。

具體來看各模型的表現，Cosmos2.5（2B參數，V2V模式）和Wan2.2（14B參數，I2V模式）是綜合表現最好的，成功率分別為22%和20%。MAGI-1和CogVideoX1.5的整體表現則明顯較差，成功率僅在1%到2%之間。各模型在各項具體指標上的差異也很顯著——以背景穩定性為例，Cosmos2.5-2B（V2V模式）的得分高達0.77，而MAGI-1-4.5B的得分僅為0.21，幾乎是前者的四分之一。

第二個發現更值得深思：所有模型對視覺干預都極為敏感，尤其是視角變化帶來的干預。從靈敏度分析的結果來看，僅僅改變攝像機角度這一不影響任何物理參數的因素，就能讓大多數模型的預測質量產生0.3到0.4左右的波動（在0到1的歸一化尺度上），這是相當大的變動幅度。換句話說，對於同一個碰撞事件，從正面拍和從側面拍，AI給出的預測質量可能差異懸殊。

在四種干預類型中，視角變化引起的靈敏度普遍最高，其次是物體類別變化，然後是場景變化，而外觀變化（僅改變顏色）引起的靈敏度相對最低——但即便如此，即使只是換個顏色，最穩健的模型也會出現約20%的性能波動，這對於一個應該"不在乎顏色"的物理預測任務來說，依然是令人困擾的數字。

這種對視角高度敏感的現象，揭示了一個深層問題：這些模型的預測機制是強烈依賴視角的，它們學到的不是"在三維空間中理解物理規律"，而是"在某種特定視覺構圖下，這類畫面應該怎麼延續"。一旦視覺構圖改變，它們就像換了一個它們從未見過的視角在猜測，性能隨之下滑。

贊助商廣告

第三個發現與影片條件有關：使用多幀影片作為輸入（V2V模式）比只用單張圖像（I2V模式）效果明顯更好，而且改善不僅體現在運動預測上，還體現在背景穩定性和物體外觀穩定性上。研究團隊推測，多幀條件下模型能夠從連續幀中建立起更穩定的物體表示，對攝像機運動的理解也更清晰，從而生成背景更穩定的影片。

第四個發現讓人頗感意外：將Cosmos2.5從2B參數擴展到14B參數，在幾乎所有指標上的表現反而有所下降。V2V模式下，2B版本的成功率為22%，而14B版本只有14%；I2V模式下，2B版本成功率12%，14B版本只有8%。這一結果與此前部分研究者提出的觀點相吻合——更大的模型在訓練數據分布內可能表現更好，但在需要真正泛化物理規律的場景下，更多的參數並不必然帶來更好的泛化能力。當然，研究團隊也指出，這個發現僅基於一個模型家族的一次規模對比，需要更多證據才能得出更普遍的結論，但CRONOS基準本身為未來的深入研究提供了工具。

第五個發現來自各事件類型的細分結果。碰撞事件在物理合理性指標上的表現普遍高於滾落事件——這可能是因為碰撞事件的判斷題（"兩個物體是否接觸了"）相對直觀，而滾落事件中的物理細節（如加速軌跡、落點位置）更難被AI模型正確再現。遮擋事件在物理合理性上表現最好，因為"物體消失後是否重新出現"這種判斷相對容易，但在形狀穩定性上的挑戰更大，因為長時序的物體跟蹤會積累更多誤差。

八、局限與未來：這套測試本身有哪些邊界

研究團隊對自身工作的局限進行了相當坦誠的討論。

最明顯的局限是合成數據與真實世界之間的領域差距。CRONOS使用的是虛幻引擎渲染的合成影片，雖然畫質相當精良，但與真實拍攝的影片在紋理細節、光照變化、噪聲特性等方面仍然存在差異。因此，CRONOS上的測試結果更應該被理解為一種診斷性證據，而非對模型在真實影片場景中表現的直接估算。

贊助商廣告

另一個局限是參考影片的單一性。大多數指標將AI生成影片與唯一一段參考渲染進行比較。但實際上，對於同一個物理初始條件，存在多種在物理上都合理的後續發展——例如碰撞後物體可能以不同角度彈開，仍然符合動量守恆定律。研究團隊通過多種子採樣和專門設計的不依賴參考影片的穩定性指標來部分緩解這個問題，但在未來版本中，評估應該能夠與多個物理上合理的參考軌跡進行比較。

此外，測試覆蓋的模型僅限於開源模型，像Veo、Sora、Kling這樣的商業閉源模型並未納入評測。這不是研究團隊的疏漏，而是客觀限制——固定權重和可復現設置是進行嚴格對比分析的前提條件。考慮到即便是最強的開源模型成功率也只有22%，這套基準距離"被飽和"還有相當長的路要走，未來的研究者完全可以在此基礎上繼續推進。

---

說到底，CRONOS這項研究給我們提供的，是一面照出AI影片生成領域真實狀況的鏡子。當前這些模型生成的影片，看起來越來越像真的，但在理解物理世界這件事上，它們很可能還停留在"記住了常見畫面長什麼樣"的階段，而非真正掌握了"無論在哪個角度、什麼顏色的物體，在重力下都會按照這套規律運動"這種本質性的物理認知。

這對普通人意味著什麼呢？至少在可預見的將來，把AI影片生成器當成可靠的物理仿真工具來使用，是需要格外謹慎的。一段AI生成的"滾球撞杯子"影片，如果看起來很合理，可能只是因為這類畫面在訓練數據中大量出現過，而不是因為AI真的計算了動量守恆。

當然，這個領域的進步速度也不容小覷。也許在不久的將來，會有模型在CRONOS上取得真正令人信服的成績，那時候我們才能更有把握地說，AI開始真正"理解"物理世界了。在此之前，CRONOS提供了一把量尺，讓研究者可以清晰地追蹤這條路走了多遠。感興趣的讀者可以通過論文編號arXiv:2605.23699查閱完整的研究報告，數據集和評測代碼也已公開發布在論文主頁上。

贊助商廣告

---

Q&A

Q1：CRONOS基準測試和普通的影片生成質量評測有什麼區別？

A：普通的影片質量評測主要看畫面是否清晰好看，而CRONOS專門測試同一個物理事件在視角、場景、物體外觀等視覺條件發生變化時，AI的預測質量是否保持穩定。換句話說，CRONOS不是在問"影片好不好看"，而是在問"AI是否真正理解物理規律，而不只是記住了特定畫面的視覺風格"。

Q2：為什麼換個攝像機角度會讓AI影片生成模型表現變差？

A：因為目前這些模型主要是從大量影片數據中學習"什麼樣的畫面接著什麼樣的畫面"，而不是真正在三維空間中理解物體運動規律。同一個碰撞事件從正面拍和從側面拍，在畫面構圖上差異很大，模型可能對某個角度見得多、對另一個角度見得少，導致預測質量出現明顯差異。

Q3：Cosmos2.5把參數從2B擴大到14B，為什麼效果反而變差了？

A：CRONOS測試的是模型在受控干預下的物理一致性，而不是訓練數據分布內的生成質量。更大的模型可能更擅長模仿訓練數據中常見的視覺模式，但這不等於更好地泛化物理規律。當測試條件包含系統性的視覺變化時，靠記憶視覺模式的策略反而可能帶來更大的波動，導致規模擴大後性能不升反降。