當AI影片生成模型遇到「物理法則」考官：北卡羅來納大學等團隊打造了一套刁鑽的評分系統

這項由北卡羅來納大學教堂山分校、約翰斯·霍普金斯大學、艾倫人工智慧研究所（AI2）和德克薩斯大學奧斯汀分校聯合開展的研究，於2026年6月24日以預印本形式發布，論文編號為arXiv:2606.25306。感興趣的讀者可以通過這個編號在arXiv平台上找到完整的原始論文。

贊助商廣告

**從一碗"假水"說起**

假設你讓一台AI影片生成系統製作這樣一段影片：一塊廚房紙巾被一個夾子夾著，放進一個盛有淺藍色液體的淺碟子裡。按照現實中的物理規律，紙巾應該會把液體吸進去，逐漸變濕、變重、變色。但這套系統生成出來的影片卻呈現出完全不同的景象：紙巾不是吸收了液體，而是直接溶解消失在液體裡，就像一塊方糖掉進熱水裡一樣。

這顯然是個荒謬的物理錯誤，任何有生活常識的人一眼就能看出來。然而，現有的那些用來評判AI影片好不好的評分系統，卻往往對這種錯誤視而不見——它們只看影片畫面是不是清晰漂亮、顏色是不是搭配協調，卻不深究影片裡的物理現象是否符合現實邏輯。這就好比一位食評家只看菜餚的擺盤是否精美，卻完全不管食材是否新鮮、口味是否合理。

正是為了解決這個問題，一支來自多所頂尖研究機構的團隊開發出了一套名為"物理問題場景圖"（Physics Question Scene Graph，簡稱PQSG）的全新評估體系，並配套收集了一個叫做FinePhyEval的人工標註數據集，專門用來檢驗AI影片生成系統在物理現實層面的表現。

**一、現有評分系統為何"看不穿"物理錯誤**

要理解為什麼需要一套新的評估工具，得先搞清楚現有的評分系統在做什麼，以及它們哪裡不夠用。

目前學界常用的AI影片評估方法，大多把影片質量壓縮成一個或幾個籠統的分數。比如，有的系統會計算影片畫面和文字描述在語義上的相似度，有的會對比影片的視覺風格是否足夠真實，還有的會用深度學習特徵來衡量影片的整體質量。

贊助商廣告

這些方法有一個共同的弱點：它們太容易被表面的精美外觀所矇騙。一段紙巾溶解在液體裡的影片，畫面可能非常清晰流暢，顏色搭配也很好看，如果只看這些外在指標，評分系統可能會給它打出相當高的分數。但真正的問題——紙巾根本不該溶解——卻被完全忽略了。

更根本的問題在於，判斷一個物理現象是否合理，本身就有嚴格的邏輯順序。以一個小球從高處落下的場景為例：首先，你得確認影片裡確實有一個球（對象存在）；其次，你得看這個球是否在做下落的動作（動作正確）；最後，才能去判斷它下落的軌跡、速度、落地時的彈跳方式是否符合重力規律（物理合理性）。如果連球都不存在，或者球根本沒有在動，那討論"落地彈跳是否合理"就完全沒有意義，反而可能產生誤導性的判斷。現有系統把這三層完全不同的問題混在一個分數里，既說不清楚影片哪裡出了問題，也無法給出有針對性的改進建議。

**二、PQSG：一份帶依賴關係的"核查清單"**

PQSG的核心思路，可以用一個法庭審判的比喻來理解。

在法庭上，法官不會只給被告打一個籠統的"有罪/無罪"分數。相反，陪審團會逐條審查證據：這個人當天在案發現場嗎？他有作案動機嗎？物證是否指向他？每一條質疑都建立在前一條的基礎上——如果能證明他當時根本不在現場，後面關於動機和物證的討論就可以直接跳過了。

PQSG用的正是這種層層遞進、環環相扣的審查邏輯。它把對一段影片的評估分解成三個層次的問題。

第一層叫做"對象核查"，專門檢查影片裡是否出現了文字描述中提到的物體。對於那段紙巾實驗的影片，這一層的問題可能是：影片裡有夾子嗎？有紙巾嗎？有盛液體的淺碟子嗎？

第二層叫做"動作核查"，負責確認影片裡的物體是否在做描述中要求的動作。這一層的問題可能是：夾子有沒有把紙巾釋放？紙巾有沒有接觸到液體？

贊助商廣告

第三層叫做"物理核查"，才是真正考察物理合理性的地方。這裡的問題可能是：液體有沒有逐漸滲入紙巾？紙巾的濕潤範圍有沒有隨時間擴大？

三個層次之間存在嚴格的依賴關係：只有當某個對象被確認存在後，才會去檢查它的動作；只有相關動作被確認發生後，才會去評判物理合理性。如果一個問題的回答是"否"，那麼依賴於它的所有後續問題，會自動被標記為"否"，而不是憑空去假設和判斷。這種設計在數學上叫做"有向無環圖"（DAG），通俗地說，就是一張有箭頭、不轉圈的流程圖。每個問題就是圖上的一個節點，箭頭指向依賴關係，確保每一個問題都在合適的前提下被提出。

每個問題都是簡潔的是非題，用現在時態提出，比如"紙巾是否與液體接觸？"或者"液體是否滲入紙巾表面？"。整個評估流程分為兩個步驟：第一步，用一個視覺語言模型（可以理解為同時能看圖和讀文字的AI）根據文字描述自動生成這張問題圖；第二步，用另一個視覺語言模型把生成的影片和這些問題放在一起，逐一回答每道是非題，並給出理由。最終，各個層次的"是"的比例，就分別轉化為對象分數、動作分數和物理分數，三者合併後得到總體評分。

值得一提的是，研究團隊發現，如果直接要求AI模型只回答"是"或"否"，模型往往會跳過深入思考，直接給出一個機械的答案。於是他們設計了一個小技巧：先讓模型用自由語言寫出對問題的完整判斷和分析，再讓同一個模型把這段分析歸納為"是"或"否"。這種兩步走的方式，給了模型充分思考的空間，也讓最終的判斷更加準確。

**三、FinePhyEval：專門為這場考試準備的"真題庫"**

光有評估方法還不夠，還需要有一套可靠的參考答案來驗證這套方法是否真的管用。為此，研究團隊建立了FinePhyEval數據集。

這份數據集的文字提示，全部來自一個名為Physics-IQ的已有數據集。Physics-IQ專門收錄了用於測試AI影片生成系統物理理解能力的提示語，每條提示都描述一個涉及真實物理現象的場景，從固體力學、流體動力學，到光學、熱力學、磁力學，覆蓋範圍相當廣泛。研究團隊選取了其中全部65條提示，分別送入三個當前最先進的商業影片生成系統：OpenAI的Sora 2、谷歌的Veo 3，以及開源模型Wan 2.1，每個系統各生成65段影片，總計195段影片進入最終數據集。此外，研究團隊還額外評估了一個名為Cosmos-Predict2.5-14B的模型，這個模型由英偉達公司開發，其設計初衷是成為一個專門理解物理世界的模擬器。

贊助商廣告

這些影片在格式上有些差異：Sora 2生成的是4秒、720×1080解析度、每秒30幀的影片；Veo 3生成的是4秒、1280×720解析度、每秒24幀的影片；Wan 2.1則生成5秒、1280×720解析度、每秒16幀的影片。整個數據集的平均影片時長只有4.39秒，看似短暫，卻藏著大量複雜的物理交互。

接下來，8位不是論文作者的人類評估員對每段影片進行了評分。他們使用1到5分的量表，分別對影片在四個維度上評分：對象存在度、動作準確度、物理合理性，以及一個綜合的整體質量判斷。總計收集了780個人類判斷分數。評估員收到了詳細的評分指引，要求他們像審查真實拍攝的影片那樣來看待這些AI生成的內容，不因為"這是AI生成的所以有些瑕疵是正常的"而降低標準，要嚴格對照文字描述檢查每一個對象和動作，物理合理性的判斷則完全依據真實世界的物理規律，不受文字描述影響。

為了評估生成問題的質量，研究團隊還專門人工標註了20條提示對應的標準問題集，並收集了人類評估員對30段影片中問題的人工回答，形成444個"問題-答案"對，作為衡量AI系統問答能力的標準參照。

研究團隊還計算了人類評估員之間的一致性程度，採用了兩種統計指標——組內相關係數（ICC）和克里彭多夫阿爾法值（Krippendorff's Alpha）。平均ICC達到0.840，被認為是"優秀"水平；平均阿爾法值為0.592，屬於"中等"水平。有趣的是，物理合理性這個維度的人類一致性是四個維度中最低的——研究團隊認為這是因為當影片的物理錯誤比較嚴重、比較主觀時，不同的人會有不同的容忍度和關注重點。不過0.773的ICC依然相當不錯，足以支撐後續的分析。

**四、測試結果：PQSG比現有方法更懂人類的感受**

有了數據集和人類判斷作為參照，研究團隊就可以客觀地對比PQSG和其他現有方法與人類評分的符合程度了。

評估相關性用了三種統計指標：皮爾遜相關係數（衡量兩組數字之間線性關係的強弱）、肯德爾係數和斯皮爾曼係數（兩者都衡量排名順序的一致性）。分數越高，表示該評估方法和人類判斷越接近。

贊助商廣告

在所有參與對比的評估方法中，包括VideoScore、VideoPhy-2-Autoeval、PhyGenEval，以及直接讓AI給影片打1到5分的簡單方式（研究者稱之為"直接視覺問答"），PQSG在使用GPT-5.5作為問答模型時，皮爾遜相關係數達到0.478，肯德爾係數達到0.336，斯皮爾曼係數達到0.456，全面超過了其他方法。DSG這個專門為圖像生成設計的問題圖方法，也被包含在對比中——它在應用於影片時表現相當平庸，因為它壓根沒有考慮影片中的時序動作和物理交互，只能看靜態資訊。

此外，研究團隊還發現了一個頗具啟發性的規律：當人類評估員給一段影片打"整體質量"綜合分時，物理合理性維度的人類分數與整體分數的相關性高達0.85，而動作準確度的相關性是0.66，對象存在度的相關性只有0.44。換句話說，人類在判斷一段影片的整體好壞時，最重視的其實是物理是否合理，其次才是動作是否準確，最後才是東西有沒有出現。這一發現為研究團隊專注於物理評估提供了有力的支撐。

研究團隊還分別計算了PQSG三個維度的分數與人類對應維度評分的相關性。在對象維度，PQSG（用GPT-5.5回答問題）的分數與人類對象分數的皮爾遜相關係數為0.59；在動作維度是0.68；在物理維度是0.48。當把AI問答換成人類問答，這三個數字分別變成0.59、0.73和0.57。這說明AI在判斷對象存在方面已經和人類評分高度一致，在動作方面還有一定差距，在物理方面差距最大——而這恰恰也是最難的部分。

**五、四大模型的物理大考成績單**

利用PQSG對四個影片生成系統進行全面評估後，結果相當清晰。

Veo 3在總體得分上略高，達到0.80，Sora 2緊隨其後，得分0.78。開源模型Wan 2.1的總分是0.59，Cosmos-14B是0.62。閉源商業模型明顯領先於開源模型。

更值得關注的是各維度的表現模式。四個模型在對象維度的得分都相當高，平均達到0.93，說明生成正確的物體對當前的AI系統來說基本上已經不成問題。Veo 3在這個維度幾乎完美，得分高達0.98。但進入動作維度，得分就明顯下滑，四個模型平均只有0.66。到了物理維度，平均得分進一步降至0.57，是三個維度中最低的。Wan 2.1和Cosmos-14B的物理分數都只有0.46，連一半都沒到。

贊助商廣告

這意味著，即便是專門為模擬物理世界而設計的Cosmos-14B，在物理合理性測試上的成績也和Wan 2.1打了個平手，並沒有因為其"物理模擬器"的設計目標而獲得任何優勢。這個結果頗耐人尋味，說明把"理解物理"作為設計目標，和真正在生成影片時做到物理合理，之間還有相當大的差距。

每個維度的分數波動也很小——經過三次獨立的問題生成運行後，各模型的得分區間都很窄，說明PQSG的評估結果相當穩定，不會因為隨機性而產生大幅波動。

**六、AI生成問題還行，AI回答問題差強人意**

研究團隊還專門評估了PQSG兩個核心步驟各自的表現。

在問題生成方面，表現令人滿意。把Gemini-2.5-Pro和GPT-5.5各自生成的問題，與人工標註的標準問題集進行比對，衡量準確率（精確度）和覆蓋率（召回率）。Gemini-2.5-Pro在兩個指標上都達到95.2%；GPT-5.5的精確度是92.0%，召回率則更高，達到99.6%，幾乎不遺漏任何要點。出現的少量偏差，主要是因為AI系統有時沒能預判到場景中可能發生的衍生物理狀態，比如沒有考慮到主要對象之外的其他物體可能產生的互動。總體而言，用現有AI系統自動生成PQSG問題圖是完全可行的。

在問題回答方面，情況就沒那麼樂觀了。Gemini-2.5-Pro在對象類問題上回答正確率達87.6%，在動作類問題上只有59.5%，在物理類問題上是61.5%。GPT-5.5略好一些，分別是88.4%、63.4%、64.6%，但物理類問題的正確率也只有六成出頭。

研究團隊通過仔細分析錯誤案例，發現了兩個明顯的失誤模式。第一個是"是"偏見——AI模型傾向於對問題回答"是"，即使影片裡的情況並不符合。比如在一段燃燒紙張的影片裡，GPT-5.5把幾乎所有物理問題都回答成了"是"，但人類評估員發現有好幾個答案應該是"否"，例如煙霧並沒有按照熱對流的規律向上散逸，而是橫向噴射。第二個問題是AI會把自己對世界的常識性認知投射到影片判斷上，比如認為"煙霧通常是往上飄的"，於是即使影片裡的煙霧明顯在橫向移動，它也會回答"是，煙霧按照熱對流向上散逸"。

贊助商廣告

正因如此，當把問題回答這一步替換成人類來做時，PQSG與人類整體評分的皮爾遜相關係數從0.48大幅躍升至0.80。這表明PQSG框架本身設計的上限很高，當前的主要瓶頸在於AI回答物理問題的能力，而不是框架本身的局限。

**七、PQSG還能直接幫助改進影片生成**

研究團隊還測試了一個更加實際的應用場景：能不能把PQSG的評分反饋直接用來改進AI生成的影片？

具體做法是這樣的：先用Wan 2.2（Wan系列的更新版本）生成一段影片，然後用PQSG評估，找出哪些方面得分低。再把這些低分反饋交給GPT-5.5，讓它根據反饋重新改寫提示文字，然後再生成一段新影片。這個過程循環進行，每次都在上一次的基礎上改進。

結果顯示，從第0次疊代到第1次疊代，平均PQSG分數提升了將近15個百分點。第2次疊代後，分數進一步上升，最終穩定在81.9%左右，之後的疊代不再有明顯提升。整個過程中，不需要修改模型的參數或重新訓練，只是通過不斷完善文字描述來引導模型生成更符合要求的影片。作為對比，另一個評估方法VideoPhy-2-AutoEval在同樣的疊代循環中也有所提升，但幅度要小得多。

這個結果說明，PQSG不只是一個評分工具，更可以成為一個實用的影片生成優化助手——它能精確指出影片哪裡出了問題，幫助創作者（或AI系統）有針對性地改進，而不是只給出一個模糊的"不夠好"的判斷。

**八、把設計選擇拆開來驗證**

研究團隊還進行了一系列控制實驗，逐一驗證PQSG各個設計選擇的必要性。

去掉依賴圖關係（即不再自動把依賴失敗問題的答案標為"否"），整體相關係數從0.48下降到0.44，在人類回答條件下從0.80下降到0.75。去掉細粒度問題體系（直接對三個維度各打一個分，不再拆解成多個具體問題），相關係數進一步下降到0.40，人類回答條件下下降到0.68。兩種改動都使評估質量明顯下滑，證明精細的問題分解和邏輯依賴關係各自都有其不可替代的價值。

贊助商廣告

研究團隊還嘗試過在生成問題時給AI提供參考影片（即那段場景真實發生時的正確影片），但這反而讓效果變差——AI模型開始關注參考影片裡出現的細節，而不是專注於文字提示本身的要求，導致生成的問題偏離重點。此外，研究團隊還嘗試用不同的方式在提示里區分"動作"和"物理"問題，但發現這樣做反而讓AI模型更難生成連貫合理的問題，效果也不如原始設計。

為了驗證PQSG在不同數據集上的通用性，研究團隊還在VideoPhy-2數據集的100個影片上做了測試，同樣取得了優於原有方法的相關性，說明PQSG的設計具有較好的泛化能力，不局限於特定的評估場景。

**歸根結底，一張會追問的評分卡**

說到底，PQSG做的事情，就是把一個簡單的"好不好"問題，拆解成了一系列環環相扣的"哪裡好、哪裡不好、為什麼不好"。這種思路本身並不複雜，但它擊中了現有評估方法的一個根本性盲區：你不能用一個單一數字來描述一個需要層層前提條件才能成立的判斷體系。

這項研究的意義不只在於提供了一個更好的評分工具。它背後隱含的洞見是：物理合理性之所以難以評估，恰恰是因為它在邏輯上依賴於更基礎的東西——你得先確認場景是真實的，才能判斷物理是不是對的。現有的那些方法把這些層次混在一起，結果既看不清問題在哪，也給不出有價值的改進方向。

隨著AI影片生成技術越來越強，單純靠畫面美不美來評分的時代正在過去。機器人訓練、遊戲場景生成、科學教育影片製作……這些應用都需要生成出來的影片不只是好看，還得是真實可信的。PQSG這類細粒度評估工具，將會在這些場景里扮演越來越重要的角色。

至於當前系統最大的短板——物理類問題的回答正確率只有65%左右——研究團隊認為，隨著視覺語言模型本身能力的不斷提升，這個數字會逐步改善，PQSG與人類判斷之間的差距也會隨之縮小。這是一個從工具設計到底層模型能力同步進化的過程。

贊助商廣告

如果你想深入了解這項研究的完整細節，可以在arXiv平台上搜索編號2606.25306查閱原始論文。

Q&A

Q1：PQSG評估系統和普通的AI影片評分方法有什麼區別？

A：普通的AI影片評分方法通常只給出一個籠統的綜合分，無法告訴你影片哪裡出了問題。PQSG則把評估拆解成三個層次：影片裡的對象存在不存在、動作對不對、物理交互合不合理，而且三個層次之間有嚴格的邏輯依賴關係。如果一個對象不存在，關於它的動作和物理問題就會自動跳過，不會憑空臆斷。這種設計讓評估結果更精準，也能直接指出影片具體在哪個環節出了問題，而不是給你一個模糊的低分。

Q2：FinePhyEval數據集裡的影片涵蓋了哪些物理現象？

A：FinePhyEval數據集使用的65個文字提示全部來自Physics-IQ數據集，覆蓋五大物理領域：固體力學（38個場景，比如物體碰撞、形變）、流體動力學（15個場景，比如液體倒入容器、紙巾吸液）、光學（8個場景，比如鏡面反射、折射）、熱力學（3個場景，比如燃燒過程）和磁力學（2個場景）。所有提示的共同特點是涉及多個物體之間的複雜交互，不是簡單的靜態場景描述。

Q3：為什麼現有的AI影片生成模型在物理場景上表現這麼差？

A：從PQSG的評估結果來看，問題主要出在兩個環節。一是影片生成模型本身：即便是Sora 2和Veo 3這樣最先進的商業系統，物理維度的平均得分也只有0.68和0.69，意味著將近三分之一的物理細節是錯的。二是評估模型的能力：當前最好的視覺語言模型GPT-5.5在回答物理類問題時，正確率也只有64.6%，而且容易產生"偏向回答是"的錯誤。兩個環節各有瓶頸，共同導致AI在物理真實性上與人類認知還有較大差距。