這項由新加坡國立大學Show Lab、牛津大學與騰訊聯合推進的研究,以預印本形式於2026年6月發布,論文編號為arXiv:2606.04811,有興趣深入了解的讀者可通過該編號查詢完整原文。
近年來,AI生成影片的能力突飛猛進。Sora、Kling、Veo這些名字頻繁出現在科技新聞里,它們能生成流暢逼真的影片,讓人嘆為觀止。但在一片叫好聲中,有一個問題始終沒人認真回答:這些影片裡的"物理規律"到底靠不靠譜?換句話說,AI畫出來的機械臂抓東西,如果真的讓一台真實的機器人去照著做,它能成功嗎?
這就是Dream.exe這套評測框架要回答的核心問題。研究團隊把機器人操作任務當成一塊"試金石"——如果一個影片生成模型真的理解了物理世界,那麼它生成的機械臂運動影片,應該能被轉化成可執行的機器人動作,並且在物理仿真器里完成任務。反過來,如果影片看起來很漂亮、很流暢,但機器人照著做卻頻頻失敗,那就說明這個模型不過是在"畫大餅",並沒有真正理解物理規律。
整個框架的邏輯就像是一場"紙上談兵變實戰演練"的考核:AI負責"出戰術"(生成影片),研究團隊負責把戰術翻譯成具體行動(軌跡提取),然後讓機器人真刀真槍地去執行,最終看任務完成率。這比以往只看影片好不好看、評委打幾分的評測方式,要嚴格得多,也真實得多。
---
一、為什麼"看起來好"不等於"做起來對"
在Dream.exe出現之前,影片生成領域的評測體系有一個根本性的盲區。現有的主流評測工具,比如VBench、EvalCrafter、T2V-CompBench,都是在問"這個影片好不好看"——畫面清不清晰、時間連不連貫、內容和描述對不對得上。這些問題當然重要,但它們完全迴避了一個更深層的問題:影片裡面的運動,符合物理規律嗎?
以前,研究者們也有一些嘗試。VideoPhy和PhyGenBench會用AI評委或者人類評分員來判斷影片裡的物理現象是否合理,比如水有沒有往上流、球有沒有憑空懸浮。WorldSimBench更進一步,試圖通過一個學出來的策略來判斷影片能不能支持下游任務執行。但這些方法都沒有真正"閉環"——它們頂多是請了一個看過很多影片的評委來評分,而不是讓機器人真正去執行,然後看結果。
Dream.exe做了一件很直接的事:把評判權交給物理仿真器。不管影片有多漂亮,最終的裁判是:機器人照著做,任務完成了嗎?這是一個客觀、可量化、不受主觀偏見影響的標準。
這個邏輯背後有一個重要預設:如果一個影片生成模型真的從海量網際網路數據里學到了物理規律,那麼它生成的機器人操作影片,裡面蘊含的運動資訊應該是"可執行"的。反之,如果模型只是學會了"什麼樣的畫面看起來像機器人在幹活",而沒有真正理解接觸力、物體重力、抓握時序這些底層物理概念,那生成的影片就會在仿真器面前原形畢露。
---
二、101道"考題":從推抽屜到多步驟組合任務
Dream.exe的任務集建立在RoboCasa365這個大規模仿真框架之上,該框架包含365個日常操作任務。研究團隊沒有直接拿來就用,而是做了大量的人工篩選和整理工作。有些任務視角太亂,機械臂被遮住了;有些任務物體不好識別;有些任務需要機器人底盤移動,目前的軌跡提取流程還支持不了。經過仔細篩選,最終留下101個任務,每個任務的攝像機視角都經過單獨調整,確保物體和末端執行器(也就是機械爪)都清晰可見。
這101個任務被分成三個難度級別,就像遊戲裡的新手關、普通關和困難關。
第一級叫"單物體原子操作",共8個任務。每個任務只涉及一個物體,一個連續的動作,比如把左邊的抽屜推關、把烤箱的托盤拉出來、把水龍頭向左轉。這一級考驗的是:AI生成的影片,機械爪的運動軌跡幾何上對不對,抓握和鬆開的時機準不準。
第二級叫"多物體交互",共42個任務。這時場景里有兩個或更多物體,而且它們的狀態是互相關聯的。典型例子包括:把奶酪片放到麵包上、把甜甜圈放進熱狗盒子、把梨從台面移進榨汁機里。這一級要求AI不僅要對每個物體的位置有準確理解,還要正確表達物體之間的空間關係和操作的先後順序。
第三級叫"多階段複合任務",共51個任務,也是數量最多的。每個任務都包含兩個或更多語義上截然不同的步驟,比如先打開抽屜再取出裡面的東西,或者先轉燃氣灶旋鈕再移動鍋。這一級測試的是:AI能不能在一個較長的任務序列中始終保持物理一致性,正確地完成子目標之間的銜接和轉換。
每個任務都配有統一的元數據,包括初始場景圖像和文字描述的任務指令。這種標準化的設計保證了不同模型之間的比較是公平的——大家拿到同樣的"考題",在同樣的起始條件下作答。
---
三、八位"考生":從頂級商業模型到機器人專屬系統
這次參與評測的模型分三大類,覆蓋了當前影片生成領域的主要生態。
第一類是頂級商業閉源模型,共五個,代表著當前影片生成質量的天花板。它們分別是:MiniMax的Hailuo 2.3、快手的Kling 3.0、阿里巴巴的Wan 2.7、字節跳動的SeedDance 2.0,以及谷歌DeepMind的Veo 3.1。這些模型平時用來生成各類創意影片,是社區里引用最多、討論最熱的系統。把它們納入評測,是為了回答一個核心問題:目前最好的影片生成器,是否已經具備了足夠的物理理解能力來驅動機器人?
第二類是開源模型,共兩個:阿里巴巴的Wan 2.2和Lightricks的LTX-Video 2.3。這兩個模型完全公開,任何研究者都可以下載和復現。把它們加入評測,一方面是為學界建立一個可復現的基線,另一方面也能通過對比Wan 2.2和Wan 2.7,看看更大規模、更多專有訓練數據能帶來多大的提升。此外,研究團隊還把Wan 2.2在RoboCasa365的非測試集任務上做了微調(分別訓練了2000步和7000步),得到Wan 2.2-LoRA2K和Wan 2.2-LoRA7K兩個變體,專門用來研究"在機器人影片上微調,能不能彌合通用影片和機器人操作之間的差距"。
第三類只有一個,但非常特殊:英偉達
的Cosmos Policy。這是一個專門針對機器人操作任務訓練的影片生成模型,它的輸入不是單張圖片,而是多視角圖像(通常是三個攝影機的視角)。為了讓比較更公平,研究團隊測試了兩個變體:CosmosPolicy-DefaultCam按照官方推薦的三攝影機默認設置運行,CosmosPolicy-BenchCam則把主攝影機換成Dream.exe為每個場景專門調好的那個視角,另外兩個攝影機保持默認位置。納入Cosmos Policy的目的非常明確:看看專門用機器人數據訓練的模型,在物理可執行性上是否比通用影片生成器更強。
---
四、把影片變成機器人動作:五步"翻譯"工程
這套框架里最有技術含量的部分,是把生成的影片翻譯成機器人可執行動作的管線。這件事之所以難,是因為影片本質上只是一堆像素的變化序列,裡面沒有任何關於三維空間位置、接觸力、夾爪狀態的顯式資訊。研究團隊開發了一條五步流水線來完成這個"翻譯"工作。
第一步是區域初始化。在影片的第一幀,系統需要找到機械爪和被操作物體分別在哪裡。如果能從仿真器直接拿到實例分割掩碼,就直接用;如果沒有,就用Grounding DINO(一個開放詞彙的目標檢測器)加上SAM2(一個通用的圖像分割模型)來自動識別和標註。
第二步是二維點追蹤。在第一步確定的區域內,系統會採樣一批關鍵點,然後用CoTracker這個追蹤工具,把這些點在影片的每一幀里的位置都追蹤出來。CoTracker會輸出每一幀里每個點的像素坐標,以及這個點是否還在畫面里可見。
第三步是深度估計和三維還原。二維追蹤只知道點在畫面上的位置,但機器人需要知道點在三維空間裡的坐標。為此,研究團隊使用了一個叫DVD的深度估計模型,並對它進行了LoRA微調——用機器人仿真器渲染的影片來訓練,讓它更擅長估計機器人操作場景的深度。估計出來的深度是相對深度,需要用第一幀的仿真器真實深度來做絕對尺度校準,才能把二維追蹤點還原成三維世界坐標系裡的軌跡。
第四步是末端執行器軌跡提取。有了機械爪的三維追蹤軌跡,還不能直接用,因為視覺上看到的機械爪中心,和機器人控制器真正控制的那個點(叫做工具中心點,TCP)不是同一個位置。研究團隊開發了一個校準模組,用初始狀態下兩者的位移關係來做修正,把視覺軌跡轉換成控制器軌跡。與此同時,也用Kabsch算法從追蹤到的三維點集裡估計出每一幀的末端執行器朝向。
第五步是夾爪動作推斷。機器人不只要知道爪子往哪移,還要知道什麼時候夾緊、什麼時候鬆開。這個資訊沒法直接從像素里讀出來,所以系統通過分析末端執行器軌跡和被操作物體軌跡之間的相對運動來推斷。如果兩者同步運動,說明爪子夾住了物體;如果物體靜止而爪子在動,說明爪子是空的。對於有任務標註的任務,系統還會利用先驗知識來約束夾爪事件的數量和順序——比如"抓放"任務必然包含一次夾緊和一次鬆開。對於多階段任務,每個階段分別處理後再合併成完整的夾爪時序。
把以上五步的輸出合併起來,就得到了一個七維的動作序列:三維位置、三維朝向、加上夾爪的開合狀態。這個序列隨後被送入MuJoCo物理仿真器,通過robosuite框架控制一台Franka Panda機械臂去執行。執行時有一個閉環修正機制:在每個檢查點,系統會對比機械爪的實際位置和目標位置,如果偏差超過5毫米或0.03弧度,就自動施加修正動作,避免誤差累積。
---
五、三條評分標準,從"好不好看"到"能不能幹"
Dream.exe設計了三條並行的評測軌道,分別從視覺質量、軌跡相似性和實際執行成功率三個維度來給模型評分。
在視覺質量評測上,研究團隊用了Gemini 3 Pro和Qwen3-VL-Plus兩個大語言模型作為評委,從三個維度評分。機器人穩定性評估的是機械爪在整個影片裡的視覺一致性——爪子有沒有變形、消失或者變成另一種形狀。物理合理性評估的是影片裡有沒有違反常識的現象,比如物體憑空懸浮、物體突然出現或消失、爪子沒碰到東西物體就跟著動。任務遵從性評估的是影片內容和任務描述對不對得上,機器人有沒有做正確的事。評分採用6幀均勻採樣,把畫面拼成3×2的網格圖送給評委。機器人穩定性用1-15分制,另外兩個維度用1-5分制。
在軌跡相似性評測上,提取出來的三維軌跡會和仿真器里真實執行軌跡做比較,分別算三個指標。HSD(對稱Hausdorff距離)衡量軌跡形狀的最大偏差,反映最壞情況下的幾何誤差。DYN(Wasserstein-1距離)比較兩條軌跡的速度分布,衡量運動節奏是否相似。NDTW(歸一化動態時間規整)衡量軌跡在時間上的對齊程度,懲罰局部的時間錯配。三個原始距離都會除以一個任務特定的歸一化因子,最終映射到0-1區間,越高越好。這三個指標分別在末端執行器視覺中心、工具中心點和被操作物體三個維度上單獨計算。
在實際執行評測上,有兩層遞進的指標。軌跡可執行性指標衡量機器人"照著做"有多順暢,包括檢查點到達率(E-SR,每個中間目標姿態有多少比例能成功到達)、TCP追蹤偏差(nDTW,命令軌跡和實際執行軌跡的差異)、位置和旋轉誤差的95百分位數(Pos95和Rot95)以及路徑平滑度(Smth)。任務成功率指標則是最終的"考試成績":SR-B是二值的任務成功率(完成了就是1,沒完成就是0),SR-P是連續的部分完成分數(即使任務最終失敗了,也能反映完成了多少進度)。此外還有幾個子目標分數,分別衡量夾爪釋放質量、目標放置精度、關節運動完成度和核心子目標完成比例。
---
六、實驗結果:顏值和能力,真的不是一回事
視覺質量排行榜上,CosmosPolicy-BenchCam在機器人穩定性上得分最高,這和它專門用機器人影片訓練的背景完全符合預期。Veo 3.1在任務遵從性上領先,LTX-Video 2.3在物理合理性上得分最高。從人工評分(四位獨立標註員,1-5分制,覆蓋穩定性、物理合理性、任務遵從性和預期執行結果四個維度)來看,Wan 2.7在穩定性上得分最高,SeedDance 2.0在物理合理性上最好,Kling 3.0在任務遵從性和預期執行結果上領先。
軌跡相似性排行榜上,Wan 2.7在末端執行器軌跡相似性上領先或持平,CosmosPolicy-BenchCam在物體軌跡相似性上表現最好。有一個很值得注意的現象:通用影片生成器Wan 2.7和Kling 3.0在多個末端執行器指標上能和Cosmos Policy持平甚至超越,說明大規模通用影片預訓練在生成合理的機器人運動軌跡方面,並不遜於專門的機器人訓練數據。
任務成功率排行榜上,結果就耐人尋味了。第一級任務里,CosmosPolicy-BenchCam拿到最高的二值成功率20.8%。第二級任務里,SeedDance 2.0和Wan 2.7並列最高,都達到21.4%。第三級任務里,絕大多數模型成功率為零,只有Kling 3.0實現了非零成功率,達到6.2%。總體來看,所有模型的成功率都不算高,但確實有多個模型實現了可量化的成功,說明通用影片生成器確實從海量數據中學到了一些有意義的物理知識。
然後來看最關鍵的發現:視覺質量得分和任務成功率之間,幾乎沒有關係。研究團隊計算了物理合理性得分和二值成功率之間的皮爾遜相關係數,結果是-0.03,基本上等於零相關。具體到每個模型,這種割裂更加刺眼。LTX-Video 2.3在物理合理性上排名第一,但任務成功率在所有模型里墊底。Veo 3.1在任務遵從性上領先,但在第一級任務上只有3.3%的成功率。反過來,視覺質量相對普通的SeedDance 2.0和Kling 3.0,卻拿到了最強的任務執行成績。人工評分結果同樣印證了這個規律:評委認為"很好看"的影片,往往不是執行成功率最高的。
Cosmos Policy的表現則是另一個耐人尋味的故事。它在軌跡可執行性指標上遙遙領先——E-SR整體達到0.75(其他模型普遍在0.40-0.56之間),位置和旋轉誤差也遠小於通用模型。但在第二級任務成功率上,它只有2.4%,而SeedDance 2.0和Wan 2.7都達到了21.4%。機器人專屬訓練讓它的軌跡在幾何上非常精準、執行起來很順暢,但面對多樣化的任務和不同的攝像機視角,它的泛化能力明顯不足。通用影片生成器雖然軌跡"走路姿勢"不那麼標準,但憑藉更強的泛化能力,最終完成任務的能力反而更強。
領域內微調的效果也很有啟發性。把Wan 2.2在機器人操作影片上微調之後,生成的影片確實"更像"機器人在幹活了,軌跡相似性指標也有所提升,但任務成功率並沒有顯著改善。這說明在機器人影片上做微調,模型主要學到的是視覺風格,而不是底層的物理約束。看起來更像機器人,不等於真的理解了機器人操作的物理規律。
研究團隊還設置了兩個參考上限行來幫助讀者理解這些成績的意義。當輸入不是生成影片而是仿真器直接渲染的真實軌跡影片時(Rollout Video),使用同樣的深度估計管線,第一級任務成功率達到76.5%,整體成功率60.4%。再進一步,如果用仿真器的真實深度替換估計深度(Rollout Video w/ GT Depth),第一級成功率達到100%,整體高達98.1%。這兩個參考行說明了兩件事:第一,現有的軌跡提取管線本身是基本靠譜的;第二,深度估計仍然是當前管線最大的瓶頸。所有通用影片生成模型都在深度估計這一關損失了大量精度,但這個瓶頸對所有模型是均等的,不影響相互之間的公平比較。
---
七、失敗的三種"姿勢":飄起來、抓假的、動作崩了
研究團隊通過分析大量失敗案例,總結出了三類反覆出現的典型錯誤。
第一類叫"物體懸浮"。在生成的影片裡,被操作的物體突然離開了支撐面,憑空飄在半空中,沒有任何合理的物理解釋。這類錯誤說明模型在處理物體與支撐面之間的接觸關係時存在根本性的理解缺陷。
第二類叫"幽靈抓取"。在影片裡,機械爪明明沒有真正接觸到物體,物體卻跟著爪子一起運動了。這就像魔術師表演"隔空取物",看起來很神奇,但在物理世界裡根本行不通。這類錯誤導致軌跡提取時對夾爪時序的推斷出現嚴重偏差,最終執行時機器人根本拿不到東西。
第三類叫"運動學崩潰"。機械臂在運動過程中突然出現不符合機器人運動學約束的姿勢,比如關節角度超出物理限制、臂段之間互相穿透、或者末端執行器的運動軌跡出現劇烈的不連續跳躍。這類錯誤發生時,提取出來的軌跡會包含異常值,執行時機器人要麼卡死、要麼做出危險動作。
在所有模型、所有任務的失敗案例中,幽靈抓取和運動學崩潰是最常見的兩類,合計占了大多數的失敗案例。物體懸浮相對少見,但一旦出現往往會導致整個後續操作序列的連鎖失敗。
---
歸根結底,Dream.exe這套評測框架揭示了一個重要的認知校正:影片生成模型有沒有學到物理規律,不能靠看影片來判斷,要靠"讓它幹活"來驗證。那些在視覺評測上拿高分的模型,不一定真的理解了物理世界;而那些看起來沒那麼驚艷的模型,可能反而在關鍵的可執行性上更勝一籌。
這對整個影片生成和機器人學習領域都有實際影響。對影片生成研究者來說,追求更高的視覺質量分數不應該是唯一目標,物理可執行性應當成為一個獨立的優化方向。對機器人學習研究者來說,這項工作提供了一個有力的證據:通用影片生成器已經從網際網路數據中學到了一些有意義的物理先驗,可以作為機器人行為學習的起點;但要真正實現可靠的執行,深度估計的精度、長時序任務的一致性、以及多樣化場景的泛化能力,都還有很長的路要走。
機器人專屬訓練能讓幾何精度更高,但泛化能力是短板;通用大模型泛化能力強,但對物理細節的理解仍然浮於表面。這兩條路的優缺點都已經被這套框架清晰地量化出來,為後續的研究方向提供了明確的參照。
一個值得繼續思考的問題是:如果把深度估計這個瓶頸解決掉(參考上限實驗已經證明這樣做能大幅提升成功率),當前最好的影片生成器能達到什麼樣的執行水平?如果同時改進深度估計、軌跡提取和影片生成本身,機器人能不能真正像人類看著教學影片學幹活一樣,通過觀看AI生成的影片來學習新任務?
對這個話題感興趣的讀者,可以通過arXiv編號2606.04811查閱完整論文,代碼也將在GitHub的showlab/Dream.exe倉庫開源。
---
Q&A
Q1:Dream.exe評測框架是如何判斷影片生成模型"真正理解物理規律"的?
A:Dream.exe的核心邏輯是把影片生成模型生成的機器人操作影片,通過一套五步管線(區域初始化、二維追蹤、深度估計、三維還原、夾爪推斷)轉化成機器人的實際動作序列,然後在MuJoCo物理仿真器里讓真實機械臂去執行,看任務完不完成。任務完成了就說明影片裡的物理資訊是有效的,完不成就說明模型只是學會了"畫"機器人,而沒有真正理解物理規律。這比只看影片好不好看的評測方式要嚴格得多。
Q2:Cosmos Policy作為專門的機器人影片模型,為什麼在任務成功率上反而不如通用影片生成器?
A:Cosmos Policy在軌跡的幾何精度和可執行性上確實領先——檢查點到達率和追蹤誤差都遠優於通用模型。但它對攝像機視角和任務類型非常敏感,泛化能力明顯不足。面對Dream.exe里多樣化的攝像機角度和101個不同的任務,它的表現大幅下降。通用影片生成器雖然軌跡不那麼"標準",但憑藉在海量網際網路數據上學到的更廣泛的場景理解能力,反而在更多任務上能實際完成操作,體現出更強的跨任務泛化能力。
Q3:在機器人影片上微調之後,Wan 2.2的任務成功率為什麼沒有提升?
A:實驗結果顯示,對Wan 2.2在機器人操作影片上做LoRA微調,主要改變的是生成影片的視覺風格,讓它看起來更像機器人在幹活,軌跡相似性指標也有所改善。但任務成功率基本沒有變化。這說明僅靠讓模型"見過更多機器人影片",無法讓它學到真正支撐任務成功所需要的底層物理約束,比如精確的接觸時序、準確的空間定位和合理的力學關係。視覺風格和物理理解是兩回事。






