澳門大學等機構揭秘：讓AI既會「腦補」未來，又能看真實畫面，效果提升超10%

這項由澳門大學、LIGHTSPEED及獨立研究者聯合開展的研究，以預印本形式發布於2026年6月，論文編號為arXiv:2606.03603v1，研究方向歸屬於電腦視覺領域。有興趣深入了解的讀者可以通過該編號在arXiv平台查閱完整論文。

贊助商廣告

**一、一張照片，能看見未來嗎**

假設你站在一間廚房門口，看到爐子上有一鍋水剛剛開始沸騰，旁邊擺著一盒雞蛋。這時候有人問你：五分鐘後，雞蛋會在哪裡？是進了鍋里、還是還在台上？你八成能猜出來——不是因為你看見了未來，而是因為你的大腦能根據眼前的情景，自動推演接下來最可能發生的事。

這種能力，AI至今仍在努力學習。當一張靜止的圖片擺在AI面前，要預測接下來會發生什麼，難度相當之大。現有的AI系統有兩種截然不同的策略：一種是"語言推理派"，也就是多模態大語言模型（MLLM），它們擅長把規則、目標和問題用語言組織起來，像一位經驗豐富的顧問，靠知識和邏輯推斷；另一種是"視覺模擬派"，也就是影片世界模型，它們能直接生成一段未來的影片畫面，像一台能預演未來的攝影機。

兩種方式各有所長，也各有缺陷。語言推理派有時候太過依賴抽象知識，看不見具體細節；視覺模擬派生成的影片畫面雖然逼真，卻未必和任務本身相關——就像一台預演攝影機拍出的畫面可能很漂亮，但拍的根本不是你想看的那場戲。

研究團隊認為，真正的突破在於讓這兩種能力協同工作，而不是各行其是。這篇論文正是要解決這個問題：如何訓練一個AI，讓它既懂得什麼時候該"看影片"來推斷未來，又懂得判斷這段影片是否可信，並將影片內容合理地納入自己的最終判斷中。

**二、兩個出人意料的失敗案例**

研究團隊在正式提出解決方案之前，先做了一個小實驗，結果發現了兩個有趣的失敗模式，它們就像是兩種性格截然相反的學生。

第一種失敗，研究團隊稱之為"模擬慣性"。給AI配備了一台可以生成未來影片的世界模型，並告訴它：遇到複雜的空間推理問題時，可以調用這台攝影機來幫忙。然而，兩個被測試的AI——谷歌的Gemini-3-Flash和另一個Qwen3.5-9B——在96%到98%的情況下，根本不去調用這台攝影機，自顧自地靠語言推理作答。這就好比給一個學生配了計算器，結果他寧願在腦子裡心算，也不伸手拿那個計算器。

贊助商廣告

第二種失敗，研究團隊稱之為"強制模擬悖論"。這次研究人員換了策略：強制要求AI每道題都必須先生成一段未來影片再作答。結果更出乎意料——加入影片之後，AI的答題正確率不升反降。在VRQABench測試集上，從33.2%下降到32.6%；在OpenWorldQA測試集上，從39.8%下降到38.6%。原因很簡單：世界模型生成的影片畫面可能在視覺上非常流暢、合理，但內容上是錯的——就像一位說謊高手，話說得頭頭是道，但資訊全是假的。AI把這些錯誤影片當成了可靠的線索，反而被帶偏了。

這兩個失敗案例說明，問題的核心不在於"AI有沒有影片看"，而在於"AI知不知道什麼時候該看影片、看完之後該不該信"。

**三、兩套專門設計的考題**

為了系統研究這個問題，研究團隊自己動手設計了兩套測試題庫，並且每道題都經過人工驗證，確保質量。這兩套題庫代表了兩種截然不同的場景，就像用兩種不同類型的菜餚來檢驗一位廚師的綜合廚藝。

第一套叫VRQABench，專門考察有明確規則的空間推理能力。題目來自迷宮導航、不規則迷宮路徑追蹤和推箱子（Sokoban）這三類益智遊戲。研究團隊先用程序化的算法求解器得到每道題的精確答案——比如走迷宮最短路徑會拐幾次彎、推箱子至少需要推多少步——然後用語言模型把這些精確答案包裝成自然語言選擇題，再讓人工標註員逐一檢查，確保每道題的圖片內容、選項合理性和答案有效性都沒有問題。最終形成了4000道訓練題和636道評測題，涵蓋拐彎次數計數、拐彎方向判斷、推箱子步數、方向步數計數和推送方向計數五個類別。

第二套叫OpenWorldQA，專門考察對真實世界物理事件的預測能力。題目來自真實世界的短影片，但AI在測試時只能看到事件發生前的一幀"錨定幀"，不能看到後續畫面。研究團隊為了構建這套題庫，設計了一條五階段流水線：先由場景分析模組挑選出既包含足夠初始資訊、又不會泄露結果的錨定幀；再由問題設計模組寫出需要一到三步物理推理才能回答的問題；接著由干擾項生成模組製造幾個"看起來有道理但其實是錯的"選項；然後用一個小型AI模型把太容易的題篩掉；最後還要通過人工審核，確認錨定幀有效、答案唯一、選項合理。最終形成了3904道訓練題和500道評測題，覆蓋12個物理推理類別，包括間隙擬合、空間關係、容納情況、支撐穩定性、摩擦力、慣性、流動性、形變、工具使用、連鎖反應、過程競速和多體運動，以及順序判斷、計數、首次接觸、中間狀態、失敗預測和反事實六種問題形式。

贊助商廣告

**四、一套像偵探破案一樣思考的訓練方法**

研究團隊提出的解決方案叫做"特權未來在線自我蒸餾"，簡稱PF-OPSD。這個名字聽起來複雜，但背後的思路其實就像是培養一位優秀的偵探。

偵探破案有三個關鍵步驟：第一，判斷什麼時候需要去現場取證，而不是僅憑邏輯推理；第二，評估取回的證據是否真實可靠，而不是照單全收；第三，根據證據的可靠程度決定它在最終推斷中占多大權重。PF-OPSD訓練的AI系統，正是要具備這三種偵探思維。

具體來說，AI系統在處理每道題時，會按照一條固定的行動鏈條進行推理。首先，它要做一個"是否出動"的決定：這道題僅憑靜態圖片和邏輯推理就夠了嗎？還是必須調用世界模型來生成一段未來影片？如果決定出動，它就會自己寫一段提示詞，告訴世界模型需要展示哪些關鍵的運動軌跡、物體接觸或場景變化，然後世界模型根據這段提示詞生成一段影片。拿到影片之後，AI並不急著使用，而是先做一個驗證：這段影片和原始圖片的內容是否一致？畫面是否合理？和要回答的問題是否相關？驗證結果分為"接受"、"拒絕"或"不確定"三種。如果拒絕，AI可以重寫提示詞再試一次，最多嘗試三次。完成這個過程之後，AI還要決定"依賴程度"：是全盤採用影片中的資訊、打折扣地參考、還是完全放棄影片轉而依靠純粹的邏輯推理？最後才給出A、B、C、D中的一個答案。

訓練這套系統分兩個階段，就像培訓一位偵探先要學規範、再要學實戰判斷。

第一階段叫"協議監督微調"，也就是規範訓練階段。研究團隊用一個擁有特權的老師——Gemini-3.1-Pro加上一套代理工作流——生成一批示範軌跡。這位老師在生成示範時，可以看到真實的未來影片和正確答案，所以它能做出非常精準的示範，告訴學生在各種情況下應該走哪條行動鏈條。這些示範數據經過篩選之後，用來訓練學生AI，讓它掌握正確的行動格式。

贊助商廣告

第二階段叫"特權未來在線自我蒸餾"，也就是實戰校準階段。這一階段的核心思想是：學生AI先在不看真實未來影片的條件下，自己生成一套行動軌跡，就像偵探在沒有完整案卷的情況下自主推理；然後，一個有特權的評估者——Qwen3.6-27B——拿著真實的未來影片和正確答案，回頭看學生的每一個關鍵決策，評估它到底做得對不對。評估者會在每個決策節點逐一評分：調用世界模型的決定合不合理？寫的提示詞夠不夠好？對影片的驗證結論準不準確？最後給出的答案對不對？評估者還會給出自己的"教師視角偏好"，也就是如果換成它來做這個決策會怎麼選。把學生自己走過的路和教師的評分結合起來，就能計算出每個決策的"優勢值"——這個決策比平均水平好多少、或者差多少。然後用這些優勢值來調整學生的參數，讓它在未來遇到類似情況時，能做出更好的決策。

這種設計的精妙之處在於：真實的未來影片只在訓練期間用作評分依據，絕不出現在測試階段。學生AI上崗之後，完全依靠自己的判斷力行動，沒有任何"作弊"成分。

**五、比較的結果：學會判斷比看更多影片更重要**

研究團隊把PF-OPSD與多種對比方案放在一起測試，結果相當清晰。

在VRQABench上，直接調用谷歌Gemini-3-Flash的零樣本成績是45.9%，OpenAI GPT-5.4是43.2%，另一家的HY3是38.2%，規模更小的Qwen3.6-27B是33.0%，Qwen3.5-9B是33.2%，更早版本的Qwen2.5-VL-7B是32.7%。如果把Qwen3.5-9B配上世界模型但不做任何訓練，直接用提示詞工程的方式讓它調用影片，成績是32.6%，不升反降。如果只做第一階段的規範監督微調，成績跳升到61.8%。再加上GRPO（一種強化學習方法）是63.5%。而完整的PF-OPSD達到72.4%，比僅做監督微調提高了10.6個百分點。

在OpenWorldQA上，格局類似。Gemini-3-Flash零樣本是48.2%，GPT-5.4是53.4%，HY3是35.0%，Qwen3.6-27B是41.4%，Qwen3.5-9B是39.8%，Qwen2.5-VL-7B是14.2%。帶影片但無訓練的工作流方案是38.6%。僅監督微調是59.6%，加GRPO是61.2%，完整PF-OPSD達到70.5%，比僅做監督微調提高了10.9個百分點。

贊助商廣告

這些數字背後有一個關鍵細節值得關註：PF-OPSD並沒有對所有題目都調用世界模型。平均下來，只有42.5%的題目被觸發了影片生成，每道題平均調用0.45次。相比之下，強制對所有題目都調用影片（即"永遠出動"策略）的成績，在VRQABench上是68.5%，在OpenWorldQA上是67.2%，都低於PF-OPSD。這說明，學會"什麼時候不該出動"和"什麼時候該出動"同樣重要。

研究團隊還額外測試了換用另一個世界模型Wan 2.2來生成影片時的表現。Wan 2.2的影片質量更好，但速度更慢。結果發現，無論使用Helios還是Wan 2.2，PF-OPSD始終比"永遠調用影片"的方案表現更好。換句話說，世界模型質量的提升固然有幫助，但它無法替代學會選擇性地使用影片這一能力。

**六、像優秀偵探一樣處理可疑證據**

研究團隊還專門設計了一系列受控實驗，來測試AI對影片質量的判斷能力，就像測試一位偵探能否識別假證據。

實驗中，研究人員人為地給AI提供了不同質量的影片：高質量的真實相關影片、低質量的含糊影片、完全損壞的影片、與原始圖片內容衝突的影片、遺漏了關鍵交互的影片，以及包含物理不合理內容的影片。結果顯示，PF-OPSD對高質量影片的接受率高達92.5%，但面對低質量影片時接受率驟降至18.4%，面對損壞影片時更跌至5.2%。而且即便接受了低質量或有問題的影片，最終答題準確率也只是從88.5%適度下降到62%至65%的區間，並沒有發生斷崖式崩潰——這說明AI在把不可靠的影片納入推理時，會自動打折扣，而不是全盤照信。

面對影片與靜態圖片邏輯衝突的情況，AI的表現也很有區分度。當靜態推理是錯的、但影片是對的時候，AI有82.5%的概率選擇跟隨影片的結論；當靜態推理是對的、但影片是具有誤導性的錯誤資訊時，AI有78.4%的概率拒絕影片；當影片裡出現了"幻覺"（即影片內容根本是憑空捏造的情節）時，AI有85.2%的概率拒絕該影片；當靜態圖片和影片各自提供了互補的資訊時，AI有69.4%的概率選擇將兩者融合使用。

贊助商廣告

這組數據構成了一幅生動的圖景：訓練後的AI不再是一個盲目信任或盲目懷疑的模型，而是像一位有經驗的偵探那樣，根據證據本身的可靠性靈活調整自己的判斷策略。

**七、細節里的規律：越難的題，偵探越需要多次出動**

研究團隊還觀察了AI在實際測試中調用影片的次數分布。57.5%的題目被AI判定為無需調用影片，靠純邏輯推理作答；40.5%的題目調用了一次影片就接受了；1.5%的題目經歷了兩次影片生成才停下；只有0.5%的題目用到了三次（最大上限）。

有趣的是，需要多次嘗試的題目，往往也是最終答題準確率最低的題目，同時錯誤判斷率也最高。這並不令人意外——對於偵探來說，一次就找到可靠證據的案子本來就相對簡單；需要反覆調查才拿到的證據，案子本身往往也更複雜、更容易出錯。這說明AI的多次重試行為，是它自動將"困難案件"路由到更深度調查路徑的體現，而不是訓練的副作用。

**八、消融實驗：哪個環節最不能少**

研究團隊還一一拆解了PF-OPSD的各個組成部分，測試每個環節對最終成績的貢獻。

去掉"是否調用影片"的決策門控，強制每道題都調用，兩個測試集的準確率分別降至68.5%和67.2%。去掉"影片驗證"環節，準確率降至65.2%和64.8%。去掉"依賴程度判斷"環節，降至67.8%和66.5%。去掉"優勢加權"機制（即用教師評分來加權更新），降至66.4%和65.2%。如果只用最終答案來蒸餾，而不對中間每個決策節點進行校準，降至64.5%和63.8%。最基準的監督微調是61.8%和59.6%。而完整的PF-OPSD是72.4%和70.5%。

每一個環節的缺失都帶來了不同程度的下降，其中影片驗證和優勢加權這兩個環節的影響最為顯著。這告訴我們，整個系統的提升，來自於對中間推理步驟的精細校準，而不僅僅是把影片加進來這麼簡單。

**九、這套方法的邊界在哪裡**

研究團隊也誠實地討論了這項工作的局限。PF-OPSD目前最適合的場景，是世界模型生成的影片至少在某種程度上與輸入場景和問題相關——如果世界模型生成的影片完全是驢唇不對馬嘴，PF-OPSD的作用是讓AI減少對這類影片的依賴，而不能憑空修補世界模型本身的質量問題。

贊助商廣告

此外，研究只在兩套測試集上驗證了結論，無法覆蓋所有物理推理場景。對於更專業的領域、更長時間跨度的預測，或者需要與環境互動的情景，可能需要額外的測試集和更針對性的提示策略。訓練過程中使用真實未來影片作為監督信號，意味著如果想把這套方法遷移到沒有配套影片數據的新領域，需要額外的數據收集工作。研究團隊也指出，如何在訓練信號更弱、更隱式的情況下完成類似的校準，是一個值得繼續探索的方向。

歸根結底，這項研究回答了一個實際問題：當我們把一台"未來攝影機"交給AI用，它需要學會的不僅是如何拍攝未來，更是如何判斷拍出來的畫面值不值得信。就像一位廚師不只要學會看食譜，還要學會辨別哪本食譜可靠、哪本可能有錯，才能真正做出一道好菜。

研究團隊訓練出的AI，在兩套測試集上都比僅做監督微調的版本高出約10個百分點，比直接調用世界模型但不做任何訓練的版本高出更多。更重要的是，它變得更加"審慎"：只在真正需要的時候出動，只在影片可靠的時候信任，在影片不可靠時懂得用自己的邏輯兜底。這或許是未來AI系統走向實用化的一個重要方向：不是給它更多工具，而是教它更聰明地使用工具。如果你對這套方法感興趣，可以通過arXiv:2606.03603查閱完整論文，研究團隊的代碼和數據集也已公開。

Q&A

Q1：PF-OPSD是什麼，和普通AI訓練有什麼區別？

A：PF-OPSD是"特權未來在線自我蒸餾"的簡稱，是研究團隊提出的一種訓練方法。普通AI訓練通常只看最終答案對不對，而PF-OPSD會在訓練期間讓一個"有特權"的評估者拿著真實的未來影片，逐一檢查AI在每個中間決策步驟的表現——比如該不該調用影片、該不該信任影片——然後用這些細粒度的反饋來校準AI的判斷力。測試階段真實未來影片不再出現，AI完全靠自己的判斷行動。

Q2：為什麼強制讓AI看影片反而會讓答題準確率下降？

贊助商廣告

A：因為世界模型生成的影片並非總是可靠的。這些影片在視覺上可能很流暢，但內容可能與實際情況不符——該出現的關鍵細節沒有出現，或者乾脆展示了一個錯誤的未來場景。如果AI沒有經過專門訓練，無法判斷影片是否可信，就會把錯誤資訊當作線索，反而干擾了它原本正確的邏輯推理。在VRQABench和OpenWorldQA兩個測試集上，強制看影片後準確率都出現了下降，印證了這一點。

Q3：VRQABench和OpenWorldQA這兩套測試集有什麼區別，分別在測什麼？

A：VRQABench主要測試有明確規則的空間推理能力，題目來自迷宮導航和推箱子等益智遊戲，問題有精確的程序化答案，考察AI能否推演路徑、拐彎次數等結構化資訊。OpenWorldQA則測試對真實世界物理事件的預測，AI只能看到事件發生前的一幀圖像，需要判斷接下來會發生什麼物理變化，涵蓋摩擦、慣性、形變、連鎖反應等12個類別，更接近日常生活場景。