宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

澳門大學等機構揭秘:讓AI既會「腦補」未來,又能看真實畫面,效果提升超10%

2026年06月09日 首頁 » 熱門科技

這項由澳門大學、LIGHTSPEED及獨立研究者聯合開展的研究,以預印本形式發布於2026年6月,論文編號為arXiv:2606.03603v1,研究方向歸屬於電腦視覺領域。有興趣深入了解的讀者可以通過該編號在arXiv平台查閱完整論文。

**一、一張照片,能看見未來嗎**

假設你站在一間廚房門口,看到爐子上有一鍋水剛剛開始沸騰,旁邊擺著一盒雞蛋。這時候有人問你:五分鐘後,雞蛋會在哪裡?是進了鍋里、還是還在台上?你八成能猜出來——不是因為你看見了未來,而是因為你的大腦能根據眼前的情景,自動推演接下來最可能發生的事。

這種能力,AI至今仍在努力學習。當一張靜止的圖片擺在AI面前,要預測接下來會發生什麼,難度相當之大。現有的AI系統有兩種截然不同的策略:一種是"語言推理派",也就是多模態大語言模型(MLLM),它們擅長把規則、目標和問題用語言組織起來,像一位經驗豐富的顧問,靠知識和邏輯推斷;另一種是"視覺模擬派",也就是影片世界模型,它們能直接生成一段未來的影片畫面,像一台能預演未來的攝影機。

兩種方式各有所長,也各有缺陷。語言推理派有時候太過依賴抽象知識,看不見具體細節;視覺模擬派生成的影片畫面雖然逼真,卻未必和任務本身相關——就像一台預演攝影機拍出的畫面可能很漂亮,但拍的根本不是你想看的那場戲。

研究團隊認為,真正的突破在於讓這兩種能力協同工作,而不是各行其是。這篇論文正是要解決這個問題:如何訓練一個AI,讓它既懂得什麼時候該"看影片"來推斷未來,又懂得判斷這段影片是否可信,並將影片內容合理地納入自己的最終判斷中。

**二、兩個出人意料的失敗案例**

研究團隊在正式提出解決方案之前,先做了一個小實驗,結果發現了兩個有趣的失敗模式,它們就像是兩種性格截然相反的學生。

第一種失敗,研究團隊稱之為"模擬慣性"。給AI配備了一台可以生成未來影片的世界模型,並告訴它:遇到複雜的空間推理問題時,可以調用這台攝影機來幫忙。然而,兩個被測試的AI——谷歌的Gemini-3-Flash和另一個Qwen3.5-9B——在96%到98%的情況下,根本不去調用這台攝影機,自顧自地靠語言推理作答。這就好比給一個學生配了計算器,結果他寧願在腦子裡心算,也不伸手拿那個計算器。

第二種失敗,研究團隊稱之為"強制模擬悖論"。這次研究人員換了策略:強制要求AI每道題都必須先生成一段未來影片再作答。結果更出乎意料——加入影片之後,AI的答題正確率不升反降。在VRQABench測試集上,從33.2%下降到32.6%;在OpenWorldQA測試集上,從39.8%下降到38.6%。原因很簡單:世界模型生成的影片畫面可能在視覺上非常流暢、合理,但內容上是錯的——就像一位說謊高手,話說得頭頭是道,但資訊全是假的。AI把這些錯誤影片當成了可靠的線索,反而被帶偏了。

這兩個失敗案例說明,問題的核心不在於"AI有沒有影片看",而在於"AI知不知道什麼時候該看影片、看完之後該不該信"。

**三、兩套專門設計的考題**

為了系統研究這個問題,研究團隊自己動手設計了兩套測試題庫,並且每道題都經過人工驗證,確保質量。這兩套題庫代表了兩種截然不同的場景,就像用兩種不同類型的菜餚來檢驗一位廚師的綜合廚藝。

第一套叫VRQABench,專門考察有明確規則的空間推理能力。題目來自迷宮導航、不規則迷宮路徑追蹤和推箱子(Sokoban)這三類益智遊戲。研究團隊先用程序化的算法求解器得到每道題的精確答案——比如走迷宮最短路徑會拐幾次彎、推箱子至少需要推多少步——然後用語言模型把這些精確答案包裝成自然語言選擇題,再讓人工標註員逐一檢查,確保每道題的圖片內容、選項合理性和答案有效性都沒有問題。最終形成了4000道訓練題和636道評測題,涵蓋拐彎次數計數、拐彎方向判斷、推箱子步數、方向步數計數和推送方向計數五個類別。

第二套叫OpenWorldQA,專門考察對真實世界物理事件的預測能力。題目來自真實世界的短影片,但AI在測試時只能看到事件發生前的一幀"錨定幀",不能看到後續畫面。研究團隊為了構建這套題庫,設計了一條五階段流水線:先由場景分析模組挑選出既包含足夠初始資訊、又不會泄露結果的錨定幀;再由問題設計模組寫出需要一到三步物理推理才能回答的問題;接著由干擾項生成模組製造幾個"看起來有道理但其實是錯的"選項;然後用一個小型AI模型把太容易的題篩掉;最後還要通過人工審核,確認錨定幀有效、答案唯一、選項合理。最終形成了3904道訓練題和500道評測題,覆蓋12個物理推理類別,包括間隙擬合、空間關係、容納情況、支撐穩定性、摩擦力、慣性、流動性、形變、工具使用、連鎖反應、過程競速和多體運動,以及順序判斷、計數、首次接觸、中間狀態、失敗預測和反事實六種問題形式。

**四、一套像偵探破案一樣思考的訓練方法**

研究團隊提出的解決方案叫做"特權未來在線自我蒸餾",簡稱PF-OPSD。這個名字聽起來複雜,但背後的思路其實就像是培養一位優秀的偵探。

偵探破案有三個關鍵步驟:第一,判斷什麼時候需要去現場取證,而不是僅憑邏輯推理;第二,評估取回的證據是否真實可靠,而不是照單全收;第三,根據證據的可靠程度決定它在最終推斷中占多大權重。PF-OPSD訓練的AI系統,正是要具備這三種偵探思維。

具體來說,AI系統在處理每道題時,會按照一條固定的行動鏈條進行推理。首先,它要做一個"是否出動"的決定:這道題僅憑靜態圖片和邏輯推理就夠了嗎?還是必須調用世界模型來生成一段未來影片?如果決定出動,它就會自己寫一段提示詞,告訴世界模型需要展示哪些關鍵的運動軌跡、物體接觸或場景變化,然後世界模型根據這段提示詞生成一段影片。拿到影片之後,AI並不急著使用,而是先做一個驗證:這段影片和原始圖片的內容是否一致?畫面是否合理?和要回答的問題是否相關?驗證結果分為"接受"、"拒絕"或"不確定"三種。如果拒絕,AI可以重寫提示詞再試一次,最多嘗試三次。完成這個過程之後,AI還要決定"依賴程度":是全盤採用影片中的資訊、打折扣地參考、還是完全放棄影片轉而依靠純粹的邏輯推理?最後才給出A、B、C、D中的一個答案。

訓練這套系統分兩個階段,就像培訓一位偵探先要學規範、再要學實戰判斷。

第一階段叫"協議監督微調",也就是規範訓練階段。研究團隊用一個擁有特權的老師——Gemini-3.1-Pro加上一套代理工作流——生成一批示範軌跡。這位老師在生成示範時,可以看到真實的未來影片和正確答案,所以它能做出非常精準的示範,告訴學生在各種情況下應該走哪條行動鏈條。這些示範數據經過篩選之後,用來訓練學生AI,讓它掌握正確的行動格式。

第二階段叫"特權未來在線自我蒸餾",也就是實戰校準階段。這一階段的核心思想是:學生AI先在不看真實未來影片的條件下,自己生成一套行動軌跡,就像偵探在沒有完整案卷的情況下自主推理;然後,一個有特權的評估者——Qwen3.6-27B——拿著真實的未來影片和正確答案,回頭看學生的每一個關鍵決策,評估它到底做得對不對。評估者會在每個決策節點逐一評分:調用世界模型的決定合不合理?寫的提示詞夠不夠好?對影片的驗證結論準不準確?最後給出的答案對不對?評估者還會給出自己的"教師視角偏好",也就是如果換成它來做這個決策會怎麼選。把學生自己走過的路和教師的評分結合起來,就能計算出每個決策的"優勢值"——這個決策比平均水平好多少、或者差多少。然後用這些優勢值來調整學生的參數,讓它在未來遇到類似情況時,能做出更好的決策。

這種設計的精妙之處在於:真實的未來影片只在訓練期間用作評分依據,絕不出現在測試階段。學生AI上崗之後,完全依靠自己的判斷力行動,沒有任何"作弊"成分。

**五、比較的結果:學會判斷比看更多影片更重要**

研究團隊把PF-OPSD與多種對比方案放在一起測試,結果相當清晰。

在VRQABench上,直接調用谷歌Gemini-3-Flash的零樣本成績是45.9%,OpenAI GPT-5.4是43.2%,另一家的HY3是38.2%,規模更小的Qwen3.6-27B是33.0%,Qwen3.5-9B是33.2%,更早版本的Qwen2.5-VL-7B是32.7%。如果把Qwen3.5-9B配上世界模型但不做任何訓練,直接用提示詞工程的方式讓它調用影片,成績是32.6%,不升反降。如果只做第一階段的規範監督微調,成績跳升到61.8%。再加上GRPO(一種強化學習方法)是63.5%。而完整的PF-OPSD達到72.4%,比僅做監督微調提高了10.6個百分點。

在OpenWorldQA上,格局類似。Gemini-3-Flash零樣本是48.2%,GPT-5.4是53.4%,HY3是35.0%,Qwen3.6-27B是41.4%,Qwen3.5-9B是39.8%,Qwen2.5-VL-7B是14.2%。帶影片但無訓練的工作流方案是38.6%。僅監督微調是59.6%,加GRPO是61.2%,完整PF-OPSD達到70.5%,比僅做監督微調提高了10.9個百分點。

這些數字背後有一個關鍵細節值得關註:PF-OPSD並沒有對所有題目都調用世界模型。平均下來,只有42.5%的題目被觸發了影片生成,每道題平均調用0.45次。相比之下,強制對所有題目都調用影片(即"永遠出動"策略)的成績,在VRQABench上是68.5%,在OpenWorldQA上是67.2%,都低於PF-OPSD。這說明,學會"什麼時候不該出動"和"什麼時候該出動"同樣重要。

研究團隊還額外測試了換用另一個世界模型Wan 2.2來生成影片時的表現。Wan 2.2的影片質量更好,但速度更慢。結果發現,無論使用Helios還是Wan 2.2,PF-OPSD始終比"永遠調用影片"的方案表現更好。換句話說,世界模型質量的提升固然有幫助,但它無法替代學會選擇性地使用影片這一能力。

**六、像優秀偵探一樣處理可疑證據**

研究團隊還專門設計了一系列受控實驗,來測試AI對影片質量的判斷能力,就像測試一位偵探能否識別假證據。

實驗中,研究人員人為地給AI提供了不同質量的影片:高質量的真實相關影片、低質量的含糊影片、完全損壞的影片、與原始圖片內容衝突的影片、遺漏了關鍵交互的影片,以及包含物理不合理內容的影片。結果顯示,PF-OPSD對高質量影片的接受率高達92.5%,但面對低質量影片時接受率驟降至18.4%,面對損壞影片時更跌至5.2%。而且即便接受了低質量或有問題的影片,最終答題準確率也只是從88.5%適度下降到62%至65%的區間,並沒有發生斷崖式崩潰——這說明AI在把不可靠的影片納入推理時,會自動打折扣,而不是全盤照信。

面對影片與靜態圖片邏輯衝突的情況,AI的表現也很有區分度。當靜態推理是錯的、但影片是對的時候,AI有82.5%的概率選擇跟隨影片的結論;當靜態推理是對的、但影片是具有誤導性的錯誤資訊時,AI有78.4%的概率拒絕影片;當影片裡出現了"幻覺"(即影片內容根本是憑空捏造的情節)時,AI有85.2%的概率拒絕該影片;當靜態圖片和影片各自提供了互補的資訊時,AI有69.4%的概率選擇將兩者融合使用。

這組數據構成了一幅生動的圖景:訓練後的AI不再是一個盲目信任或盲目懷疑的模型,而是像一位有經驗的偵探那樣,根據證據本身的可靠性靈活調整自己的判斷策略。

**七、細節里的規律:越難的題,偵探越需要多次出動**

研究團隊還觀察了AI在實際測試中調用影片的次數分布。57.5%的題目被AI判定為無需調用影片,靠純邏輯推理作答;40.5%的題目調用了一次影片就接受了;1.5%的題目經歷了兩次影片生成才停下;只有0.5%的題目用到了三次(最大上限)。

有趣的是,需要多次嘗試的題目,往往也是最終答題準確率最低的題目,同時錯誤判斷率也最高。這並不令人意外——對於偵探來說,一次就找到可靠證據的案子本來就相對簡單;需要反覆調查才拿到的證據,案子本身往往也更複雜、更容易出錯。這說明AI的多次重試行為,是它自動將"困難案件"路由到更深度調查路徑的體現,而不是訓練的副作用。

**八、消融實驗:哪個環節最不能少**

研究團隊還一一拆解了PF-OPSD的各個組成部分,測試每個環節對最終成績的貢獻。

去掉"是否調用影片"的決策門控,強制每道題都調用,兩個測試集的準確率分別降至68.5%和67.2%。去掉"影片驗證"環節,準確率降至65.2%和64.8%。去掉"依賴程度判斷"環節,降至67.8%和66.5%。去掉"優勢加權"機制(即用教師評分來加權更新),降至66.4%和65.2%。如果只用最終答案來蒸餾,而不對中間每個決策節點進行校準,降至64.5%和63.8%。最基準的監督微調是61.8%和59.6%。而完整的PF-OPSD是72.4%和70.5%。

每一個環節的缺失都帶來了不同程度的下降,其中影片驗證和優勢加權這兩個環節的影響最為顯著。這告訴我們,整個系統的提升,來自於對中間推理步驟的精細校準,而不僅僅是把影片加進來這麼簡單。

**九、這套方法的邊界在哪裡**

研究團隊也誠實地討論了這項工作的局限。PF-OPSD目前最適合的場景,是世界模型生成的影片至少在某種程度上與輸入場景和問題相關——如果世界模型生成的影片完全是驢唇不對馬嘴,PF-OPSD的作用是讓AI減少對這類影片的依賴,而不能憑空修補世界模型本身的質量問題。

此外,研究只在兩套測試集上驗證了結論,無法覆蓋所有物理推理場景。對於更專業的領域、更長時間跨度的預測,或者需要與環境互動的情景,可能需要額外的測試集和更針對性的提示策略。訓練過程中使用真實未來影片作為監督信號,意味著如果想把這套方法遷移到沒有配套影片數據的新領域,需要額外的數據收集工作。研究團隊也指出,如何在訓練信號更弱、更隱式的情況下完成類似的校準,是一個值得繼續探索的方向。

歸根結底,這項研究回答了一個實際問題:當我們把一台"未來攝影機"交給AI用,它需要學會的不僅是如何拍攝未來,更是如何判斷拍出來的畫面值不值得信。就像一位廚師不只要學會看食譜,還要學會辨別哪本食譜可靠、哪本可能有錯,才能真正做出一道好菜。

研究團隊訓練出的AI,在兩套測試集上都比僅做監督微調的版本高出約10個百分點,比直接調用世界模型但不做任何訓練的版本高出更多。更重要的是,它變得更加"審慎":只在真正需要的時候出動,只在影片可靠的時候信任,在影片不可靠時懂得用自己的邏輯兜底。這或許是未來AI系統走向實用化的一個重要方向:不是給它更多工具,而是教它更聰明地使用工具。如果你對這套方法感興趣,可以通過arXiv:2606.03603查閱完整論文,研究團隊的代碼和數據集也已公開。

Q&A

Q1:PF-OPSD是什麼,和普通AI訓練有什麼區別?

A:PF-OPSD是"特權未來在線自我蒸餾"的簡稱,是研究團隊提出的一種訓練方法。普通AI訓練通常只看最終答案對不對,而PF-OPSD會在訓練期間讓一個"有特權"的評估者拿著真實的未來影片,逐一檢查AI在每個中間決策步驟的表現——比如該不該調用影片、該不該信任影片——然後用這些細粒度的反饋來校準AI的判斷力。測試階段真實未來影片不再出現,AI完全靠自己的判斷行動。

Q2:為什麼強制讓AI看影片反而會讓答題準確率下降?

A:因為世界模型生成的影片並非總是可靠的。這些影片在視覺上可能很流暢,但內容可能與實際情況不符——該出現的關鍵細節沒有出現,或者乾脆展示了一個錯誤的未來場景。如果AI沒有經過專門訓練,無法判斷影片是否可信,就會把錯誤資訊當作線索,反而干擾了它原本正確的邏輯推理。在VRQABench和OpenWorldQA兩個測試集上,強制看影片後準確率都出現了下降,印證了這一點。

Q3:VRQABench和OpenWorldQA這兩套測試集有什麼區別,分別在測什麼?

A:VRQABench主要測試有明確規則的空間推理能力,題目來自迷宮導航和推箱子等益智遊戲,問題有精確的程序化答案,考察AI能否推演路徑、拐彎次數等結構化資訊。OpenWorldQA則測試對真實世界物理事件的預測,AI只能看到事件發生前的一幀圖像,需要判斷接下來會發生什麼物理變化,涵蓋摩擦、慣性、形變、連鎖反應等12個類別,更接近日常生活場景。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新