這項由紐約大學(NYU)與韓國科學技術院(KAIST)聯合開展的研究於2026年6月發布,論文編號為arXiv:2606.03920。有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。
**一個讓人坐立不安的秘密**
當我們把一段籃球比賽的影片丟給當今最先進的AI助手,問它"第三節結束時比分是多少?"——按理說這不是什麼難事吧?畢竟,得分變化貫穿整場比賽,只需要跟著看下去、不斷更新記在腦子裡的數字就行了。然而,來自紐約大學和韓國科學技術院的研究團隊發現,這恰恰是當今最頂尖的多模態大語言模型(也就是那些能同時理解文字和圖像/影片的AI)最根本的軟肋。這個問題嚴重到令人咋舌:在專門為測試這種能力而設計的新基準測試中,世界上最好的AI系統的得分,僅僅比"隨機亂猜"高出一丁點兒。
研究團隊將這種能力稱為"視覺狀態追蹤"——說白了,就是像人一樣持續地盯著影片,邊看邊更新腦子裡的資訊,把每一個重要時刻都串聯起來,最終形成完整的理解。這種能力對人類來說不費吹灰之力,但對AI來說,卻是一道幾乎無法逾越的鴻溝。
研究團隊為此開發了一套名為VSTAT(視覺狀態追蹤基準)的測試體系,包含834段影片和1500道題目,專門用來揭穿那些在現有影片測試中表現亮眼的AI的底細。測試結果觸目驚心:人類的平均得分高達90.5%,而最好的AI系統——谷歌旗下的Gemini-3.1 Pro——滿打滿算也只有44.4%。更糟糕的是,研究者發現AI失敗的根源並非"思考能力不夠",而是壓根就沒有真正"看見"影片裡發生了什麼。
---
**一、AI真的在"看"影片嗎——揭開一個大誤會**
先來建立一個貫穿全文的理解框架:把影片理解這件事比作一場偵探破案。一個優秀的偵探不會只看案發現場的最終狀態就下結論,他需要按時間順序整理所有線索,追蹤每一個嫌疑人的行動軌跡,把每一個細節都串聯起來,才能得出正確答案。
現實中,AI看影片的方式更像是一個心不在焉的證人——只瞄了幾眼現場照片,然後憑直覺編了一個故事。大多數現有的影片AI測試題目,其實只需要AI在一兩個關鍵幀里找到答案就行了,比如"這段影片裡有什麼動物?"這類問題,掃一眼就能回答,根本不需要跟蹤整個影片的變化過程。
VSTAT的設計原則就是要徹底堵死這條"抄近路"的可能性。研究團隊對每一道題目都有嚴格要求:答案必須不能從任何單一畫面中讀出來,模型必須持續關注整段影片,跟蹤其中的狀態變化,才能得出正確答案。舉一個具體的例子:一段翻書的影片,AI需要數清楚總共翻了幾頁——而且翻頁可以是正向的也可以是反向的,每一次翻動都會影響最終的頁數。沒有任何一幀畫面上會直接顯示"總共翻了8頁"這個答案,必須從頭到尾跟著看、跟著數,才能知道。
這就是VSTAT最核心的測試邏輯:它是一場偵探遊戲,要求AI必須跟蹤整條證據鏈,而不是只看案發現場的最終照片。
---
**二、這場測試里藏著哪些"偵探難題"——VSTAT的設計細節**
VSTAT收錄的834段影片來源多元,包括用三維軟體Blender渲染的合成影片(450段)、從YouTube收集的真實世界影片(304段),以及研究團隊自己錄製的腳本影片(80段)。影片內容涵蓋了翻書、籃球比賽、排球比賽、魔方還原、打字、摩斯密碼解讀、用數字鍵盤輸入密碼、堆疊杯子、騎馬比賽等豐富多樣的場景。
VSTAT的題目設計沿著兩條軸線展開。第一條軸線關注"需要追蹤什麼資訊",也就是狀態的內容。研究團隊將這一維度細分為"元素類型"和"結構"兩個子維度。元素類型分為三種:數量(比如翻了幾頁書)、位置(比如球現在在哪個杯子下面)、屬性(比如打出的是哪個字母)。結構則分為四種:原子型(追蹤單一數值)、序列型(追蹤有序的歷史記錄,比如打字順序)、集合型(追蹤出現過的不重複集合,比如哪些數字被按過)、字典型(追蹤多個實體各自的狀態,比如每位球員各自的得分)。
第二條軸線關注"感知這些資訊有多難",也就是視覺感知的複雜程度。研究團隊識別出六種讓AI特別容易犯錯的情景。遮擋是指目標物體被其他物體擋住,比如魔方的某個小方塊在某些幀里被遮住了。攝像機運動是指鏡頭不斷移動導致參考系變化,比如籃球比賽里攝影機跟著球員跑。同質性是指多個目標外觀極其相似,比如多個顏色相同的方塊。符號解碼是指需要把視覺模式轉化為抽象符號,比如把鍵盤按鍵動作翻譯成對應的字母。多實體歸因是指多個對象同時活動,需要把事件和正確的對象對應起來,比如分清楚每個排球運動員觸球了幾次。事件歧義是指視覺上相似的動作卻代表不同的狀態變化,比如翻書可以正向也可以反向,扭螺絲可以擰緊也可以擰松。
題目格式也分兩種:數值題(答案是一個數字,比如"總共翻了多少頁")和多選題(答案從給定選項中挑選)。所有題目和答案都經過嚴格的人工驗證,每道題至少經過兩輪人工審核,存在歧義的題目一律刪除。多選題的干擾選項也經過精心設計,避免了可以不看影片就直接猜出答案的情況——研究團隊會把題目和選項(不含影片)輸入AI,如果AI能直接猜出答案,就重新設計選項。
整個基準測試的數據分布相當均衡:元素類型方面,數量型約占49.8%,位置型約占25.6%,屬性型約占24.6%;結構方面,原子型約占47.3%,字典型約占22%,集合型約占16.6%,序列型約占14.1%。影片時長大多在15到30秒之間,遠短於Gemini這類頂級AI的上下文窗口限制,所以"影片太長、AI看不完"並不是失敗的理由。
---
**三、比賽結果:人類輕鬆過關,AI幾乎全軍覆沒**
現在來看看這場偵探測試的成績單。
人類評估者的平均得分是90.5%,展現出輕鬆駕馭視覺狀態追蹤任務的能力。唯一的例外是序列型任務——需要記住一連串有序事件的那種題目——人類在這類題上反而是最難的,得分相對偏低。
AI的表現則大相徑庭。最頂尖的商業AI系統Gemini-3.1 Pro得分只有44.4%,Gemini-3.0 Flash得分38.8%。而基準測試里還有一個"頻率猜測基線"——也就是如果一個人對每道題都選"歷史上最常出現的答案"能得多少分,這個基線是37.8%。換句話說,最好的AI系統的得分,僅僅比毫無意義的頻率猜測高出6.6個百分點。
開源模型的處境更為慘澹,幾乎所有開源模型的得分都低於這個"頻率猜測"基線。測試中包括了Qwen3VL、InternVL3.5、LLaVA-OV系列、Molmo2、Cambrian-S、MiMo-VL等各種主流開源模型,大小從0.5B參數到8B參數不等,無一例外地在基準猜測附近徘徊,且隨著模型規模增大,性能幾乎沒有系統性的提升,有些模型甚至隨規模增大而略有下降。
特別值得一提的是LLaVA-OV-2和Molmo2這兩款模型——前者專門用運動感知的影片流數據訓練,後者專門用像素級物體追蹤數據訓練,理論上應該在狀態追蹤方面更有優勢。但它們的表現與其他開源模型相比並沒有顯著差異,說明VSTAT測試的是一種比像素級追蹤或運動感知更深層的能力——需要追蹤的是影片背後隨時間演化的"潛在狀態",而不僅僅是螢幕上物體的物理位置。
還有一個出人意料的發現:開啟"深度思考模式"(讓AI在回答前花更多時間思考)反而讓表現更差,而不是更好。Gemini-3.1 Pro的高思考級別比低思考級別略差,Qwen3VL-8B開啟思考模式後性能下降了15.1%。研究團隊分析認為,當視覺感知本身就存在嚴重錯誤時,更多的"思考"只會讓AI在錯誤的基礎上進行更多的虛空推演,反而增加了產生幻覺的概率。正如一個偵探如果看到的"線索"本身就是假的,再怎麼認真推理也只會推出更離譜的結論。
---
**四、AI為什麼會失敗——是不夠聰明,還是根本沒看見**
這是整個研究中最關鍵也最讓人深思的部分。研究團隊設計了一系列精妙的"控制實驗",專門用來回答這個問題:AI的失敗,是因為推理能力不行,還是因為它根本就沒有真正感知到影片裡發生了什麼?
第一個實驗檢驗的是"幀採樣太稀疏導致漏看事件"這個假設。現有的AI處理影片時,通常會按照固定間隔抽取若干幀畫面來看,而不是看完整的每一幀,這意味著一些持續時間很短的事件可能被跳過。為了排除這個因素,研究團隊把原本5秒的Blender合成影片進行"時間拉伸"——把每一幀複製5遍,變成一段25秒的影片,確保即使AI每秒只看1幀,也一定能看到每一個事件。結果呢?性能只提升了微不足道的一點點(從51.4%到53.6%),而機會猜測基線是39.2%。這說明幀採樣太稀疏並不是主要問題所在。
第二個實驗更為精彩,它直接把影片內容"翻譯"成了文字。研究團隊選取了三個簡單的Blender任務(骰子翻滾、貝殼遊戲、傾斜盒子),由人工把影片裡每一步發生的事情用文字逐幀描述出來,然後分別用原始影片和對應的文字描述來測試AI。結果令人震驚:當給AI看影片時,它的表現接近隨機猜測;但當給AI看文字描述時,它幾乎能達到完美的得分,接近100%。
以骰子翻滾任務為例,研究團隊提供的文字描述大致是這樣的:"骰子初始狀態:頂面紅色、正面綠色、右面藍色。然後向上滾動,三個可見面變為:綠色、粉色、藍色。然後向下滾動,三個可見面變為……"給了這樣的文字描述後,AI能夠一步步推導出骰子底面的顏色變化,完美地回答"粉色面總共著地幾次"這樣的問題。但如果只給它看影片,它完全無法做到同樣的事情。
而且,影片時長越長,影片條件下的性能下降越嚴重。5秒影片時,AI得分就已經遠低於文字條件;10秒時掉到接近隨機猜測;20秒時已經徹底墊底。這清晰地說明,AI的問題不在於不會推理——事實上,它的文字推理能力已經相當強大——而在於它無法從影片畫面中準確地提取出那些需要追蹤的資訊。
研究團隊還特別強調:文字描述在這裡只是一個診斷工具,不是解決方案。對於大多數VSTAT任務來說,要把影片裡複雜的動態過程完整地翻譯成文字,本身就是一件極其困難的事情,甚至需要的文字量比影片本身還要多。即使是最先進的AI,也無法可靠地把那些簡單的Blender合成影片轉化為準確的文字描述——更別提真實世界的複雜影片了。根本的解決之道,在於提升AI的視覺感知能力本身。
---
**五、AI究竟在哪一步出了錯——三種反覆出現的失敗模式**
研究團隊沒有止步於"AI看不懂影片"這個結論,而是進一步追問:AI到底在哪個環節出了問題?他們仔細分析了AI最佳模型Gemini-3.1 Pro在失敗案例中的思維軌跡,發現了三種反覆出現的失敗模式。
第一種失敗叫"事件識別錯誤"。這是指AI沒有正確識別影片中發生的事件本身。在貝殼遊戲的例子裡,影片中明明是中間杯子和右邊杯子交換了位置,但AI的思維軌跡寫道"左杯和右杯交換了"。一個基本事實的判斷錯誤,導致後續所有的狀態追蹤都建立在錯誤的基礎上,最終給出錯誤答案。更極端的情況下,AI會完全捏造一個並不存在的事件序列,把整個過程虛構出來。這是最常見的錯誤類型,在研究團隊的人工分析中,超過50%的失敗案例都源於事件識別錯誤。
第二種失敗叫"實體關聯錯誤"。這是指AI認識到了事件的發生,但把事件歸錯了對象。排球比賽的例子最能說明這個問題:場上所有球員穿著相同的隊服,要區分他們需要通過運動軌跡持續追蹤。AI能正確地識別"有人觸球"這個事件,但每次觸球它都會給那個球員隨機分配一個新的球衣號碼,即使同一個球員反覆觸球,AI也會每次都當作不同的人來處理。
第三種失敗叫"狀態更新錯誤"。這是指AI正確識別了事件,也正確關聯了實體,但在用這些資訊來更新它追蹤的狀態時出了錯。在貝殼遊戲的另一個例子裡,AI的思維軌跡顯示它正確識別了"中杯和右杯交換"這個事件,也正確記錄了"目標杯之前在中間",但最終得出的結論卻是"目標杯還在中間"——它認出了交換,卻沒有把交換的邏輯應用到狀態的更新上。這種錯誤在需要持續追蹤複雜軌跡的任務中尤為常見,AI傾向於簡化觀察,丟失關鍵資訊。
研究團隊還對不同狀態類型的錯誤分布進行了量化分析,發現屬性類、數量類和位置類任務中事件識別和實體關聯錯誤占主導,而狀態更新錯誤在所有類型中相對較少——這與當前AI系統強大的文字推理能力相吻合,說明AI在"知道怎麼推理"這件事上並不差,差的是"看見什麼可以推理"這件事。
---
**六、換個更聰明的打法——"智能體"方案能解決問題嗎**
既然AI直接看影片不行,研究團隊自然想到了另一條路:用更複雜的"智能體框架"來解決這個問題。所謂智能體框架,就是讓多個AI互相配合、分工合作,或者讓AI有更強的自主決策能力,比如主動決定要看影片的哪個片段、要提取哪些資訊、要運行什麼分析代碼。
研究團隊測試了三種代表性的智能體方案。AVP(主動影片感知)是一個專門為影片理解設計的影片智能體,它會自主規劃觀察策略,決定要看哪些片段,然後綜合多輪觀察來得出答案。Claude Code(使用Opus 4.7模型)是Anthropic推出的頂尖編程智能體,研究團隊讓它直接接收影片文件和問題,自己寫代碼來分析影片。Codex(使用GPT-5模型)是OpenAI的頂尖編程智能體,同樣被要求寫代碼解決影片理解問題。
測試在包含39道題目的子集上進行(每個影片類別隨機選取一道題),機會猜測基線在這個子集上是50.8%。結果顯示:Gemini-3.1 Pro直接作答得分52.6%,加上AVP後性能不升反降至43.6%,Claude Code得分37.6%,Codex得分53.4%。所有智能體方案的表現都接近機會猜測水平,沒有一個能有效解決視覺狀態追蹤的問題。
這些失敗各有各的原因。影片智能體AVP存在"過早鎖定"的問題:它以固定的低幀率(通常每秒1幀)對影片進行採樣,收集一輪證據後就直接得出結論,不再進行驗證或修正,導致大量細節被遺漏。編程智能體則走向了另一個極端:它們花費大量時間和計算資源生成並執行代碼,但中間過程中產生了大量相互矛盾的中間結果,模型自己都被這些矛盾搞混了,最終得出錯誤答案。一道題平均需要花費約30分鐘才能得到答案,而且正確率並不比直接回答高。
研究團隊還在測試過程中發現了一個有趣的污染問題:編程智能體有時會試圖通過搜索影片文件名或問題文本來直接找到答案,而不是真正分析影片內容,在未設防的情況下這能達到約87%的"成功率"。為此,研究團隊設計了嚴密的沙盒隔離機制,包括隨機化影片文件名、隔離文件系統訪問權限、隱藏網路訪問等多重防護措施,確保智能體只能通過真正分析影片內容來作答。經過這些防護措施之後,所有智能體的表現立即回落到接近機會猜測的水平。
---
**七、這個發現指向何方——未來的研究方向**
研究團隊在論文中坦誠地討論了幾個重要的局限性和未來方向。
當前的分析方法依賴於AI的"思維軌跡"文字輸出,也就是AI在給出答案之前寫下的推理過程。但這只是AI行為的文字表現,並非AI視覺處理的真實寫照。未來,研究者應當嘗試直接分析AI內部的視覺特徵表示,才能更深入地理解AI的感知過程。
在如何改善AI性能方面,研究團隊認為最有前景的方向是改進預訓練和後訓練方法,讓AI在訓練階段就更注重從連續影片流中準確感知和追蹤狀態變化。目前的大多數訓練方法更強調語義理解和靜態圖像識別,對動態狀態追蹤的針對性訓練嚴重不足。
VSTAT目前涵蓋的影片時長大多在30秒以內,因為對現有AI來說這個長度就已經極其困難了。一旦AI在這個基準上取得令人滿意的成績,自然的下一步是測試更長的影片——比如完整的體育比賽、手術影片或長時間的機器人操作記錄。
研究團隊也提醒社區注意過擬合風險:隨著VSTAT被廣泛採用,模型可能會針對這個特定測試進行優化,而不是真正提升通用的視覺感知能力。應當將VSTAT表現視為一個必要但非充分的指標,配合其他多樣化測試才能全面評估AI的影片理解能力。
---
說到底,VSTAT揭示的不僅僅是一個技術上的能力缺口,更是一種根本性的認知誤區:我們一直以為AI"看懂了"影片,但實際上,它只是看了幾張截圖,然後憑直覺編了一個聽起來合理的故事。就像一個偵探只看了案發現場的照片卻聲稱已經完全了解整個案情——這樣的偵探,在真正需要追蹤時間線上細節的案件面前,必然會栽跟頭。
這項研究給AI領域敲響了一記有分量的警鐘:當前的影片測試體系存在嚴重的系統性盲區,大量現有測試題目可以靠"看幾個關鍵幀"來回答,導致我們對AI影片理解能力產生了嚴重的高估。而VSTAT的出現,正是為了把那些矇混過關的AI重新拉回考場,用那些真正需要"跟著看、跟著想"才能回答的題目,來檢驗它們究竟有沒有真正理解影片。
對於普通人來說,這項研究意味著:在那些真正需要持續追蹤的應用場景中——比如監控影片分析、機器人操作引導、手術輔助、體育戰術分析——當前的AI還遠遠不夠可靠。而對於AI研究者來說,這項研究提供了一個清晰的努力方向:不是讓AI推理得更聰明,而是讓AI真正"看得見"影片裡在發生什麼。
有興趣深入了解這項研究完整細節的讀者,可以通過arXiv:2606.03920查閱原始論文,也可以訪問項目主頁、HuggingFace上的數據集頁面以及GitHub上的評估代碼來親自體驗這套測試體系。
---
**Q&A**
Q1:VSTAT基準測試和現有影片理解測試有什麼不同?
A:現有的影片測試題目大多可以靠看少數關鍵幀來回答,AI不需要真正理解影片的完整動態過程。VSTAT的設計原則是讓每道題的答案都無法從任何單一畫面中讀出,必須從頭到尾追蹤整段影片中的狀態變化才能得出正確答案,因此能真正檢驗AI持續追蹤和整合資訊的能力。
Q2:為什麼給AI看文字描述比看影片效果好這麼多?
A:研究發現,AI的推理能力本身並不差——給了準確的文字描述後,它幾乎能完美完成狀態追蹤任務。問題在於AI無法從影片畫面中準確提取需要追蹤的事件資訊。換句話說,AI的"思考"沒問題,"看"才是瓶頸,視覺感知能力的不足才是根本原因。
Q3:開啟AI的深度思考模式為什麼反而讓影片理解變差了?
A:當視覺感知本身存在嚴重錯誤時,更多的思考只會在錯誤的基礎上進行更多推演,增加產生幻覺的概率。研究發現,對感知難度較高的任務,思考預算越大的模型反而越容易編造出聽起來合理但實際錯誤的分析過程,最終導致性能下降。






