這項由康奈爾大學、康奈爾科技學院、穆罕默德·本·扎耶德人工智慧大學(MBZUAI)以及加州大學伯克利分校聯合開展的研究,於2026年5月發布在預印本平台arXiv上,論文編號為arXiv:2605.21625。研究團隊構建了一套名為FLAT-PACK BENCH的全新評測基準,專門用於檢驗當前最先進的大型視覺語言模型在理解複雜影片時的真實能力。
你有沒有這樣的經歷:拿到一套宜家家具,按照說明書一步一步組裝,腦子裡要同時記住哪根螺絲對應哪個孔,哪塊木板先裝,哪兩個部件要先接觸再固定。對人類來說,這件事雖然費腦子,但基本都能搞定。然而,當研究人員把同樣的任務交給目前全球最頂尖的AI視覺語言模型(也就是那種能同時看影片、看圖片、理解語言並回答問題的AI系統)時,結果讓人大跌眼鏡。
這正是這套測試基準想要探究的核心問題:那些在各種AI排行榜上光鮮亮麗的模型,真的理解影片裡發生了什麼嗎?還是說,它們只是在"背答案"、靠猜測矇混過關?
一、為什麼要用家具組裝來測試AI
普通人可能覺得,給AI看個影片問個問題,這有什麼難的?但研究團隊發現,現有的影片理解測試其實存在一個很大的漏洞:大多數測試問的都是"這段影片大概講了什麼"之類的宏觀問題,或者問"影片裡有沒有貓""這個人在做什麼"這類憑藉單張畫面就能回答的問題。這些測試並不能真正檢驗AI是否真的在"讀"影片——有沒有追蹤每個物件在時間軸上的變化,有沒有理解物件之間的互動關係。
家具組裝恰好是一個絕佳的測試場景。原因在於:家具的零件是剛性的,形狀不會變,全程保持同一個身份,這就排除了食物變形、液體流動這類額外干擾。組裝過程是分步驟的,每一步都有清晰的先後順序。整個過程在一個雜亂的視覺環境中進行,零件長得很像,很容易混淆。而且,組裝的核心行為——兩個零件從分離到接觸——是一種非常具體的物理互動,AI必須真正"看懂"才能回答相關問題。
研究團隊選取了來自網際網路的真實宜家家具組裝影片作為原始素材,這些影片來自IKEA-Manuals-at-Work(簡稱IMaW)數據集。這個數據集原本提供了家具的3D模型、零件的六自由度姿態以及部分關鍵幀的分割標註,但研究團隊發現原始標註存在明顯缺陷:一方面,標註只涵蓋正在被操作的零件,其餘零件完全沒有標記;另一方面,標註的粒度停留在"子組件"層面,而非每一個獨立零件。
為了解決這個問題,團隊成員手工為50段影片中的343幀畫面繪製了精細的零件分割標註,為每一個可見零件都畫出了獨立的輪廓。這項工作本身就相當耗時耗力,但這是整個測試基準得以成立的基礎。
二、測試設計:四道關卡,層層遞進
有了高質量的影片和標註之後,研究團隊設計了四類測試問題,每一類都針對AI在理解影片時的一種具體能力。
第一類叫做"零件配對"(MATE)。這類問題問的是:在這段組裝影片裡,某個零件會直接連接到哪個零件上?這考察的是AI對整體裝配結構的理解,以及它能否判斷哪兩個零件最終會物理接觸並固定在一起。
第二類叫做"時間定位"(TLOC)。給AI看一張顯示當前組裝狀態的圖片,然後問:下一步要連接的是哪個零件?或者剛剛最後連接的是哪個零件?這要求AI不僅看懂圖片,還要在影片時間軸上找到對應的位置,判斷"剛發生了什麼"或"接下來要發生什麼"。
第三類叫做"時間排序"(TORD)。給AI一組零件,讓它按照影片中這些零件被安裝的先後順序排列出來。這需要AI從頭到尾追蹤多個零件的狀態變化,記錄每一個連接事件發生的時刻,然後給出正確的時間順序。
第四類叫做"跨幀追蹤"(TRACK)。這是難度最高的一類。測試會給AI兩張來自同一影片不同時刻的圖片,兩張圖片裡的零件都做了標註,但標號被打亂了——比如圖A里標"4號"的零件,在圖B里可能被標成了"2號"。AI需要通過觀看影片,判斷圖A里的某個零件對應圖B里的哪一個零件。這本質上是在測試AI的跨時間追蹤能力。
為了讓問題的指向足夠清晰,研究團隊採用了一種叫做"視覺提示"的方法。具體來說,每道題除了影片之外,還配有一張或兩張參考圖片,圖片上的零件都用彩色遮罩覆蓋,並標有數字編號。問題中提到的零件直接用編號指代,而不是用"左邊的腿"或"頂部橫樑"這類可能造成歧義的文字描述。這樣做既避免了語言描述的模糊性,也防止了AI靠背誦常識來蒙答案。
與此同時,所有問題都經過了人工精心篩選。研究團隊發現,如果完全依賴自動生成題目,很容易出現"不看影片也能猜對"的漏洞。比如,某道題的圖片裡兩個零件已經明顯靠在一起了,答案不言而喻;或者干擾選項的外形與正確答案差異太大,一眼就能排除。為了確保每道題都真的需要理解影片才能作答,注釋員被要求仔細檢查,剔除所有存在"走捷徑"可能的題目。最終,這套測試基準包含了50段影片、602道多項選擇題,覆蓋了24種不同類型的宜家家具,每段影片平均涉及7個零件。
三、成績單出爐:AI與人類的差距驚人
研究團隊測試了數十款當前最具代表性的AI模型,包括商業閉源模型(GPT-5、Gemini系列)和開源模型(Qwen系列、InternVL系列、LLaVA系列等),以及一些針對特定能力專門訓練的模型。
人類參與者的成績首先給出了一個基準線:參與測試的電腦科學專業學生(從本科到博士層次)在四類問題上的準確率均超過90%,綜合平均準確率高達94.18%,而且其中80%的題目得到了所有參與者的一致回答,說明這些題目本身清晰明了,不存在歧義。
相比之下,AI模型的表現可以用"慘不忍睹"來形容。OpenAI最新的GPT-5模型綜合準確率僅為37.71%,谷歌的Gemini 2.5 Pro為33.72%,Gemini 3.1 Pro為32.89%。要知道,如果完全隨機猜測,準確率大約是26%左右。也就是說,這些頂級商業模型的表現,只比隨機亂猜好了大約10個百分點,與人類94%的水平相差了整整56個百分點以上。
開源模型中表現最好的是InternVL3-78B,綜合準確率為41.03%,略微超過了GPT-5,位居所有模型榜首。Qwen2.5-VL-72B以40.37%緊隨其後。這一結果說明,在某些細粒度視覺理解任務上,開源模型已經能與頂級商業模型一較高下,甚至略有優勢。然而,即便是最好的開源模型,與人類的差距依然懸殊。
那些專門為區域理解或時間敏感性訓練的模型,比如PerceptionLM和VideoRefer,表現同樣不盡如人意。PerceptionLM的訓練數據主要來自場景簡單、互動關係清晰的影片,面對家具組裝這種多零件、高相似度、密集交互的複雜場景,它明顯力不從心。ArrowRL在時間排序任務上略優於其基礎版本Qwen2.5-VL-7B,說明針對時間敏感性的專項訓練有一定效果,但提升幅度有限。
四、刨根問底:AI到底在哪裡栽了跟頭
面對如此糟糕的成績,研究團隊並沒有滿足於公布數字,而是進一步深入探究問題的根源。
第一個值得關注的發現是:AI根本沒有好好利用影片。研究團隊做了一個對比實驗:把影片從輸入中完全移除,只給AI看那一兩張參考圖片,讓它僅憑圖片回答問題。結果發現,在"跨幀追蹤"這類任務上,移除影片後AI的準確率確實明顯下降(下降了約24個百分點);但在"零件配對"和"時間定位"這兩類任務上,移除影片後AI的準確率反而略微上升了!
這說明一個令人不安的事實:在很多情況下,影片的存在反而給AI造成了干擾,而不是幫助。AI更傾向於依賴對圖片的靜態理解和自己積累的常識判斷——比如"這兩個零件的形狀和位置關係,看起來像是要連在一起的"——而不是真正去追蹤影片中發生了什麼。與此形成鮮明對比的是,把影片移除後,人類的準確率從94%驟降到了43%,說明人類確實依賴影片來回答這些問題,而AI很多時候沒有。
第二個發現是"零件編號偏見"。在時間排序任務的測試中,有一個奇怪的現象:移除影片後,AI在這類任務上的準確率幾乎沒有變化。按道理,移除影片應該讓時間排序變得更難才對。研究團隊懷疑是因為問題中的零件編號順序暗示了答案——比如"先裝0號,再裝2號,再裝3號"這樣的順序,恰好跟編號從小到大的直覺吻合。為了驗證這一猜測,他們重新打亂了所有零件的編號,多次實驗後發現,準確率確實下降了,證實了AI確實在利用編號順序來"猜"答案,而不是真正理解組裝流程。
第三個發現來自對AI自我解釋的深入分析。研究團隊讓Gemini 2.5 Pro在回答問題時輸出其內部的思考過程,然後讓人類注釋員分析這些思考記錄,找出AI出錯的具體原因。他們從200道答錯的題目中歸納出了五類錯誤:第一類是"物體定位錯誤",占37.28%,AI無法正確識別圖片和影片中同一個零件的對應關係;第二類是"時空推理錯誤",占32.45%,AI在追蹤零件時因為鏡頭切換、視角旋轉、場景變化而弄混了零件的身份;第三類是"時間推理錯誤",占17.98%,AI把多個連接事件的先後順序搞錯了;第四類是"物理交互錯誤",占7.89%,AI無法判斷兩個零件是否真的接觸在了一起;第五類是"語言與邏輯錯誤",占4.38%,AI誤解了題目要求或從正確的觀察中得出了錯誤的結論。
其中"物體定位錯誤"和"時空推理錯誤"合計接近70%,說明AI最核心的弱點就是:在一個雜亂的視覺場景中,跨越時間維度來追蹤和識別某個特定零件,這件對人類來說輕而易舉的事,對AI來說卻極為困難。
五、鏈式思考幫不了忙,分工合作也難解圍
既然普通問答不行,研究團隊也嘗試了一些常見的"增強策略",結果同樣不令人樂觀。
一種廣泛使用的策略叫做"鏈式思考提示",也就是要求AI在給出答案之前先一步一步解釋自己的推理過程。這個方法在純語言推理任務(比如數學題、邏輯謎題)上往往能大幅提升準確率。然而在這套測試中,加入鏈式思考提示後,AI的準確率不升反降。更進一步地,即使採用"自我一致性"方法——讓AI在不同隨機種子下生成5個不同的回答,然後用多數投票選出最終答案——準確率也沒有改善,反而進一步下滑。這說明,純靠語言層面的推理策略,無法彌補AI在視覺時空理解上的根本性缺陷。
另一種策略是視覺提示的呈現方式。研究團隊嘗試了三種不同的視覺輸入格式。"混合媒體"格式是把參考圖片單獨作為一張圖片提供,與影片分開;"拼貼"格式是把參考圖片拼在影片每一幀的左側,形成橫向並排的畫面;"拼接"格式是把參考圖片直接插入影片的最開始幾幀。實驗結果顯示,對於Qwen2.5-VL-72B來說,"混合媒體"格式效果最好,這可能是因為該模型的訓練數據本身就包含大量圖片和影片混合的樣本,因此對這種輸入格式更熟悉;對於InternVL3-78B來說,則是"拼接"格式效果最好,原因類似——該模型的訓練數據以純圖片序列和純影片為主,混合圖文影片的格式反而不擅長處理。此外,影片是否經過剪輯(去除無關片段的"剪輯版"與僅保留關鍵幀的"關鍵幀版")對整體準確率影響不大。在視覺提示的渲染細節上,標註的顏色是否高對比、字體大小是否更大,影響也相當有限;但如果把零件的顏色遮罩、輪廓邊框和數字標籤三者都保留,比僅保留其中一兩種效果要好得多。
六、分而治之:讓專業工具來幫忙,結果更慘
研究團隊還想出了一個頗具創意的思路:既然讓AI直接理解影片太難,能不能把任務拆解開,用專門的工具分別解決追蹤和接觸判斷兩個子問題,然後把結果整合起來?
為此,他們設計了一個叫做"時間影片智能體"(TVA,Temporal Video Agent)的系統。這個系統的工作方式類似於一個擁有兩名專家助手的偵探:一名助手(SAM2,Meta開發的影片分割追蹤模型)負責在影片中追蹤每個零件的位置,另一名助手(Qwen2.5-VL-32B)負責回答"這兩個零件在當前幀里接觸了嗎"之類的視覺問題。智能體的"大腦"是Gemini 2.5 Pro,它接收問題後,會生成一段Python程序來調用這兩名助手,最終匯總結果給出答案。
然而這套系統的表現更加糟糕,綜合準確率僅為11.79%,而且有高達62.29%的題目直接放棄作答(選擇"不確定"選項)。追究原因,研究團隊發現兩名"專家助手"本身的能力就嚴重不足。
在追蹤方面,SAM2被要求從一幀出發,追蹤多個零件到影片的另一幀。評估結果顯示,SAM2追蹤到的區域與真實標註之間的重疊度(IoU,交並比)平均僅有0.28,也就是說追蹤結果有七成以上是錯的。家具零件在組裝過程中頻繁旋轉、互相遮擋、被人手遮住,這些都大大超出了SAM2的處理能力。
在接觸判斷方面,研究團隊用1500道獨立的二選一問題測試了Qwen2.5-VL-32B的判斷能力(750道"這兩個零件在最終組裝狀態下是否接觸"的正例,750道負例)。模型的總體準確率為64.33%,但在需要判斷"確實接觸"的正例上,準確率僅有52.93%,幾乎跟隨機猜測一樣差。這說明AI對物理接觸這一概念的視覺理解極為薄弱——明明兩個零件已經拼在了一起,AI卻常常無法確認這一事實。
這一系列發現共同指向了同一個結論:問題不只出在AI的"頂層推理"上,而是深入到了視覺感知的基礎層面。即便是最專業的追蹤模型和視覺問答模型,在面對這類雜亂、動態的真實世界場景時,都存在根本性的能力短板。
歸根結底,這項研究揭示了一個清醒的現實:當前的AI視覺模型,無論在排行榜上看起來多麼耀眼,在處理需要細粒度時空理解的真實複雜場景時,仍然處於相當初級的階段。
說到底,把組裝家具這件日常小事變成一塊"照妖鏡",是這項研究最聰明的地方。它用一個人人都能理解的場景,精準地戳中了當前AI視覺理解能力的軟肋:面對一段雜亂的真實影片,AI既認不清哪個是哪個,又記不住誰先誰後,更看不出哪兩個零件碰在了一起。而這些,恰恰是人類在看第一遍影片時就能輕鬆完成的事。
對於普通讀者來說,這項研究的意義在於:下次看到某款AI被宣傳為"理解影片"的時候,不妨多一些審慎。它所謂的"理解",很可能只是在回答"這段影片大概講了什麼",而不是真正追蹤影片裡每一個細節隨時間的演變。當你真正需要AI幫你在一段操作影片裡找出"第三步之後哪個零件被裝上去了"時,目前的AI很可能會讓你大失所望。
當然,研究團隊並沒有在悲觀中止步。他們指出,未來可以探索的方向包括:利用合成的3D仿真數據進行針對性的精調訓練、開發更好的視覺區域理解提示技術,以及構建能夠利用3D幾何資訊和深度資訊的更複雜的多智能體系統。這些方向並非遙不可及,只是需要時間。
這項研究發布在arXiv平台,編號arXiv:2605.21625,感興趣的讀者可以通過這個編號找到完整論文,深入了解每一個實驗細節和數據結果。
Q&A
Q1:FLAT-PACK BENCH測試基準和現有影片理解測試相比,最大的區別是什麼?
A:FLAT-PACK BENCH專注於"細粒度時空理解",也就是要求AI真正追蹤影片中每個零件在時間軸上的變化、判斷零件之間何時發生物理接觸,以及恢復零件的跨幀對應關係。現有的影片測試大多只問"影片大概講了什麼"或識別簡單動作,不要求AI追蹤多個視覺相似的物體在複雜場景中的時間演變,因此難度和考察維度完全不同。
Q2:GPT-5這樣的頂級模型為什麼在家具組裝影片問答上表現這麼差?
A:主要原因有三層。首先,家具零件外形高度相似,在雜亂場景中很難區分。其次,AI並沒有真正利用影片的時間資訊,而是更多依賴單幀圖片的靜態判斷和常識推測。最後,AI對"兩個零件是否物理接觸"這類具體的空間互動判斷能力極弱,即使是專門的視覺模型在這類問題上的準確率也只比隨機猜測稍好一點。
Q3:FLAT-PACK BENCH中的"視覺提示"是什麼,為什麼要用它而不是文字描述零件?
A:視覺提示是從影片中抽取的參考圖片,圖片上的每個零件都用彩色遮罩覆蓋並標註數字編號。用文字描述零件(比如"左邊的腿")在對稱結構中容易產生歧義,而且可能讓AI靠背誦家具常識來猜答案,而不是真正理解影片內容。視覺提示通過直接標註圖像的方式明確指定零件,既消除了語言歧義,也強制要求AI結合視覺資訊來作答。






