這項由清華大學領導的研究以預印本形式發布於2026年6月,編號為arXiv:2606.29445,有興趣深入了解的讀者可以通過該編號查詢完整論文。
當你想學一道新菜,最自然的做法是找一個影片教學來看。你會一邊看廚師的操作,一邊在腦子裡記下每個關鍵步驟:先熱鍋,再放油,蔥姜爆香,接著下主料。看完影片,你能把這些步驟遷移到自家的廚房裡,即使灶台的型號不同、鍋的大小有別,你依然能做出差不多的效果。這種"看了就能做"的能力,對人類來說稀鬆平常,但對人工智慧來說,卻是一道至今仍未完全跨越的門檻。
清華大學的研究團隊正是盯准了這個問題。他們發現,目前市面上的AI影片理解能力測試,大多只考察模型能不能"看懂"影片裡發生了什麼——比如"影片裡有幾只貓""那個人在做什麼"。這就好比只考廚師"能不能讀懂菜譜上的字",而不考"能不能真正做出菜來"。於是,這支團隊做了兩件事:一是設計了一套更難的考試,真正檢驗AI能不能把影片裡學到的知識用到實際操作上;二是發明了一種更聰明的"剪輯方法",幫AI在茫茫影片中找到最關鍵的畫面。
這兩項成果分別叫做VG-GUI-Bench(影片引導圖形界面基準測試)和TASKER(任務驅動且場景感知的關鍵幀搜索器)。前者是那道更難的考題,後者則是幫AI更好地完成這道考題的工具。
一、為什麼現有的"影片理解考試"太簡單了
每當一項新技術出現,研究者都需要一把"尺子"來衡量它到底做得有多好。對AI影片理解來說,這把尺子通常是"影片問答"測試——給AI看一段影片,然後問它問題,看它答得對不對。
問題在於,這類考題大多停留在"看圖說話"的層次。AI只需要識別出影片裡的物體、人物和簡單動作,就能拿到不錯的分數。這就像是期末考試只考填空題,完全不考"寫一篇作文"或"解一道應用題"。一個只會死記硬背的學生,也許能在填空題上表現不錯,但真正遇到需要理解、推理和運用知識的題目,就露餡了。
清華大學的研究團隊把影片理解的難度分成了兩個層次,並用"從感知到行動"這條線索貫穿始終。第一個層次是基礎層,也就是傳統的影片問答:AI需要找到影片中與問題相關的時間段,理解畫面內容,再結合問題進行推理,給出答案。這一層考的是"看懂"。第二個層次則是進階層,叫做"影片引導的智能體任務":AI不僅要看懂影片教學裡的步驟,還要把這些步驟轉化為實際的操作動作,在一個全新的環境裡完成類似的任務。這一層考的是"做出來"。
以一個具體場景為例:AI看完一個"如何在Discord上修改賬號密碼"的教學影片,然後面對一個真實的手機界面,需要一步步地點擊、滑動、輸入,真正把密碼改掉。這要求AI不僅記住了教學裡的步驟,還能把這些步驟靈活地遷移到眼前這個可能略有差異的新界面上。這種能力,研究團隊稱之為"影片上下文學習",本質上就是"看影片長本事"。
二、VG-GUI-Bench:這道更難的考題長什麼樣
為了真正測試AI的這種高階能力,清華大學團隊設計了VG-GUI-Bench,一個包含1000個測試案例的基準測試集。每個案例都由兩部分組成:一段操作教學影片,以及一個對應的手機界面操作任務。AI需要看完影片,然後在真實的手機界面上完成任務。
測試的數據來源於一個名為MONDAY的高質量數據集,研究團隊從中獲取了教學影片、標準操作序列以及關鍵截圖作為評判依據。每個測試案例平均包含約10.71個操作步驟,這意味著AI需要持續地、連貫地做出一系列決策,而不是只答一個問題就結束——這就是所謂的"長時程任務",難度遠高於單步問答。
為了讓這套考試更加規範,研究團隊還統一了"操作語言"。此前不同研究往往各自定義一套操作命令,混亂而缺乏一致性。這套新規範定義了六種標準操作:在螢幕某個坐標點擊(CLICK),從一個位置滑動到另一個位置(SCROLL),輸入文字(TYPE),按下系統按鍵比如返回或回車(PRESS),執行雙指縮放手勢(ZOOM),以及宣告任務完成(FINISH)。這六種操作覆蓋了手機交互的核心場景,清晰明確,方便統一評判。
考試的流程是這樣的:AI先接收一段教學影片,經過關鍵幀篩選模組處理後,得到若干代表性畫面;這些畫面與任務說明一起構成輸入,AI據此預測下一步該執行的操作;操作被執行到真實的手機界面上,產生新的界面狀態;AI再看著新狀態,預測下一步操作……如此循環,直到任務完成。
為了全面評判AI的表現,研究團隊設計了四個互補的評分維度。第一個叫"準確率",衡量每一步操作預測的正確程度:如果操作類型猜對了,得0.3分;如果類型和具體參數(比如點擊的坐標)都猜對了,再加0.7分,合計滿分1分。第二個叫"完成率",衡量每個任務中正確完成的步驟比例,再對所有任務取平均。第三個叫"效率",衡量每次預測平均消耗了多少幀影片畫面,幀數越少說明篩選越高效。第四個叫"影片提升率",衡量看了影片之後比不看影片時準確率提升了多少,這個指標直接反映了AI從影片裡"學到了多少東西"。
三、TASKER:像偵探一樣在影片裡找關鍵線索
考試設計好了,接下來的問題是:如何幫助AI更好地"看影片"?
一段教學影片可能長達幾分鐘甚至十幾分鐘,其中大部分畫面都是無關緊要的過渡鏡頭、空白等待,或者重複操作。真正關鍵的資訊,也許只集中在幾秒鐘之內。如果AI把每一幀都看一遍,既浪費時間,又容易被冗餘資訊干擾;如果只是隨機抽幾幀來看,又很可能錯過最關鍵的那幾個瞬間。
這就像偵探破案時面臨的困境:案發現場留下了大量痕跡,大多數都是無關線索,真正指向兇手的關鍵證據可能只有幾件。高明的偵探不會對每一條線索一視同仁,而是憑藉對案件的理解,優先調查最有可能揭示真相的方向。
TASKER正是這樣一位"智能偵探"。它的核心思路是把"找關鍵幀"這件事,建模成一個圖搜索問題——就像在地圖上找最優路徑一樣。影片被劃分成若干片段,每個片段就是地圖上的一個節點;TASKER的任務,就是找到那些"最值得深入探查"的節點,把它們進一步細分,直到找到足夠有價值的關鍵幀。
具體來說,TASKER首先把影片均勻切成若干段,每段的起始幀和結束幀是"可見幀",其餘幀暫時不可見。然後,它根據一個"代價函數"來判斷哪個片段最值得進一步切分——把這個片段再一分為二,獲取更多細節。如此反覆,就像偵探逐步縮小嫌疑人範圍一樣,最終鎖定關鍵畫面。
TASKER有四種不同的搜索策略,分別對應四種不同的偵查風格。
第一種叫TASKER-GBFS,採用"貪婪最優優先"策略。它的偵查邏輯是:始終優先審查那個"最可能藏有關鍵線索"的片段。具體實現上,AI會評估當前可見幀,判斷回答問題還缺少什麼資訊,然後估計這些缺失資訊最可能出現在哪個片段里,優先把那個片段切開來看。這種策略目標明確,直奔最相關的內容,效率很高。
第二種叫TASKER-Dijkstra,採用"場景感知"策略。這種偵查方式不關心任務目標,而是專注於尋找影片本身結構上最重要的轉折點。AI會評估每個片段的起始幀和結束幀之間的畫面差異,選擇差異最大的片段進行切分——因為畫面變化越大,說明那裡發生了重要的場景切換,很可能包含關鍵操作。這就像偵探不看案件檔案,而是先把現場最顯眼的異常點一一記下來。
第三種叫TASKER-A*,把前兩種策略結合起來。它同時考慮兩個因素:這個片段是否可能包含回答問題所需的資訊,以及這個片段的畫面變化是否顯著。只有同時滿足這兩個條件的片段,才會被優先切分。這種策略兼顧了目標導向和結構感知,理論上是最全面的。
第四種叫TASKER-BFS,採用"廣度優先"策略,不依賴AI來評估,而是均勻地把所有片段依次切分,像浪潮一樣穩步推進。這種方式不需要複雜的推理,適合在無法使用大型AI模型的情況下使用,缺點是效率較低,處理的幀數更多。
搜索過程中,TASKER還有兩個配套機制。一是"置信度評估":每次篩選出一批可見幀後,AI會嘗試回答問題,並同時從兩個角度評估自己的答案是否足夠可靠。第一個角度是"自我反思",AI自己評判答案的準確性和可靠性,給出一個置信度分數。第二個角度是"時序總結",AI把所有可見幀的內容在時間維度上串聯起來,形成一個連貫的影片概述,再基於這個整體認知給出答案和置信度。只有當兩種評估方式都認為"資訊已經足夠了",搜索才會停止。這就像偵探在破案時,不僅要自己覺得證據充分,還要能向同事清晰地講述整個案情,才算真正結案。
二是"幀驗證":每次新切分出一幀,都會先檢查它是否與已有幀高度重複,再檢查它是否與當前任務相關。重複或無關的幀會被丟棄,相關幀的附近如果有更好的替代幀,會自動替換。那些只能產出冗餘幀的片段,會被放入"凍結集合",不再重複探查。這套機制保證了最終選出的幀既不重複,又真正有用。
四、實驗結果:TASKER在兩類考試上都交出了亮眼成績
研究團隊在多個測試平台上驗證了TASKER的效果,結果相當有說服力。
在傳統影片問答測試上,研究團隊選取了EgoSchema和NExT-QA兩個廣泛使用的數據集。EgoSchema專注於第一人稱視角的長影片理解,每段影片約三分鐘,人類答題準確率約為76%,而當時最好的AI模型也只能達到70%以下。NExT-QA則側重於考察AI對影片中因果關係和時序關係的理解能力,問題分為因果類、時序類和描述類三種。
以GPT-4作為底層AI的TASKER,在EgoSchema完整測試集上達到了63.1%的準確率,比此前最好的基線方法(VideoTree)高出2.0個百分點;在NExT-QA上達到了77.4%的平均準確率,比最好的基線高出1.8個百分點。在因果、時序、描述三個子類上,TASKER也分別超越了最強對手。
更值得關注的是幀效率。在EgoSchema子集上,當所有方法處理相同數量的影片幀時,TASKER能達到更高的準確率。換一個角度來看:要達到相同的66%準確率,TASKER只需要處理大約VideoTree所需幀數的四分之一。而且,VideoTree在使用之前需要對影片的所有幀進行特徵提取和聚類,TASKER則完全不需要這個預處理步驟——它只看"可見幀",其餘幀根本不碰,大大減少了計算開銷。整體來看,TASKER在達到相同性能時,大約只需處理全部幀數的15%左右。
在新設計的VG-GUI-Bench上,研究團隊對比了多種方案。不看影片直接操作的基線,準確率最低(25.32%)。把所有關鍵幀都提供給AI的方案,準確率有所提升(37.21%),但這些幀數量多且不一定全部有用,效率較低。均勻採樣10幀的方案表現穩定(39.82%),因為全局畫面覆蓋較好。而"作弊版"的最優參考(直接給AI看當前步驟對應的教學幀,還標註了正確的操作目標),準確率達到44.32%,但這種方式會讓AI過度依賴視覺模仿,導致需要輸入文字或按系統鍵的操作完全失敗,因為這些操作沒有視覺目標可以直接複製。
在這套對比中,TASKER-A*取得了最高的整體準確率(40.96%)和最高的影片提升率(0.618),意味著它從影片中學到的東西最多,對操作準確率的提升最為顯著。TASKER-Dijkstra則在任務完成率上表現突出(74.39%),接近最優參考的上限(76.32%)。與VideoTree和VideoAgent相比,TASKER系列方法在更少的幀數下實現了更高的準確率,體現出更強的資訊提取效率。
在更大範圍的模型評測上,研究團隊還構建了一個包含7個前沿模型的VG-GUI-Bench排行榜。谷歌的Gemini-3.1-Pro在所有條件下都排名第一,GPT-5-mini緊隨其後,Kimi-K2.5排名第三。所有模型中,Seed-2.0-Pro在加入10幀影片後,準確率提升幅度最大,從35.93%躍升至39.78%。這說明影片確實能給AI帶來有效的操作知識,即便只是均勻採樣的少量幀。
五、內部拆解:哪些設計最關鍵
研究團隊還對TASKER的各個設計選擇做了細緻的"拆解實驗",逐一驗證每個部分的貢獻。
在搜索策略的對比上,TASKER-BFS雖然不需要AI進行代價函數評估,但它處理的幀數最多(平均31.2幀),準確率卻最低(64.7%)。TASKER-GBFS(67.0%,平均27.3幀)和TASKER-Dijkstra(66.8%,平均27.6幀)都有明顯提升,而TASKER-A*在準確率上再上一層(68.0%),代價僅是略微多處理了一點幀(27.9幀)。這說明任務驅動和場景感知兩個維度確實是互補的,把它們結合起來能取得最佳效果。
在置信度評估機制上,單獨使用"自我反思"方式得到67.4%的準確率,單獨使用"時序總結"方式得到67.3%,而兩者結合(投票機制)達到68.0%,同時幀數消耗也處於合理水平(27.9幀)。這表明兩種評估方式從不同角度衡量資訊充分性,結合起來更可靠。
在底層AI模型的選擇上,GPT-4o是最佳選擇(68.6%,幀效率也最高),GPT-4緊隨其後(68.0%)。有意思的是,推理能力更強的o3-mini和Deepseek-R1反而略遜一籌,研究團隊認為這可能是因為視覺推理任務並不需要特別複雜的邏輯鏈,過度"思考"反而不如快速判斷有效。開源模型LLaMA-3.3-70B表現最弱(65.2%),但仍然優於許多之前的基線方法。
六、和影片理解AI的正面對比
有人可能會問:既然現在有那麼多專門處理影片的AI模型,直接用它們不就好了?研究團隊對這個問題給出了坦誠的回答。
從性能上看,頂尖的端到端影片AI確實比TASKER更強。比如VideoLLaMA2使用了720億參數的巨型模型,在EgoSchema上達到63.9%,在NExT-QA上達到75.6%,與TASKER使用GPT-4的成績接近甚至略有超出。但這類模型的訓練成本極其驚人——VideoLLaMA2用了1360萬條訓練數據,需要32塊80GB顯存的A100顯卡才能完成訓練。ViLA雖然規模較小(40億參數),訓練成本也低一些,但在EgoSchema上沒有提供完整結果。
TASKER的優勢在於完全不需要訓練,直接調用現成的AI模型即可使用,沒有任何額外的訓練開銷。同時,它在推理階段也更節省資源,因為只處理篩選後的少量關鍵幀,而不是整個影片的所有幀。此外,TASKER的推理過程是透明的——哪些幀被選中、為什麼被選中、AI在每一步的推理是什麼,都是可以追溯的,這在某些需要可解釋性的應用場景中是重要優勢。
研究團隊的結論是:兩類方法各有適用場景。如果對精度要求極高、不在乎計算成本,端到端影片AI是更好的選擇;如果希望在性能和成本之間取得平衡,或者需要可解釋性,TASKER這類無需訓練的關鍵幀方法更實用。
說到底,這項研究揭示了一個被長期忽視的問題:我們對AI影片理解能力的評估,一直停留在太淺的層次上。就像只考學生認字,從不考他們能不能讀懂一篇文章、能不能按照說明書組裝家具一樣,現有的測試體系給了我們一個虛假的安全感。
清華大學團隊的兩項貢獻——VG-GUI-Bench和TASKER——分別從"提出更難的考題"和"提供更聰明的工具"兩個方向,推動了這個領域向更實用的方向邁進。VG-GUI-Bench把"看影片學操作"這件事變成了一個可以量化、可以對比的測試;TASKER則像一個受過專業訓練的助理,幫AI在浩如煙海的影片幀中精準定位最有價值的畫面,同時兼顧了"找到了沒有"和"花了多少時間"兩個維度。
對普通用戶來說,這項研究的意義在於:未來那些幫你"看影片學技能"的AI助手,也許會因為這類技術的進步而變得真正好用——不只是告訴你影片裡發生了什麼,而是真正幫你把影片裡的知識轉化為可執行的步驟,陪你一起完成任務。
對這項研究感興趣的讀者,可以通過arXiv編號2606.29445找到完整論文,也可以訪問研究團隊的項目頁面和代碼倉庫獲取更多技術細節。
Q&A
Q1:VG-GUI-Bench和普通的影片問答測試有什麼本質區別?
A:普通影片問答只考察AI能否"看懂"影片裡發生了什麼,比如識別物體或動作,回答選擇題就算完成。VG-GUI-Bench要求AI先看完操作教學影片,然後在真實的手機界面上一步步執行對應的操作,比如點擊、滑動、輸入文字,平均要完成約10.71個連續步驟。這考察的是AI能否把影片裡的知識真正遷移到新環境中使用,難度遠高於傳統問答。
Q2:TASKER比均勻抽幀的方法好在哪裡?
A:均勻抽幀是每隔固定時間取一幀,無論那個時間點有沒有關鍵內容。TASKER則會根據任務需求和畫面變化程度,動態決定在哪個時間段"深挖",優先選取那些最可能包含關鍵操作的片段進行細分。實驗數據顯示,要達到相同的答題準確率,TASKER處理的幀數大約只有VideoTree方法的四分之一,整體上只需要處理全部影片幀的約15%。
Q3:TASKER需要額外訓練才能使用嗎?
A:不需要。TASKER是一種完全免訓練的方法,它利用現成的大型多模態AI模型(比如GPT-4o)來評估影片片段的重要性和回答的置信度,本身不需要任何額外的模型訓練或數據標註。這意味著它可以直接搭配不同的底層AI模型使用,靈活性較高,部署成本也遠低於需要大規模訓練的端到端影片AI。






