這項由中國傳媒大學媒體資訊與內容生產研究組(MIPG)聯合新加坡國立大學、USEIT AI共同完成的研究,於2026年5月以預印本形式發布,論文編號為arXiv:2605.19484。感興趣的讀者可通過該編號查找完整論文。
你有沒有想過,用AI生成幾段影片素材之後,下一步要做什麼?生成影片這件事,AI已經越來越厲害了——用Keling、即夢這樣的工具,輸入一段文字描述,幾秒鐘就能生成一段影片片段。但"生成片段"和"做出一部完整的影片"之間,還隔著一座大山:你得把這些素材導入專業軟體,剪輯、調色、加特效、對齊音頻,然後才能導出成品。這個過程對普通人來說費時費力,對AI來說同樣是個巨大的挑戰。
正是為了測試AI是否真的能勝任這項工作,研究團隊構建了一個叫做 **CutVerse** 的測試平台。這個平台專門用來考驗AI智能體(也就是能夠自主操作電腦的AI程序)在真實專業影片編輯軟體中的實際表現。測試結果說實話有些令人哭笑不得——即便是當今最強的AI模型,在複雜的影片後期製作任務上,成功率也只有36%左右。這意味著,讓AI獨立完成一個專業影片項目,目前還遠遠沒有到"隨叫隨用"的程度。
研究團隊還藉此提出了一個新的創作範式,他們稱之為"氛圍剪輯"(Vibe Cutting):AI生成工具負責提供原始素材,AI智能體負責在專業軟體里完成後續的所有編輯工作,整個流程從創意到成片,儘可能減少人工干預。這是一個很有吸引力的願景,但從測試數據來看,通往這個願景的路還很長。
一、為什麼要測AI剪影片——一個被忽視的巨大挑戰
在討論CutVerse之前,有必要先搞清楚"AI智能體操作電腦"這件事的背景。研究領域有一類專門的AI,不是用來生成圖片或回答問題的,而是能夠像人一樣盯著電腦螢幕、移動滑鼠、點擊按鈕、輸入鍵盤,從而完成各種電腦操作任務。這類AI被稱為"電腦使用智能體"(Computer Use Agent,簡稱CUA)。
近年來,這類AI在一些常規任務上表現得相當不錯,比如在網頁上搜索資訊、填寫表格、整理文件夾。就好像一個剛參加工作的新員工,處理日常行政工作沒什麼大問題。但當你把他推進一個專業的影片剪輯間,面對Adobe Premiere Pro那密密麻麻的界面,要求他完成一個包含調色、音頻對齊、特效疊加的完整項目時,情況就完全不同了。
專業影片軟體的界面密度極高,光是After Effects的工具欄,就密密麻麻排著幾十個沒有文字標註的圖標。操作流程非常長,一個簡單的"給影片加一個轉場效果",可能需要先找到效果面板、搜索對應效果、把它拖到時間軸的精確位置、雙擊打開參數設置、調整數值——任何一步出錯,整個操作就失敗了。此外,這些操作還涉及多個軟體之間的協作,比如先在ComfyUI里生成素材,再在Premiere里剪輯,再在DaVinci Resolve里調色,最後導出。這種跨軟體的工作流程,對AI來說是一個全新的、極其困難的挑戰。
現有的AI測試平台幾乎沒有覆蓋這個領域。大多數平台測試的是簡單的網頁操作或基礎的文件管理,沒有專門針對專業創意軟體的系統性評測。CutVerse的出現,就是為了填補這個空白。
二、CutVerse是怎麼搭建的——一套精心設計的考題庫
研究團隊構建CutVerse的過程,有點像大學教授設計一門專業課的期末考試——既要覆蓋所有重要知識點,又要有足夠的區分度,還要保證考題真實反映實際工作中的需求。
整個過程從招募專業人員開始。研究團隊請來了10位在影片後期製作和AI創作工具上都有豐富經驗的專業創作者。這些人不是普通的兼職標註員,而是真正的行業從業者,他們的工作就是在Premiere Pro、After Effects這些軟體里摸爬滾打。
這10位專業人員總共設計並錄製了186個任務,涵蓋7款專業軟體:Adobe Premiere Pro、Adobe After Effects、Adobe Photoshop、DaVinci Resolve、即夢(JianYing)、可靈(Keling)和ComfyUI。這186個任務並不是隨機堆砌的,而是按照真實的影片製作流程精心分類,分成了九大類別。
這九大類別從簡單到複雜依次是:軟體啟動與初始設置(最基礎的操作,比如打開軟體、新建項目)、預覽與驗證(檢查操作是否正確)、生成式工作流(在AI生成工具中使用提示詞)、資產導入與管理(把素材文件導入軟體)、導出與交付(把成品導出)、時間軸編輯與排列(在時間軸上剪輯影片片段)、音頻與節拍編輯(處理背景音樂、音效對齊)、效果與視覺調整(添加特效、色彩校正)、遮罩與追蹤(在影片中對特定區域進行精細控制)。
每一個任務,專業人員在錄製操作影片時,同時記錄下每一次滑鼠點擊和鍵盤按鍵的精確坐標和時間。這些原始錄像和操作日誌隨後被送進研究團隊開發的一套"解析器"(Parser)進行處理。這個解析器就像一個細心的速記員,能把長達幾分鐘的操作錄像,精確地分解成一步一步有意義的操作序列,每一步都標註著"這一步之前螢幕是什麼狀態"和"這一步之後螢幕發生了什麼變化"。
更重要的是,解析器還會把每個完整任務拆分成若干個"里程碑"(Milestone)。好比爬一座山,最終目標是到達山頂,但沿途有幾個必須經過的檢查站——通過了1號營地、2號營地,才能到達頂峰。每個裡程碑都有配套的視覺問答題:在這個階段,螢幕上應該出現什麼?AI必須真正完成這個操作,而不僅僅是"聲稱"自己完成了。
這套設計非常巧妙,因為它解決了一個評估AI的核心難題:如何判斷AI是真的做對了,還是只是在說"我已經完成了"?通過逐一核對每個裡程碑的視覺狀態,測試系統能精準定位AI在哪一步卡住了。
三、測試環境的搭建——讓AI真的去"動手"
光有考題還不夠,還需要一個真實的考場。研究團隊搭建了基於Windows虛擬機的測試環境,每個任務開始時,虛擬機都會從一個預先保存的精確狀態(稱為"檢查點")啟動,確保每次測試的起始條件完全一樣,就像每次考試前把試卷整整齊齊擺在桌上,一道題都不多一道題都不少。
AI智能體在這個虛擬機里的操作方式,和真人完全相同:它能看到螢幕截圖,然後決定下一步要點擊哪裡、要按哪個鍵。它無法使用任何"作弊"手段——比如直接調用軟體的後台接口、讀取隱藏的文件數據——只能憑藉"看螢幕"來操作,就像一個蒙著眼睛只能靠觸摸來工作的人……不對,更準確地說,是只能靠眼睛但沒有手的人——它能看見,然後發出指令,讓虛擬的滑鼠和鍵盤執行動作。
在評估方面,研究團隊採用了"VLM作為裁判"的方式。當AI完成一個任務後,系統會用GPT-5.4和Claude-4.6-Opus兩個強大的語言模型來逐一檢查每個裡程碑是否真的達成了——通過對比截圖和預設的問答題來判斷。為了驗證這個自動評判系統的可靠性,研究團隊還專門做了人工對照研究:讓專業人員和自動系統分別評判300個操作軌跡,結果兩者的吻合率高達98.3%到99%。換句話說,這套自動評判系統幾乎和專業人員的判斷一樣準確。
四、數據背後的故事——這186個任務到底有多難
在正式匯報測試結果之前,先來感受一下這套題目的難度。整個數據集的錄製時間超過2.43小時,包含3484個獨立的操作動作,平均每分鐘發生23.8次操作。每個任務平均需要18.73步操作才能完成,而最複雜的任務甚至需要239步。
作為對比,常見的網頁操作類AI測試平台,任務平均只需要幾步到十幾步。18.73步的平均值已經遠超這些平台,而239步的極端案例則相當於讓AI自動完成一個需要人類操作者盯著螢幕專注工作將近4分鐘的複雜項目。
再來看操作類型的分布,這個細節很能說明問題。在所有3484個操作中,滑鼠在時間軸上的操作占了總操作量的46.07%,而對圖層和軌道的控制操作占了25.32%。這兩類加起來超過70%的操作,都是對著那些像河流一樣橫跨螢幕的"時間軸"進行的。時間軸操作和網頁上點擊按鈕完全不同——沒有明確的邊界,沒有標準的標籤,需要精確到像素級別的拖拽和定位。對AI來說,這不是"找到寫著'確認'的按鈕然後點擊",而是"找到時間軸上第3.2秒的位置,然後在那裡精確地剪斷影片"。
九大類任務中,複雜度各有不同。效果與視覺調整任務和遮罩追蹤任務被標記為"極限難度",前者平均需要20.27步操作、耗時52.81秒,後者平均需要25.40步、耗時更是高達72.98秒。相比之下,軟體啟動任務只需平均7.56步、31.18秒,難度標記為"低"。這種差異清晰地勾勒出一張專業影片製作技能的難度地圖。
五、成績單出來了——AI們的表現令人五味雜陳
研究團隊選取了5款代表性的AI模型參加測試,涵蓋了目前業界最強的選手。其中有兩款商業閉源模型:Anthropic公司的Claude-Opus-4.6和Google DeepMind的Gemini-3-flash;還有三款開源模型:阿里巴巴的Qwen3-32B、字節跳動旗下的UI-TARS-1.5-7B,以及美團的EvoCUA-32B。這5款模型代表了目前AI智能體領域的頂尖水平。
測試在統一的Windows 11 Pro虛擬機環境下進行,每次測試開始時系統狀態完全相同。AI模型在每一步操作時,能看到當前螢幕截圖和最近5次操作的歷史記錄,但不會得到"下一步應該做什麼"的提示——它必須自己判斷。
整體成績來看,Claude-Opus-4.6表現最好,整體任務成功率為68.3%;Gemini-3-flash緊隨其後,達到67.2%。開源模型中EvoCUA-32B表現最佳,成功率51.6%;Qwen3-32B為48.4%;UI-TARS-1.5-7B最低,僅有44.1%。
然而,這些數字需要放在具體背景下才有意義。當研究人員把任務按類型分開來看時,畫面就變得更加有趣——或者說更加殘酷了。
在"程序性操作"類任務(包括軟體啟動、導出交付、資產管理、預覽驗證)上,所有模型表現都相當出色。以生成式工作流任務為例,5款模型全部獲得了滿分1.000,就是說每次測試全部成功。導出與交付任務中,Claude成功率達到1.000,其他模型也都在0.917左右。這些任務的共同特點是操作步驟相對固定、有明確的視覺反饋。
但當測試切換到"核心媒體編輯"類任務時,情況急轉直下。遮罩與追蹤任務中,UI-TARS的成功率跌至0.095——幾乎等於十次里只有不到一次成功。就連表現最好的Gemini在這類任務上也只有0.381,Claude只有0.286。效果與視覺調整任務中,Qwen的成功率只有0.207,意味著五次里只有約一次能成功。音頻與節拍編輯任務中,Claude和Qwen的成功率都只有0.333。
這個落差驚人。就像一個能夠熟練操作電梯、自動門的機器人,一旦要求它拿起外科手術刀做精細操作,立刻就顯得力不從心了。
六、里程碑與最終成功之間的鴻溝
CutVerse測試還揭示了一個非常有價值的發現,這個發現甚至比單純的成功率數字更有洞察力。研究團隊同時記錄了"里程碑成功率"和"任務整體成功率",而這兩個數字之間存在顯著的差距。
以音頻與節拍編輯任務為例,Claude的里程碑成功率高達0.929,這意味著在這類任務的中間檢查點上,Claude有92.9%的概率都能通過。但Claude在這類任務上的整體成功率只有0.333。這就好比一個學生在期中考、期末大作業上都拿了高分,但最終綜合成績卻不及格——問題不是出在單個步驟上,而是出在能否把所有步驟串聯起來、不犯任何錯誤地完成整個流程上。
Gemini的情況類似:音頻任務里程碑成功率0.786,但整體任務成功率只有0.500。這種"里程碑和任務之間的一致性缺口"在所有模型上都普遍存在,尤其在複雜編輯類任務中最為明顯。
這個發現揭示了當前AI智能體的一個根本性弱點:它們能夠完成單個操作步驟,但無法可靠地在幾十步、幾百步的長序列操作中保持始終如一的準確性。任何一步出錯,後面的操作可能就全部亂套了。研究團隊還統計了各模型未能完成任務的比例——Claude未完成31.7%的任務,Gemini未完成32.8%,EvoCUA未完成48.4%,Qwen未完成51.6%,UI-TARS未完成55.9%。
七、失敗案例的剖析——AI到底在哪裡犯難
研究團隊不滿足於只記錄成功率數字,他們還仔細分析了AI在操作過程中留下的軌跡,找出了四種典型的失敗模式。
第一種失敗叫做"組件誤認"。專業影片軟體里有大量圖標緊密排列在一起,很多圖標既小又沒有文字說明,全靠形狀來區分。研究團隊發現,AI對那些常見的、有文字標註的按鈕還算熟悉,但一旦遇到專業領域特有的工具圖標——比如After Effects工具欄上的"Roto Brush"(旋轉筆刷)圖標——就很容易認錯,點到了旁邊的另一個工具上。論文中有一個具體例子:AI在嘗試選擇一個工具時,認為目標是"從左邊數第13個圖標",但實際操作時點到了錯誤的位置,根本沒有激活需要的工具。
第二種失敗叫做"空間定位不准"。影片時間軸就像一把精細的尺子,上面密布著時間刻度。要在時間軸上精確的某一秒切斷影片,對人來說是輕車熟路,但AI經常會點歪——差了幾個像素,結果切斷的位置和預期相差了半秒甚至更多。這種誤差在普通網頁操作中不成問題,但在影片剪輯中,半秒的誤差可能就意味著整個節奏完全對不上。
第三種失敗叫做"缺乏全局感知"。有個生動的案例:AI在執行一個"把影片片段拖到時間軸"的任務時,因為當前視圖只顯示了時間軸的一小部分,AI沒有先放大視圖查看全貌,就直接開始拖動。結果它以為時間軸上還有空位,實際上那段影片已經存在了,最終把同一段影片重複拖了進去,造成內容重複的錯誤。這就像一個人在整理書架時,眼睛只盯著眼前一格,沒有先看看旁邊是否已經放了書。
第四種失敗叫做"視覺反饋盲區引發的死循環"。很多操作在執行後,螢幕上不會立刻出現明顯的變化——比如按下了某個快捷鍵,效果要等幾步之後才會體現出來。這種情況下,AI因為看不到明顯的"成功信號",會誤以為操作沒有執行成功,於是反覆執行同樣的操作,陷入一個無休止的循環,把幾十步的操作時間全部浪費在反覆點擊同一個地方上,直到達到操作步數上限。
八、不同軟體之間的差距——軟體越複雜AI越掙扎
研究團隊還分軟體統計了AI的表現,這張數據表同樣很有說服力。可靈(Keling)這款AI影片生成工具的任務成功率最高,Claude和Gemini都達到了0.815到0.852。ComfyUI(一款節點式AI圖像工作流工具)其次,Claude達到0.667。這兩款工具的共同特點是:界面相對規整,操作以點擊和輸入文字為主,視覺結構清晰。
隨著軟體複雜度上升,成績就開始下滑。DaVinci Resolve(專業調色剪輯軟體)的任務成功率在0.45到0.75之間,Premiere Pro在0.396到0.642之間,Photoshop在0.424到0.576之間,After Effects最低,Claude達到0.577,而Qwen和UI-TARS只有0.269。
After Effects是所有軟體中難度最高的,它的平均任務步數是14.81步,但每步操作的複雜度遠超其他軟體,很多操作需要同時按住多個鍵配合滑鼠拖拽,還需要對軟體內部的層級結構有深入理解。這再一次印證了研究團隊的判斷:專業創意軟體的核心挑戰不在於操作數量,而在於操作的精度、協調性和對專業知識的依賴。
九、為什麼這件事很重要——超越數字背後的意義
讀到這裡,你可能會想:測AI能不能用Premiere Pro,跟我有什麼關係?關係其實相當直接。
研究團隊在論文中提出了"氛圍剪輯"(Vibe Cutting)這個概念,描述的是這樣一個未來場景:用戶提出創作需求(比如"幫我做一個3分鐘的恐龍大戰哥吉拉影片"),AI生成工具自動生成所需的影片素材,然後AI智能體自動進入專業剪輯軟體,完成所有的後期製作工作,最終交付一個可以直接發布的影片。整個過程,用戶幾乎不需要動手。
這個願景如果實現,意味著普通人也能製作出專業級別的影片內容,影片創作的門檻將大幅降低。這不只是對個人創作者的利好,對廣告製作、影視工業、教育內容、商業營銷來說都是顛覆性的改變。
然而,CutVerse的測試結果清晰地告訴我們:這一天還沒有到來。當前最強的AI智能體,在專業影片軟體中的表現就像一個剛入行的實習生——處理簡單的、有明確步驟的工作還行,但一旦面對需要專業判斷、精細操作、長時間專注的複雜任務,失誤率就急劇攀升。
從研究的角度來看,CutVerse的價值不僅在於揭示了這個差距的存在,更在於精確定位了差距在哪裡:不是AI不夠"聰明",而是AI在精確空間定位、長序列操作可靠性、複雜界面識別和跨模態協調上存在系統性的短板。這些發現為未來改進AI智能體指明了方向。
---
歸根結底,這項研究做了一件非常務實的事:它不是在預測"AI未來將如何改變世界",而是在測量"AI現在到底能做什麼、還不能做什麼"。36%的整體成功率,聽起來可能有點低,但放在這樣一個從未被系統性測試過的專業領域裡,它既是一個誠實的評估基準,也是一個明確的奮鬥目標。
對於普通的影片創作者來說,短期內還不用擔心AI會把你的工作全部替代——至少在那些需要精細操作和專業判斷的部分,人類的經驗和眼光依然是不可替代的。但如果你是一個有興趣深入了解這個領域的研究者或工程師,CutVerse提供了一個極有價值的測試平台和改進路線圖。
這項研究的完整內容可以通過預印本編號arXiv:2605.19484獲取,代碼和數據集也已在GitHub上開源,地址是github.com/CUC-MIPG/CutVerse,感興趣的讀者可以直接查閱。
---
**Q&A**
Q1:CutVerse測試平台包含哪些專業軟體?
A:CutVerse涵蓋了7款專業軟體,分別是Adobe Premiere Pro、Adobe After Effects、Adobe Photoshop、DaVinci Resolve、即夢(JianYing)、可靈(Keling)和ComfyUI。測試任務分為九大類別,包括軟體啟動、時間軸編輯、音頻處理、效果調整、遮罩追蹤等,共186個人工驗證任務。
Q2:AI智能體在影片後期製作任務上失敗的主要原因是什麼?
A:研究發現了四個主要失敗原因:一是認錯專業工具圖標(尤其是沒有文字標註的圖標);二是在時間軸上的操作位置不夠精準,差幾個像素就會導致剪輯點偏移;三是缺乏對整個工作區的全局感知,只盯著局部操作而忽略整體狀態;四是當操作執行後螢幕沒有明顯變化時,AI會誤以為操作失敗,反覆執行同一個動作陷入死循環。
Q3:CutVerse測試中哪款AI模型表現最好,成功率是多少?
A:在186個任務的整體測試中,Claude-Opus-4.6表現最佳,整體任務成功率為68.3%,Gemini-3-flash緊隨其後達到67.2%。但需要注意的是,這個成績在複雜的核心編輯任務上會大幅下滑,例如在遮罩追蹤類任務中,Claude的成功率只有28.6%,Gemini也只有38.1%。






