中國傳媒大學等機構聯手開發：當AI「剪輯師」遇上專業影片軟體，結果讓人大跌眼鏡

這項由中國傳媒大學媒體資訊與內容生產研究組（MIPG）聯合新加坡國立大學、USEIT AI共同完成的研究，於2026年5月以預印本形式發布，論文編號為arXiv:2605.19484。感興趣的讀者可通過該編號查找完整論文。

贊助商廣告

你有沒有想過，用AI生成幾段影片素材之後，下一步要做什麼？生成影片這件事，AI已經越來越厲害了——用Keling、即夢這樣的工具，輸入一段文字描述，幾秒鐘就能生成一段影片片段。但"生成片段"和"做出一部完整的影片"之間，還隔著一座大山：你得把這些素材導入專業軟體，剪輯、調色、加特效、對齊音頻，然後才能導出成品。這個過程對普通人來說費時費力，對AI來說同樣是個巨大的挑戰。

正是為了測試AI是否真的能勝任這項工作，研究團隊構建了一個叫做 **CutVerse** 的測試平台。這個平台專門用來考驗AI智能體（也就是能夠自主操作電腦的AI程序）在真實專業影片編輯軟體中的實際表現。測試結果說實話有些令人哭笑不得——即便是當今最強的AI模型，在複雜的影片後期製作任務上，成功率也只有36%左右。這意味著，讓AI獨立完成一個專業影片項目，目前還遠遠沒有到"隨叫隨用"的程度。

研究團隊還藉此提出了一個新的創作範式，他們稱之為"氛圍剪輯"（Vibe Cutting）：AI生成工具負責提供原始素材，AI智能體負責在專業軟體里完成後續的所有編輯工作，整個流程從創意到成片，儘可能減少人工干預。這是一個很有吸引力的願景，但從測試數據來看，通往這個願景的路還很長。

一、為什麼要測AI剪影片——一個被忽視的巨大挑戰

在討論CutVerse之前，有必要先搞清楚"AI智能體操作電腦"這件事的背景。研究領域有一類專門的AI，不是用來生成圖片或回答問題的，而是能夠像人一樣盯著電腦螢幕、移動滑鼠、點擊按鈕、輸入鍵盤，從而完成各種電腦操作任務。這類AI被稱為"電腦使用智能體"（Computer Use Agent，簡稱CUA）。

贊助商廣告

近年來，這類AI在一些常規任務上表現得相當不錯，比如在網頁上搜索資訊、填寫表格、整理文件夾。就好像一個剛參加工作的新員工，處理日常行政工作沒什麼大問題。但當你把他推進一個專業的影片剪輯間，面對Adobe Premiere Pro那密密麻麻的界面，要求他完成一個包含調色、音頻對齊、特效疊加的完整項目時，情況就完全不同了。

專業影片軟體的界面密度極高，光是After Effects的工具欄，就密密麻麻排著幾十個沒有文字標註的圖標。操作流程非常長，一個簡單的"給影片加一個轉場效果"，可能需要先找到效果面板、搜索對應效果、把它拖到時間軸的精確位置、雙擊打開參數設置、調整數值——任何一步出錯，整個操作就失敗了。此外，這些操作還涉及多個軟體之間的協作，比如先在ComfyUI里生成素材，再在Premiere里剪輯，再在DaVinci Resolve里調色，最後導出。這種跨軟體的工作流程，對AI來說是一個全新的、極其困難的挑戰。

現有的AI測試平台幾乎沒有覆蓋這個領域。大多數平台測試的是簡單的網頁操作或基礎的文件管理，沒有專門針對專業創意軟體的系統性評測。CutVerse的出現，就是為了填補這個空白。

二、CutVerse是怎麼搭建的——一套精心設計的考題庫

研究團隊構建CutVerse的過程，有點像大學教授設計一門專業課的期末考試——既要覆蓋所有重要知識點，又要有足夠的區分度，還要保證考題真實反映實際工作中的需求。

整個過程從招募專業人員開始。研究團隊請來了10位在影片後期製作和AI創作工具上都有豐富經驗的專業創作者。這些人不是普通的兼職標註員，而是真正的行業從業者，他們的工作就是在Premiere Pro、After Effects這些軟體里摸爬滾打。

這10位專業人員總共設計並錄製了186個任務，涵蓋7款專業軟體：Adobe Premiere Pro、Adobe After Effects、Adobe Photoshop、DaVinci Resolve、即夢（JianYing）、可靈（Keling）和ComfyUI。這186個任務並不是隨機堆砌的，而是按照真實的影片製作流程精心分類，分成了九大類別。

贊助商廣告

這九大類別從簡單到複雜依次是：軟體啟動與初始設置（最基礎的操作，比如打開軟體、新建項目）、預覽與驗證（檢查操作是否正確）、生成式工作流（在AI生成工具中使用提示詞）、資產導入與管理（把素材文件導入軟體）、導出與交付（把成品導出）、時間軸編輯與排列（在時間軸上剪輯影片片段）、音頻與節拍編輯（處理背景音樂、音效對齊）、效果與視覺調整（添加特效、色彩校正）、遮罩與追蹤（在影片中對特定區域進行精細控制）。

每一個任務，專業人員在錄製操作影片時，同時記錄下每一次滑鼠點擊和鍵盤按鍵的精確坐標和時間。這些原始錄像和操作日誌隨後被送進研究團隊開發的一套"解析器"（Parser）進行處理。這個解析器就像一個細心的速記員，能把長達幾分鐘的操作錄像，精確地分解成一步一步有意義的操作序列，每一步都標註著"這一步之前螢幕是什麼狀態"和"這一步之後螢幕發生了什麼變化"。

更重要的是，解析器還會把每個完整任務拆分成若干個"里程碑"（Milestone）。好比爬一座山，最終目標是到達山頂，但沿途有幾個必須經過的檢查站——通過了1號營地、2號營地，才能到達頂峰。每個裡程碑都有配套的視覺問答題：在這個階段，螢幕上應該出現什麼？AI必須真正完成這個操作，而不僅僅是"聲稱"自己完成了。

這套設計非常巧妙，因為它解決了一個評估AI的核心難題：如何判斷AI是真的做對了，還是只是在說"我已經完成了"？通過逐一核對每個裡程碑的視覺狀態，測試系統能精準定位AI在哪一步卡住了。

三、測試環境的搭建——讓AI真的去"動手"

光有考題還不夠，還需要一個真實的考場。研究團隊搭建了基於Windows虛擬機的測試環境，每個任務開始時，虛擬機都會從一個預先保存的精確狀態（稱為"檢查點"）啟動，確保每次測試的起始條件完全一樣，就像每次考試前把試卷整整齊齊擺在桌上，一道題都不多一道題都不少。

贊助商廣告

AI智能體在這個虛擬機里的操作方式，和真人完全相同：它能看到螢幕截圖，然後決定下一步要點擊哪裡、要按哪個鍵。它無法使用任何"作弊"手段——比如直接調用軟體的後台接口、讀取隱藏的文件數據——只能憑藉"看螢幕"來操作，就像一個蒙著眼睛只能靠觸摸來工作的人……不對，更準確地說，是只能靠眼睛但沒有手的人——它能看見，然後發出指令，讓虛擬的滑鼠和鍵盤執行動作。

在評估方面，研究團隊採用了"VLM作為裁判"的方式。當AI完成一個任務後，系統會用GPT-5.4和Claude-4.6-Opus兩個強大的語言模型來逐一檢查每個裡程碑是否真的達成了——通過對比截圖和預設的問答題來判斷。為了驗證這個自動評判系統的可靠性，研究團隊還專門做了人工對照研究：讓專業人員和自動系統分別評判300個操作軌跡，結果兩者的吻合率高達98.3%到99%。換句話說，這套自動評判系統幾乎和專業人員的判斷一樣準確。

四、數據背後的故事——這186個任務到底有多難

在正式匯報測試結果之前，先來感受一下這套題目的難度。整個數據集的錄製時間超過2.43小時，包含3484個獨立的操作動作，平均每分鐘發生23.8次操作。每個任務平均需要18.73步操作才能完成，而最複雜的任務甚至需要239步。

作為對比，常見的網頁操作類AI測試平台，任務平均只需要幾步到十幾步。18.73步的平均值已經遠超這些平台，而239步的極端案例則相當於讓AI自動完成一個需要人類操作者盯著螢幕專注工作將近4分鐘的複雜項目。

再來看操作類型的分布，這個細節很能說明問題。在所有3484個操作中，滑鼠在時間軸上的操作占了總操作量的46.07%，而對圖層和軌道的控制操作占了25.32%。這兩類加起來超過70%的操作，都是對著那些像河流一樣橫跨螢幕的"時間軸"進行的。時間軸操作和網頁上點擊按鈕完全不同——沒有明確的邊界，沒有標準的標籤，需要精確到像素級別的拖拽和定位。對AI來說，這不是"找到寫著'確認'的按鈕然後點擊"，而是"找到時間軸上第3.2秒的位置，然後在那裡精確地剪斷影片"。

贊助商廣告

九大類任務中，複雜度各有不同。效果與視覺調整任務和遮罩追蹤任務被標記為"極限難度"，前者平均需要20.27步操作、耗時52.81秒，後者平均需要25.40步、耗時更是高達72.98秒。相比之下，軟體啟動任務只需平均7.56步、31.18秒，難度標記為"低"。這種差異清晰地勾勒出一張專業影片製作技能的難度地圖。

五、成績單出來了——AI們的表現令人五味雜陳

研究團隊選取了5款代表性的AI模型參加測試，涵蓋了目前業界最強的選手。其中有兩款商業閉源模型：Anthropic公司的Claude-Opus-4.6和Google DeepMind的Gemini-3-flash；還有三款開源模型：阿里巴巴的Qwen3-32B、字節跳動旗下的UI-TARS-1.5-7B，以及美團的EvoCUA-32B。這5款模型代表了目前AI智能體領域的頂尖水平。

測試在統一的Windows 11 Pro虛擬機環境下進行，每次測試開始時系統狀態完全相同。AI模型在每一步操作時，能看到當前螢幕截圖和最近5次操作的歷史記錄，但不會得到"下一步應該做什麼"的提示——它必須自己判斷。

整體成績來看，Claude-Opus-4.6表現最好，整體任務成功率為68.3%；Gemini-3-flash緊隨其後，達到67.2%。開源模型中EvoCUA-32B表現最佳，成功率51.6%；Qwen3-32B為48.4%；UI-TARS-1.5-7B最低，僅有44.1%。

然而，這些數字需要放在具體背景下才有意義。當研究人員把任務按類型分開來看時，畫面就變得更加有趣——或者說更加殘酷了。

在"程序性操作"類任務（包括軟體啟動、導出交付、資產管理、預覽驗證）上，所有模型表現都相當出色。以生成式工作流任務為例，5款模型全部獲得了滿分1.000，就是說每次測試全部成功。導出與交付任務中，Claude成功率達到1.000，其他模型也都在0.917左右。這些任務的共同特點是操作步驟相對固定、有明確的視覺反饋。

但當測試切換到"核心媒體編輯"類任務時，情況急轉直下。遮罩與追蹤任務中，UI-TARS的成功率跌至0.095——幾乎等於十次里只有不到一次成功。就連表現最好的Gemini在這類任務上也只有0.381，Claude只有0.286。效果與視覺調整任務中，Qwen的成功率只有0.207，意味著五次里只有約一次能成功。音頻與節拍編輯任務中，Claude和Qwen的成功率都只有0.333。

贊助商廣告

這個落差驚人。就像一個能夠熟練操作電梯、自動門的機器人，一旦要求它拿起外科手術刀做精細操作，立刻就顯得力不從心了。

六、里程碑與最終成功之間的鴻溝

CutVerse測試還揭示了一個非常有價值的發現，這個發現甚至比單純的成功率數字更有洞察力。研究團隊同時記錄了"里程碑成功率"和"任務整體成功率"，而這兩個數字之間存在顯著的差距。

以音頻與節拍編輯任務為例，Claude的里程碑成功率高達0.929，這意味著在這類任務的中間檢查點上，Claude有92.9%的概率都能通過。但Claude在這類任務上的整體成功率只有0.333。這就好比一個學生在期中考、期末大作業上都拿了高分，但最終綜合成績卻不及格——問題不是出在單個步驟上，而是出在能否把所有步驟串聯起來、不犯任何錯誤地完成整個流程上。

Gemini的情況類似：音頻任務里程碑成功率0.786，但整體任務成功率只有0.500。這種"里程碑和任務之間的一致性缺口"在所有模型上都普遍存在，尤其在複雜編輯類任務中最為明顯。

這個發現揭示了當前AI智能體的一個根本性弱點：它們能夠完成單個操作步驟，但無法可靠地在幾十步、幾百步的長序列操作中保持始終如一的準確性。任何一步出錯，後面的操作可能就全部亂套了。研究團隊還統計了各模型未能完成任務的比例——Claude未完成31.7%的任務，Gemini未完成32.8%，EvoCUA未完成48.4%，Qwen未完成51.6%，UI-TARS未完成55.9%。

七、失敗案例的剖析——AI到底在哪裡犯難

研究團隊不滿足於只記錄成功率數字，他們還仔細分析了AI在操作過程中留下的軌跡，找出了四種典型的失敗模式。

第一種失敗叫做"組件誤認"。專業影片軟體里有大量圖標緊密排列在一起，很多圖標既小又沒有文字說明，全靠形狀來區分。研究團隊發現，AI對那些常見的、有文字標註的按鈕還算熟悉，但一旦遇到專業領域特有的工具圖標——比如After Effects工具欄上的"Roto Brush"（旋轉筆刷）圖標——就很容易認錯，點到了旁邊的另一個工具上。論文中有一個具體例子：AI在嘗試選擇一個工具時，認為目標是"從左邊數第13個圖標"，但實際操作時點到了錯誤的位置，根本沒有激活需要的工具。

贊助商廣告

第二種失敗叫做"空間定位不准"。影片時間軸就像一把精細的尺子，上面密布著時間刻度。要在時間軸上精確的某一秒切斷影片，對人來說是輕車熟路，但AI經常會點歪——差了幾個像素，結果切斷的位置和預期相差了半秒甚至更多。這種誤差在普通網頁操作中不成問題，但在影片剪輯中，半秒的誤差可能就意味著整個節奏完全對不上。

第三種失敗叫做"缺乏全局感知"。有個生動的案例：AI在執行一個"把影片片段拖到時間軸"的任務時，因為當前視圖只顯示了時間軸的一小部分，AI沒有先放大視圖查看全貌，就直接開始拖動。結果它以為時間軸上還有空位，實際上那段影片已經存在了，最終把同一段影片重複拖了進去，造成內容重複的錯誤。這就像一個人在整理書架時，眼睛只盯著眼前一格，沒有先看看旁邊是否已經放了書。

第四種失敗叫做"視覺反饋盲區引發的死循環"。很多操作在執行後，螢幕上不會立刻出現明顯的變化——比如按下了某個快捷鍵，效果要等幾步之後才會體現出來。這種情況下，AI因為看不到明顯的"成功信號"，會誤以為操作沒有執行成功，於是反覆執行同樣的操作，陷入一個無休止的循環，把幾十步的操作時間全部浪費在反覆點擊同一個地方上，直到達到操作步數上限。

八、不同軟體之間的差距——軟體越複雜AI越掙扎

研究團隊還分軟體統計了AI的表現，這張數據表同樣很有說服力。可靈（Keling）這款AI影片生成工具的任務成功率最高，Claude和Gemini都達到了0.815到0.852。ComfyUI（一款節點式AI圖像工作流工具）其次，Claude達到0.667。這兩款工具的共同特點是：界面相對規整，操作以點擊和輸入文字為主，視覺結構清晰。

隨著軟體複雜度上升，成績就開始下滑。DaVinci Resolve（專業調色剪輯軟體）的任務成功率在0.45到0.75之間，Premiere Pro在0.396到0.642之間，Photoshop在0.424到0.576之間，After Effects最低，Claude達到0.577，而Qwen和UI-TARS只有0.269。

贊助商廣告

After Effects是所有軟體中難度最高的，它的平均任務步數是14.81步，但每步操作的複雜度遠超其他軟體，很多操作需要同時按住多個鍵配合滑鼠拖拽，還需要對軟體內部的層級結構有深入理解。這再一次印證了研究團隊的判斷：專業創意軟體的核心挑戰不在於操作數量，而在於操作的精度、協調性和對專業知識的依賴。

九、為什麼這件事很重要——超越數字背後的意義

讀到這裡，你可能會想：測AI能不能用Premiere Pro，跟我有什麼關係？關係其實相當直接。

研究團隊在論文中提出了"氛圍剪輯"（Vibe Cutting）這個概念，描述的是這樣一個未來場景：用戶提出創作需求（比如"幫我做一個3分鐘的恐龍大戰哥吉拉影片"），AI生成工具自動生成所需的影片素材，然後AI智能體自動進入專業剪輯軟體，完成所有的後期製作工作，最終交付一個可以直接發布的影片。整個過程，用戶幾乎不需要動手。

這個願景如果實現，意味著普通人也能製作出專業級別的影片內容，影片創作的門檻將大幅降低。這不只是對個人創作者的利好，對廣告製作、影視工業、教育內容、商業營銷來說都是顛覆性的改變。

然而，CutVerse的測試結果清晰地告訴我們：這一天還沒有到來。當前最強的AI智能體，在專業影片軟體中的表現就像一個剛入行的實習生——處理簡單的、有明確步驟的工作還行，但一旦面對需要專業判斷、精細操作、長時間專注的複雜任務，失誤率就急劇攀升。

從研究的角度來看，CutVerse的價值不僅在於揭示了這個差距的存在，更在於精確定位了差距在哪裡：不是AI不夠"聰明"，而是AI在精確空間定位、長序列操作可靠性、複雜界面識別和跨模態協調上存在系統性的短板。這些發現為未來改進AI智能體指明了方向。

---

歸根結底，這項研究做了一件非常務實的事：它不是在預測"AI未來將如何改變世界"，而是在測量"AI現在到底能做什麼、還不能做什麼"。36%的整體成功率，聽起來可能有點低，但放在這樣一個從未被系統性測試過的專業領域裡，它既是一個誠實的評估基準，也是一個明確的奮鬥目標。

贊助商廣告

對於普通的影片創作者來說，短期內還不用擔心AI會把你的工作全部替代——至少在那些需要精細操作和專業判斷的部分，人類的經驗和眼光依然是不可替代的。但如果你是一個有興趣深入了解這個領域的研究者或工程師，CutVerse提供了一個極有價值的測試平台和改進路線圖。

這項研究的完整內容可以通過預印本編號arXiv:2605.19484獲取，代碼和數據集也已在GitHub上開源，地址是github.com/CUC-MIPG/CutVerse，感興趣的讀者可以直接查閱。

---

**Q&A**

Q1：CutVerse測試平台包含哪些專業軟體？

A：CutVerse涵蓋了7款專業軟體，分別是Adobe Premiere Pro、Adobe After Effects、Adobe Photoshop、DaVinci Resolve、即夢（JianYing）、可靈（Keling）和ComfyUI。測試任務分為九大類別，包括軟體啟動、時間軸編輯、音頻處理、效果調整、遮罩追蹤等，共186個人工驗證任務。

Q2：AI智能體在影片後期製作任務上失敗的主要原因是什麼？

A：研究發現了四個主要失敗原因：一是認錯專業工具圖標（尤其是沒有文字標註的圖標）；二是在時間軸上的操作位置不夠精準，差幾個像素就會導致剪輯點偏移；三是缺乏對整個工作區的全局感知，只盯著局部操作而忽略整體狀態；四是當操作執行後螢幕沒有明顯變化時，AI會誤以為操作失敗，反覆執行同一個動作陷入死循環。

Q3：CutVerse測試中哪款AI模型表現最好，成功率是多少？

A：在186個任務的整體測試中，Claude-Opus-4.6表現最佳，整體任務成功率為68.3%，Gemini-3-flash緊隨其後達到67.2%。但需要注意的是，這個成績在複雜的核心編輯任務上會大幅下滑，例如在遮罩追蹤類任務中，Claude的成功率只有28.6%，Gemini也只有38.1%。