這項由德州農工大學(Texas A&M University)、Visko Platform與Abaka AI聯合開展的研究,於2026年4月以預印本形式發布於arXiv平台,編號為arXiv:2604.16272v1,發布日期為2026年4月17日。
說到AI影片編輯,你大概已經見過不少令人眼花繚亂的演示——用一句話就能把影片裡的晴天變成暴雪天,把草原變成沙漠,把普通人變成電馭叛客風格的未來戰士。這類技術正在以驚人的速度進入普通人的創作工具箱,從短影片博主到影視後期製作團隊,都開始嘗試用AI來完成過去需要大量人工的修改工作。
然而,一個關鍵問題始終懸而未決:這些AI工具,到底改得好不好?
這個問題看起來簡單,實則暗藏玄機。當你讓AI把影片裡的蘋果變成香蕉,你需要問的不止是"它有沒有改",還要問"改出來的香蕉好不好看",以及"改的時候有沒有順手把旁邊的桌子也改掉"。這三件事,可以同時發生,也可以彼此獨立——一個AI可能把香蕉畫得活靈活現,但順帶把整張桌子的顏色都變了;另一個AI可能只動了蘋果,但改出來的香蕉像一團黃色的模糊色塊。
正因為沒有一把好用的"量尺",這個領域長期面臨一個尷尬局面:要麼靠人工一個個看影片打分,費時費力;要麼靠通用的AI助手來當"裁判",但這些通用AI並不懂影片編輯的專業門道。德州農工大學、Visko Platform與Abaka AI的聯合團隊決定徹底解決這個問題,他們打造了一套完整的"考試體系"——包括一個大型人工標註數據集、一個專用評分模型,以及一個標準化測試題庫。
一、為什麼給AI影片編輯打分這麼難
打分這件事,聽起來像是讓老師批改作文——但影片編輯的"作文"有其特殊之處。
普通的作文評分,你可以整體感受一下語言是否流暢、邏輯是否清晰、內容是否扣題。但影片編輯的評分,至少需要同時考察三件完全不同的事情。第一,模型有沒有照著要求改?如果你說"把背景換成雪山",它換沒換,換得像不像?第二,改完的影片好不好看?畫面有沒有閃爍、模糊、穿幫、扭曲的地方?第三,改的時候有沒有"順帶破壞"不該碰的地方?比如你只讓它改背景,它結果把前景的人臉也一併改掉了。
這三件事在技術上被稱為"指令跟隨"(Instruction Following,簡稱IF)、"渲染質量"(Rendering Quality,簡稱RQ)以及"編輯獨占性"(Edit Exclusivity,簡稱EE)。研究團隊將這三個維度獨立開來打分,背後有一個重要原因:這三件事是可以相互脫節的。
舉個例子:你讓AI"把蘋果變成香蕉",結果AI什麼都沒改,原封不動地返回了原影片——但原影片畫質非常高,完全沒有任何瑕疵,也沒有改動任何不該改的地方。這時候怎麼打分?按照研究團隊的標準,指令跟隨得1分(完全沒跟),渲染質量得4分(畫面完美),編輯獨占性得4分(沒有改任何不該改的東西)。這三個分數,同時都是對的。
如果你把這三件事合併成一個分數,就會掩蓋掉真正的問題所在——到底是哪裡出了毛病。
二、打造"題庫":5049個有據可查的編輯案例
這項研究最紮實的基礎工程,是建立了一個叫做VEFX-Dataset的數據集,裡面包含5049個影片編輯的完整案例。
每一個案例都是一個完整的"考試題":原始影片是題目,編輯指令是要求,編輯結果是答案,而人工標註的三維分數則是評分標準。這聽起來簡單,但實際操作極為複雜。
影片素材的來源包括公開數據集Open-Sora和OpenVid-1M,以及團隊自行採集的私有素材,最終經過嚴格篩選,保留了1419個高質量原始影片,覆蓋自然風光、人物、街景、機器人等10種場景類型,解析度要求在720p以上,且幀數不少於40幀,同時排除了任何存在剪切跳切、速度變化、裁剪縮放或不適宜內容的素材。
編輯指令則覆蓋9大類、32個子類的編輯任務。這9大類分別是:實例編輯(比如給影片裡的某個物體換顏色或者換形狀)、攝像角度編輯(比如把平視鏡頭改成俯視鏡頭)、攝像運動編輯(比如添加推拉搖移的鏡頭運動)、數量編輯(比如把畫面里的一棵樹變成三棵樹)、屬性編輯(比如改變物體的紋理或材質)、創意編輯(比如給場景添加戲劇性的創意元素)、風格編輯(比如把寫實風格改成水彩畫風格)、實例運動編輯(比如讓影片裡的人做出特定的動作),以及視覺效果編輯(比如添加下雪、火焰、閃電等特效)。
為了讓指令和影片內容相匹配,團隊使用谷歌的Gemini 3 Flash模型來分析每段影片的內容,然後自動生成適合該影片的編輯指令,並排除掉那些匹配度不高的組合。
接下來是生成被編輯的影片。團隊沒有只用一種工具,而是刻意混合了多種來源:商業系統(包括Grok Imagine、Kling Omni、Wan 2.6和Luma Ray2)、開源模型(包括VACE和UniVideo),以及一套由團隊自己設計的智能編輯流水線——這套流水線針對不同編輯類型使用了SAM 2、ROSE、PISCO、ViTPose、Depth Anything V3、ReCamMaster、LightX、Wan-Animate等多個專業工具,通過自動化串聯完成複雜的編輯任務。
多樣化的來源很重要,因為不同工具在不同類型的編輯上各有所長,這樣生成的數據集才能覆蓋各種質量水平和失敗模式,讓後續訓練出來的評分模型更加健壯。
三、打分員是怎麼工作的:四級量尺的細節
有了題目和答案,還需要專業的打分員。研究團隊邀請了受過專業訓練的標註員,對每一個編輯案例的三個維度分別打1到4分。
在指令跟隨維度上,4分代表所有要求的編輯都正確完成,沒有任何遺漏或錯誤;3分代表主要的編輯完成了,但有一處細節輕微偏差,比如顏色稍微不准或範圍略有偏差;2分代表影片和指令有些關聯,但主要要求只完成了一半,或者出現了比較嚴重的語義偏差,比如改了正確的區域但換成了錯誤的東西;1分則代表完全沒有執行指令,或者改動方向完全相反。
渲染質量的4分是畫面清晰、時間穩定、自然流暢、幾乎沒有任何瑕疵;3分是基本可以看,但存在輕微模糊、局部閃爍、小範圍的不自然感;2分是明顯的、反覆出現的質量問題,比如持續閃爍、物體變形、鬼影、嚴重模糊;1分是完全無法接受的視覺崩壞,畫面主體失真,時間連貫性完全破壞。
編輯獨占性的打分邏輯是這樣的:4分代表沒有任何清晰可見的"誤傷"——所有不該改的地方都沒被動;3分代表有一處清晰的"誤傷",但整體場景還在;2分代表有兩到三處"誤傷",或者有一個很大的背景區域被意外改動了;1分代表全局性的過度編輯,整個場景面目全非,完全不像一個局部編輯的結果。
標註員在正式打分之前,都要經過專門的培訓,看過完整的指導手冊和參考案例。團隊還做了一次可靠性測試:從數據集裡隨機抽取550個案例,交給另一批全新的標註員重新打分,然後比對兩次結果的一致性。結果顯示,在三個維度上,"差距不超過1分"的一致率均超過91%:指令跟隨是93.5%,渲染質量高達97.2%,編輯獨占性是91.7%。完全一致的比例分別是75.2%、87.2%和72.2%。這組數字說明,人類對渲染質量的判斷最為統一,而對編輯獨占性和指令跟隨的判斷則稍微主觀一些,但整體仍然足夠穩定,可以用於訓練評分模型。
四、數據里藏著的秘密:三件事真的是三件獨立的事
數據集構建完成之後,研究團隊對所有標註數據做了詳細的統計分析,發現了幾個頗為耐人尋味的規律。
從分數分布來看,三個維度的差異相當顯著。指令跟隨的分布呈現出極化特徵:有41.2%的案例得了最低的1分,而得最高4分的有28.1%,中間兩分的比例相對較低。這說明當前的AI影片編輯工具在執行指令這件事上,要麼幹得不錯,要麼幹得很差,模糊地帶反而不多。渲染質量則截然不同,有高達78.6%的案例得了3分或4分,只有6.8%得了1分,說明現在的AI在讓影片"看起來不錯"這件事上已經做得相當好了,視覺上的流暢感和真實感已經不是最大的短板。編輯獨占性則在各個分數段的分布比較均衡。
三個維度之間的相關性分析進一步支持了"它們確實是三件不同的事"這個判斷。指令跟隨和渲染質量之間的相關係數只有0.241,指令跟隨和編輯獨占性之間只有0.195,渲染質量和編輯獨占性之間也只有0.327。這三個數值都很低,意味著一個維度的高分完全不能預測另一個維度的表現。如果把這三件事合併成一個分數,大量重要資訊就會淹沒在平均值里。
從任務難度來看,攝像角度編輯是最難的——指令跟隨平均分只有1.76,這是因為改變攝像角度需要AI理解三維空間關係,這對當前模型來說仍然非常困難。相比之下,風格編輯是最容易的,指令跟隨平均分達到2.87,把一段影片改成水彩畫風格或者電馭叛客風格,現在的AI已經做得相當不錯了。但有意思的是,風格編輯的編輯獨占性得分卻比較低,平均只有2.23,說明當AI改風格時,往往會"改得太多",把一些不該動的細節也一併改掉了。這種"指令跟隨好但獨占性差"的組合,在單一分數評估體系下是完全看不出來的。
五、訓練一個專門的"考官"模型:VEFX-Reward的設計
有了數據集,研究團隊的下一步是訓練一個能自動打分的模型,這就是VEFX-Reward。
這個模型的工作方式,類似於一個同時拿著原稿、修改要求和修改結果的審稿人——它需要三件事都看,才能給出準確的判斷。具體來說,VEFX-Reward的輸入是:原始影片、編輯指令、編輯後的影片,輸出是三個維度各自的分數。
模型的骨架來自Qwen3-VL系列,這是一款能夠同時理解圖像、影片和文字的多模態大模型
。研究團隊在這個骨架上做了兩處關鍵改造。
第一處改造是引入三個特殊的"問詢標記",分別叫做IF_reward、RQ_reward和EE_reward。這三個標記就像三個各司其職的審稿員,每個人只負責看自己那一項——一個只看有沒有按要求改,一個只看畫質好不好,一個只看有沒有誤傷無辜。模型最後從這三個標記對應的狀態向量里,分別提取出三個維度的分數。
第二處改造是打分方式的設計。研究團隊選擇了一種叫做"序數回歸"的方法,而不是簡單地預測一個連續的數值。序數回歸的思路是:與其直接預測"這個影片的指令跟隨得幾分",不如依次回答三個更簡單的是非題——"這個影片的指令跟隨是否超過1分?是否超過2分?是否超過3分?"然後把三個是非題的結果綜合起來,得出最終分數。這種方法更符合1到4這種有明確順序的評分尺度,而且能夠更好地處理數據里那種兩極分化的分布特徵。
模型有兩個版本:VEFX-Reward-4B(40億參數)和VEFX-Reward-32B(320億參數)。訓練時使用了4200個案例,測試時用了849個獨立案例,兩個集合之間沒有重疊,且按編輯類型和來源系統做了分層抽樣,確保測試集能代表真實的數據多樣性。
影片在送入模型之前,會以每秒4幀的速度均勻抽幀,每一幀的解析度被壓縮到大約632×632像素,原始畫面的長寬比則保留不變。原始影片和編輯後影片的抽幀時間點是對齊的,這樣模型才能真正做到幀對幀的比對。
訓練分兩個階段進行。第一階段持續1個訓練周期,只訓練新加入的問詢標記和打分頭,預訓練好的骨架參數全部凍結不動;第二階段持續49個訓練周期,把語言部分的骨架、問詢標記和打分頭全部打開一起微調,但視覺編碼器依然保持凍結。這種分階段的策略,是為了先讓模型學會"如何問問題",再讓它學會"如何理解影片內容和問題的關係"。
六、實戰測試:VEFX-Reward和各路競爭對手的較量
有了模型,就需要檢驗它到底好不好用。研究團隊設計了兩種評估方法,分別衡量不同層面的對齊能力。
第一種方法是學術界通用的圖像/影片質量評估指標,包括斯皮爾曼秩相關係數(SRCC)、肯德爾秩相關係數(KRCC)、皮爾遜線性相關係數(PLCC)和均方根誤差(RMSE)。這四個指標從不同角度衡量模型預測的分數和人類打的分數之間的一致程度,SRCC和KRCC看排名是否一致,PLCC和RMSE看具體數值是否接近。
參與對比的有三類"競爭對手":以通用大模型作為評分裁判(Qwen3.5-397B、Qwen3.5-122B、Gemini-3.1-Pro、Gemini-3.1-Flash-Lite、Gemini-2.5-Flash、Seed-2.0-Lite、Seed-1.6),以及兩個已有的專用評分模型(針對圖片編輯的EditReward,以及針對影片編輯的VE-Bench)。
結果顯示,VEFX-Reward-32B在綜合得分(三維平均)上以0.780的SRCC、0.616的KRCC、0.790的PLCC和0.475的RMSE位居第一;VEFX-Reward-4B緊隨其後,四項指標分別為0.760、0.595、0.771和0.493。相比之下,EditReward的綜合SRCC只有0.558,VE-Bench更低,只有0.214。通用大模型裁判雖然在個別指標上表現尚可,但沒有一個能在所有維度和所有指標上同時穩定超越VEFX-Reward。
EditReward表現差的原因是顯而易見的:它是為圖片編輯設計的,並沒有考慮影片的時間維度,也沒有專門用於編輯獨占性的評分頭,拿來評估影片編輯自然力不從心——它在渲染質量維度上的得分甚至是負的,說明它的判斷和人類完全背道而馳。VE-Bench雖然是影片編輯評分模型,但它只輸出一個綜合分數,無法區分不同維度的失敗,整體對齊效果也很弱。
第二種評估方法叫做"組內偏好準確率",更接近真實使用場景。當你拿到同一段原始影片和同一條編輯指令,由不同工具分別生成了三個結果,你想知道哪個最好——這時候你不需要知道絕對分數,只需要知道相對排名。組內偏好準確率衡量的就是:給定同一道題的多個答案,評分模型對好壞排序的判斷是否和人類一致。
在這個評估上,VEFX-Reward-32B的綜合準確率達到了0.872,VEFX-Reward-4B是0.863,兩者都大幅領先EditReward(0.792)和VE-Bench(0.665)。這說明VEFX-Reward不只是在全局統計上和人類對齊,在幫助用戶從多個候選結果里挑選最好的那個這件實際任務上,它同樣可靠。
七、用新量尺來量一量市場上的主流工具
研究團隊還用VEFX-Reward-32B對10款具有代表性的影片編輯工具進行了系統性評測,包括8款商業系統和2款開源系統。
為了衡量整體表現,團隊設計了一個叫做"幾何加權綜合分"(GeoAgg)的排名指標。這個指標的核心思想是:強項不能彌補弱項。如果一個工具渲染質量極高,但指令跟隨非常差,它的綜合分依然會被拖累——因為對用戶來說,一個畫質再好但完全沒按要求改的影片,根本沒有實用價值。在具體權重上,指令跟隨的權重是渲染質量和編輯獨占性的兩倍,反映了語義準確性在影片編輯中的核心地位。
排名結果顯示,Kling o3 omni排名第一,幾何綜合分達到3.057,它在指令跟隨(3.033)和渲染質量(3.588)上都表現強勁。Kling o1排名第二,綜合分2.985,指令跟隨同樣達到3.040。值得注意的是,Kling o1在三個維度的均衡性上表現出色,沒有明顯短板。
Runway Gen-4.5排名第三,綜合分2.912,它的綜合行為比較均衡,但因為部分測試題沒能完成(平台有推理限制),它的分數經過了統計修正。Seedance 2.0排名第四,修正後綜合分2.766,渲染質量(3.421)和編輯獨占性(3.088)都不錯,但指令跟隨(2.811)相對弱一些。
Grok Imagine有一個很有特點的表現:它的編輯獨占性得分在所有工具中最高,達到3.376,說明它在"只改該改的地方"這件事上做得最好,但它的指令跟隨只有2.606,所以綜合排名落在了第五位(2.723)。這個例子很好地說明了多維評估的價值——如果只看單一綜合分,Grok
Imagine的這個獨特優勢就會被淹沒。
在開源系統中,UniVideo(綜合分2.516)明顯強於VACE(1.775),甚至能和部分商業系統抗衡,特別是在編輯獨占性上表現相當不錯。VACE在編輯獨占性上幾乎墊底,平均只有1.180,說明它在編輯時會對無辜區域造成大量誤傷。
從任務類型的雷達圖來看,沒有一個工具能在所有9類編輯任務上都保持一致的高水準。Kling o3 omni和Kling o1的覆蓋面最廣,在數量編輯、屬性編輯、實例編輯和視覺效果編輯上都有明顯優勢。Grok Imagine則在風格編輯、實例編輯和視覺效果編輯上很強,但在攝像角度和攝像運動編輯上表現平平。這一結果意味著,對於不同類型的影片編輯需求,用戶可能需要根據任務類型來選擇最合適的工具,而不是無腦選一個"綜合第一"的工具。
八、一個標準化的測試題庫:VEFX-Bench
除了數據集和評分模型之外,研究團隊還發布了一個叫做VEFX-Bench的標準化測試題庫,包含300個精心挑選的(原始影片,編輯指令)配對,專門用於不同編輯系統之間的橫向對比。
這300道題的設計遵循了幾個原則:覆蓋儘可能多的編輯類型,確保內容的多樣性,以及確保題目的難度分布合理——不能全是簡單題,也不能全是極端難題。有了這個統一題庫,不同研究團隊在評測新工具時可以用同一套題目,結果之間才具有可比性,不會因為題目選擇不同而產生偏差。
說到底,這項研究做的事情,本質上是給一個快速發展但缺乏標準的領域,建立了一套經過嚴格驗證的"考試體系"。數據集是題庫,評分模型是考官,測試題庫是考卷,三者配合,第一次讓AI影片編輯的質量評估有了可靠的、多維度的、可復現的衡量方式。
歸根結底,當前市場上的AI影片編輯工具最普遍的特點是:視覺上過得去,但語義上靠不住,而且經常改過頭。渲染質量已經不是最大的挑戰,但精準地按照指令改、同時不誤傷無辜,仍然是這個領域尚未完全解決的核心難題。這個發現,對於正在使用或者考慮使用AI影片編輯工具的人來說,也許是一個有用的提醒:當你看到一段AI編輯的影片畫質很好,千萬別忘了對照原始影片,仔細檢查一下它到底有沒有真正按你說的改,以及有沒有順帶改掉它不該動的地方。
對於有興趣深入了解研究細節的讀者,可以通過arXiv編號2604.16272查閱完整論文。
Q&A
Q1:VEFX-Dataset和其他影片編輯數據集相比有什麼特別之處?
A:VEFX-Dataset最核心的區別在於同時滿足三個條件:包含實際編輯後的影片結果、使用真人標註而非自動打分、以及將質量分解為指令跟隨、渲染質量、編輯獨占性三個獨立維度。現有數據集通常只滿足其中一兩個條件,比如有的只有指令沒有結果,有的有結果但只給一個綜合分,VEFX-Dataset是目前唯一同時具備這三個屬性的大規模數據集。
Q2:VEFX-Reward的"編輯獨占性"維度是怎麼打分的?
A:編輯獨占性衡量的是AI在編輯時有沒有"誤傷"不該動的區域。打分時,標註員會仔細比對原始影片和編輯後影片,統計有多少清晰可見的"非目標區域"發生了變化。沒有任何誤傷得4分,有一處局部誤傷得3分,有兩到三處或者一個大面積背景被改動得2分,整個場景被大規模改寫得1分。
Q3:Kling o3 omni評測第一,是不是意味著用AI編輯影片首選它?
A:綜合分第一併不意味著在所有場景下都最好。評測結果顯示,不同工具在不同編輯類型上各有優劣——Kling o3 omni在數量、屬性、實例和視覺效果編輯上領先,但Grok Imagine在風格和實例編輯上也很強,而且編輯獨占性全場最高。實際使用時,最好根據具體的編輯任務類型來選擇工具,而不是只看綜合排名。






