當AI遇上「我想改影片但說不清楚」——Rochester大學團隊的Aurora如何讓AI幫你把想法變成現實

這項由羅切斯特大學（University of Rochester）主導、聯合MIT-IBM沃森人工智慧實驗室與英偉達當AI遇上我想改影片但說不清楚Rochester大學團隊的Aurora如何讓AI幫你把想法變成現實的研究團隊發布的工作，於2026年5月18日以預印本形式公開，論文編號為arXiv:2605.18748v1，感興趣的讀者可通過該編號在arXiv平台檢索完整原文。

贊助商廣告

你有沒有過這樣的經歷：腦子裡有個很清晰的想法，想讓別人幫你改一張圖或剪一段影片，但說出來的話總是模模糊糊——"就是那種感覺"、"你懂的那種"、"反正要好看一點"。對面的人可能是設計師、剪輯師，或者今天越來越常見的AI工具，結果往往是：對方做出來的東西和你腦子裡那個完全不一樣。

影片編輯領域的AI在過去幾年突飛猛進，但有一個根本問題始終沒有被正視：這些工具假設你已經把需求整理好了。你得把參考圖準備好，你得精確地告訴它"改哪裡"，你得提供一個邊界分明的區域。可現實中，大多數人說的是"把這個換成那個奢侈品牌的圍巾"，而他們腦子裡連那條圍巾長什麼樣都需要去搜一搜。這就是Aurora這個項目要解決的核心問題。

Aurora是一個"能幫你把說不清楚的想法整理好、然後再執行"的影片編輯系統。它由兩個部分協作完成工作：一個像智能助手一樣理解並補全你想法的規劃模組，以及一個真正負責生成和修改影片畫面的擴散模型。這篇文章將帶你一步一步拆解這套系統是怎麼工作的，為什麼它能比現有工具做得更好，以及研究團隊為了讓它更聰明付出了哪些努力。

---

一、問題從哪裡來：AI影片編輯的"雞同鴨講"困境

先來理解一件事：現代的AI影片編輯模型，從技術上來說已經相當厲害了。它們可以接收文字說明、原始影片、參考圖片，然後輸出一段經過修改的影片。不管是換掉某個物體、改變整體風格、刪掉某個人、還是加入一個新元素，很多模型已經能做到。

但這裡有一個隱藏的前提條件：這些模型假設你已經把所有材料準備齊了。就像一個廚師，設備再好、技術再精湛，你至少得告訴他今天要做什麼菜，還得把食材遞給他。如果你只是說"做點好吃的，就那種感覺"，他是無法開工的。

贊助商廣告

研究團隊把這個問題歸納成兩種"說不清楚"的類型。第一種叫做"視覺上的模糊"——你說的東西需要一張參考圖，但你沒提供。比如"把這個影片裡的手機換成華為最新款"，這句話說清楚了要換什麼，但AI需要知道華為最新款長什麼樣。第二種叫做"語言上的模糊"——你對想要的效果只有一個隱約的方向描述。比如"讓這段影片顯得更有力量感"，AI很難直接從這句話推斷出具體要做什麼操作。

這兩種模糊在日常生活里極其普遍。研究團隊做了一個很準確的比喻：現有的影片編輯AI相當於一個技術超強但完全不善溝通的執行者，它只會按字面意思走，一旦你的輸入缺什麼它就直接蒙猜或者出錯。

---

二、Aurora的解法：在廚師和顧客之間加一個貼心的服務員

Aurora的核心思路是：在你和影片編輯AI之間，加一個智能的"翻譯層"。這個翻譯層負責把你說的那些半成品想法，整理成影片編輯AI真正需要的完整材料包。

整套系統的運作流程可以用一個點菜的比喻來理解。顧客（也就是你）走進餐廳說："我想吃那個健康一點的、我上次吃過的那種沙拉，但換成我今天看到的那個網紅版本。"服務員（Aurora的規劃模組）聽到之後，會先在腦子裡理解你說的是什麼，然後去菜單上查，去問問廚房今天有什麼，最後給你端出來的是一張完整的點菜單，裡面寫清楚了食材、做法、擺盤要求。廚師（影片編輯的擴散模型）拿到這張清單，就能準確執行了。

具體來說，Aurora的規劃模組（技術上叫做VLM智能體，即視覺語言模型智能體）會把你的原始請求轉化成一份包含四個欄位的"編輯計劃"。第一個欄位是"改寫後的指令"，也就是把你模糊的說法變成一句精確、模型友好的描述。第二個欄位是"任務類型標籤"，用來告訴後面的影片模型這是一個替換操作、刪除操作、風格轉換還是添加操作。第三個欄位是一個可選的"圖片搜索查詢詞"，當你的需求涉及某個具體的品牌、產品、藝術品或角色時，規劃模組會自動去網際網路搜索相關圖片。第四個欄位是一個可選的"遮罩描述詞"，當你的操作需要精確定位到影片中的某個區域時，規劃模組會描述需要框選出哪個區域。

贊助商廣告

這四個欄位分工明確，像是一套標準化的作戰指令。當你說"把背景牆上的那幅畫換成葛飾北齋的《神奈川衝浪里》"，規劃模組會識別出這是一個"替換"任務，然後立即去搜索《神奈川衝浪里》的高清圖片，搜到之後讓影片編輯模型參考這張圖執行替換。當你說"把右邊那個人從畫面里去掉"，規劃模組會激活分割工具，自動圈出那個人所在的區域，然後把這個區域資訊一起交給影片模型做修復填充。

---

三、規劃模組的工作方式：一個學會了判斷力的"助手"

知道這個規劃模組做什麼還不夠，更值得聊的是它是怎麼學會做這些判斷的。畢竟，知道什麼時候該搜圖、什麼時候該框區域、什麼時候直接改寫指令就夠了，這本身就是一種需要學習的能力。

Aurora團隊使用的規劃模組底座是一個叫做Qwen3-VL-8B的開源視覺語言模型，然後在這個底座上進行了兩個階段的訓練。

第一個階段叫做"監督式微調"，通俗來說就是給它看大量的"題目和標準答案"。研究團隊準備了兩萬五千個規劃樣本，每個樣本都包含一段原始影片、一個用戶隨意說出的粗糙請求，以及對應的那份完整四欄位編輯計劃。這些訓練數據的生成方式很有意思——研究團隊先收集了大量已經標註好的影片編輯對（原始影片加上精確指令加上編輯後影片），然後把那些精確的指令人為地"降級"成更日常、更口語化、更含糊的說法，以此模擬真實用戶會怎麼表達。比如一條精確指令"將畫面左側桌上的白色瓷碗替換為一個新鮮的綠色蘋果"，可能被降級成"換個蘋果在那裡"。模型的任務是從降級後的說法重新還原出那份完整的編輯計劃。

除了規劃訓練，研究團隊還另外準備了一萬個樣本專門用來訓練"參考圖片篩選"能力。當規劃模組觸發了圖片搜索之後，搜尋引擎會返回一批候選圖片，但並不是每一張都合適。這一萬個樣本讓模型學會了從候選圖片中挑出最符合用戶需求的那張，比如用戶說"百勝客披薩盒"，模型需要認出哪張圖片上的披薩盒才是真正的百勝客品牌包裝，而不是隨便一個看起來像的。

贊助商廣告

第二個訓練階段叫做"偏好對齊"，用的技術叫DPO（直接偏好優化），通俗理解就是給模型"糾糾壞習慣"。監督訓練能讓模型學會基本的規划動作，但有一些灰色地帶它處理得不夠好——這些邊界案例正是DPO階段重點關注的。研究團隊整理了五類容易出錯的情形。一是"本來在影片裡就有的東西，不應該再去搜圖"——比如影片裡已經清楚地出現了一個可口可樂瓶，用戶說"換掉這個可樂瓶"，模型就不應該再額外搜索可口可樂的圖片，因為參考已經現成在畫面里了。二是"遮罩描述太模糊"的情形，比如"那個人"在多人場景里沒辦法精確定位，這種描述不適合觸發遮罩工具。三是"不該搜圖的任務非要搜圖"，比如"整體做成水墨畫風格"這種全局風格轉換根本不需要參考圖，但模型如果沒訓練好可能還是會去搜。四是"改寫指令時把用戶的原始約束條件給丟了"，比如用戶說"換掉桌上那個藍色的杯子，但保持旁邊的花不動"，改寫後的指令里不能把"保持花不動"這個約束遺漏。五是"任務類型分錯類"，比如把"刪除操作"分成了"替換操作"。針對每一類錯誤，研究團隊構建了成對的"正確示範"和"錯誤示範"，讓模型通過對比學會區分。這批偏好數據共有一千八百對。

---

四、影片編輯模型：接收完整指令、精確執行的"廚師"

規劃模組負責整理材料，真正執行影片修改任務的是Aurora的影片擴散模型（技術上叫做DiT，即擴散變換器）。這個模型以Wan2.2-TI2V-5B為基礎改造而來，參數量約五十億，能夠處理最多八十一幀的影片。

這個影片模型有一個設計上的關鍵特點：它把所有類型的輸入——改寫後的文字指令、原始影片、參考圖片、遮罩圖像——統一放進同一套處理管道里，不為不同類型的輸入單獨開設處理分支。這個設計聽起來簡單，但實際上帶來了很大的靈活性，因為它意味著同一套模型權重可以處理"只有文字描述"、"文字加參考圖"、"文字加遮罩圖"這些完全不同的輸入組合，而不需要針對每種組合單獨訓練一個模型。

贊助商廣告

影片模型的內部工作有兩條並行的通路。一條通路負責"理解"：它把改寫後的指令、從原始影片裡抽取的若干幀畫面、以及參考圖片，全部餵給一個叫做Qwen3.5-4B的語言模型（注意，這個語言模型和規劃模組用的那個不是同一個，兩者完全獨立、不共享權重），讓這個語言模型生成一組"多模態上下文向量"——你可以把這個理解為"一份綜合了文字、畫面、參考圖的濃縮理解摘要"，這份摘要後續會通過注意力機制持續影響影片生成的每一步。另一條通路負責"執行"：它把原始影片幀、參考圖片、以及正在被一步步從隨機噪聲中恢復出來的目標影片幀，拼接成一個長序列，讓影片模型在這個序列上做自注意力計算，從而讓模型能夠同時"看著原版"和"看著參考"來生成修改後的影片。

這裡還有一個技術細節值得一提。在影片模型處理這個長序列時，原始影片幀和參考圖片幀的"時間步"被設置為零，而正在被生成的目標影片幀的時間步則正常變化。"時間步"在擴散模型里代表的是當前幀的噪聲程度，時間步為零意味著"這是一個已經完全清晰、確定的內容"，而不斷變化的時間步意味著"這是一個正在被逐步去噪、生成的內容"。通過這種方式，模型能清楚地區分哪些是固定的參考內容、哪些是需要它來生成的新內容，避免把兩者混淆。

遮罩圖像的處理方式也很簡潔：研究團隊沒有為遮罩單獨設計一個輸入通道，而是把遮罩資訊直接合成到一張圖片上——比如原始影片幀疊加一個半透明的遮罩高亮區域——然後把這張合成圖作為普通的參考圖片輸入。這樣既統一了處理接口，也避免了模型結構的複雜化。

---

五、訓練數據從哪裡來：一個精心搭配的"食材庫"

一套這樣的系統要訓練起來，需要的數據量是非常大的。Aurora的影片編輯模型完全基於開源數據集訓練，沒有使用任何私有數據。研究團隊構建的訓練數據分成三大類。

贊助商廣告

第一類是"圖片編輯對"，來源包括CrispEdit-2M、UltraEdit和TextEdit等數據集，共約二百三十九萬個樣本。這類數據幫助模型學習基礎的"看懂文字指令然後修改圖片"的能力，提供最廣泛的指令跟隨訓練基礎。

第二類是"指令式影片編輯對"，來源包括ReCo、Ditto、OpenVE、EgoEdit、ROSE、EffectErase等多個影片編輯數據集，共約一百六十七萬個樣本。這類數據讓模型學會如何在保留影片時序性的同時按照指令修改內容。研究團隊對這些數據進行了嚴格篩選，使用Gemini Flash-Lite模型逐一評估每對數據的質量，檢查指令是否與修改內容吻合、修改區域是否精準、運動是否一致、編輯是否真實可信。

第三類是"參考圖引導的影片編輯對"，來源包括OpenS2V、RefVIE、SpatialVID、ROSE和EffectErase等，共約六十一萬個樣本。這類數據專門教會模型如何參考一張外部圖片來修改影片內容，對於Aurora的核心功能（把搜索到的參考圖"插入"到影片中）至關重要。

其中有一個特別有創意的數據構建策略值得單獨介紹。Ditto數據集裡有這樣一種情況：同一段原始影片分別被兩種不同的操作指令修改過，從而產生了兩個不同的編輯版本。研究團隊想到，可以把這兩個編輯版本互相配對——把其中一個編輯版本當作"新的原始影片"，把另一個編輯版本當作"目標影片"，然後讓模型學習如何從第一個編輯版本出發、只修改它和第二個版本之間不同的地方，同時保持兩者相同的地方不變。這種"複合任務"數據讓模型練習了一種更細膩的局部編輯能力。這批數據最終篩選出了約六萬五千對有效樣本。

---

六、AgentEdit-Bench：一把專門衡量"處理模糊需求"能力的尺子

Aurora不僅帶來了一個新的系統，還提出了一個新的評測基準，叫做AgentEdit-Bench。這個基準的設計出發點非常明確：現有的影片編輯測試基準，測的都是"當你把材料準備好了、指令寫清楚了"的情況下模型能做多好。但沒有一個基準專門測"當用戶的需求本身就是模糊的"時候模型的表現。

贊助商廣告

AgentEdit-Bench共有一百五十個測試案例，分成五種編輯任務類型。第一種是"品牌或知名實體替換"，比如把某個物品替換成某個真實品牌的產品。第二種是"品牌或知名實體添加"，比如在影片畫面里加入某個知名品牌的產品或logo。第三種是"品牌或知名實體的背景替換"，比如把背景換成某個著名地點或場景。第四種是"局部刪除"，要求精確刪掉指定的人或物，併合理修復背景。第五種是"推理式編輯"，用戶沒有直接說要改什麼，而是描述了一種效果或邏輯，需要模型先理解意圖再執行，比如"把湖面變成能倒映雲彩的鏡子"。

所有一百五十段源影片都來自Pexels版權允許使用的素材庫，所有編輯指令都經過設計，故意保留了"視覺模糊"或"語言模糊"的特徵，模擬真實用戶的說話方式。

評分由Gemini 2.5 Pro擔任"裁判"，對每個編輯結果從七個維度評分（非品牌相關任務只用前五個維度）。這七個維度依次是：指令是否被執行、修改區域是否精準、未修改區域是否被保留、視覺質量是否真實自然、時序是否穩定一致、品牌實體是否出現在畫面里、品牌實體的外觀是否與真實形象匹配。每個維度最高三分，品牌相關任務總分最高二十一分，非品牌任務總分最高十五分，最終統一換算成百分制報告。

刪除類任務還有一個特別設置：如果模型沒有把被刪除的對象真正刪掉，而是把它換成了別的什麼東西，那麼"指令執行"這一維度的得分上限就被強制壓低到一分，以此防止模型用"偷換內容"的方式矇混過關。

---

七、實驗結果：數字說明的改善有多顯著

Aurora在三個評測基準上進行了測試，結果呈現出一個清晰的圖景。

在專門為模糊需求設計的AgentEdit-Bench上，如果Aurora的影片編輯模型單獨運行（沒有規劃模組輔助，直接接收原始的模糊指令），它的綜合得分是74.7分。加上規劃模組之後，得分大幅跳升至87.9分，提升了13.2個百分點。作為對比，另外兩個同類方法UniVideo和Kiwi-Edit在同樣接受原始模糊指令（不藉助規劃模組）時，得分分別只有67.0分和69.7分。

贊助商廣告

規劃模組的幫助在哪類任務上最明顯？在三種涉及品牌或知名實體的編輯任務中，提升幅度最為突出。原因很直觀：這類任務的原始指令里通常只是提到了一個品牌名稱，但沒有提供任何視覺參考，影片模型只能靠自己對文字的理解來猜那個品牌的外觀，猜出來的東西往往只是"看起來像個logo"而不是真正準確的品牌視覺。規劃模組搜來對應的參考圖之後，影片模型就能精確參考真實的品牌視覺來執行替換或添加。

另一個值得關注的實驗是"規劃模組能否幫到別人的影片模型"。研究團隊把Aurora的規劃模組和UniVideo、Kiwi-Edit這兩個第三方模型配對測試：對UniVideo，加入規劃模組後得分從6.12提升到6.48（在EditVerse-Bench上）；對Kiwi-Edit，在OpenVE-Bench上得分從3.02提升到3.29。這說明Aurora的規劃模組不僅能幫自己的影片模型，對其他結構類似的影片編輯模型也有幫助，具有一定的通用性。

在已經充分提供好材料和指令的傳統基準上，Aurora同樣保持了競爭力。在EditVerse-Bench上，Aurora以7.61分位列所有開源方法第一，超過了Senorita-2M（6.54分）、Kiwi-Edit（7.00分）、UniVideo（6.12分）。與閉源商業系統Runway Aleph的7.17分相比，Aurora以開源模型身份基本持平甚至更優。在OpenVE-Bench上，Aurora得分3.38，同樣是開源方法中的最高，僅略低於閉源的Runway Aleph（3.51分）。

值得補充的是：在這兩個傳統基準的測試中，Aurora的規劃模組被設置為"只改寫文字指令，不觸發圖片搜索和遮罩工具"，因為這些基準已經預先提供了參考圖和精確指令。即便如此，單純靠指令改寫帶來的提升也依然存在，說明讓指令更規範、更精確，對影片編輯的效果是有正面影響的。

---

八、從訓練到工具調用的全流程技術細節

為了給讀到這裡還意猶未盡的讀者一個更完整的技術圖景，這裡把Aurora的完整工作流程再梳理一遍，把各個環節的技術細節串聯起來。

贊助商廣告

當一個用戶輸入了一段影片和一句不太完整的需求之後，Aurora的規劃模組（Qwen3-VL-8B加LoRA適配器）首先"看"影片、"讀"指令，然後輸出一段中間格式的JSON計劃——這是一份包含"改寫後指令"、"任務類型"、"是否需要搜圖以及搜圖關鍵詞"、"是否需要遮罩以及遮罩描述詞"的結構化文檔。

如果計劃里的搜圖欄位不為空，系統會調用Serper API（一個谷歌搜索的接口）獲取一批候選圖片，然後規劃模組再次登場，從這批候選圖片中挑選最合適的一張，作為影片模型的參考圖片。如果計劃里的遮罩欄位不為空，系統會依次調用GroundingDINO（一個負責"把文字描述轉化為畫面中的檢測框"的模型）和Segment Anything（一個負責"根據檢測框精確勾勒出物體邊界"的模型），把遮罩區域高亮合成到原始影片幀上，生成一張遮罩合成圖，同樣作為參考圖片輸入給影片模型。

影片模型接收到的最終材料包括：改寫後的指令文本、原始影片的若干幀、以及上述過程可能生成的一張或多張參考圖片（包括搜索到的品牌參考圖、用戶自己上傳的參考圖、或者遮罩合成圖）。這些材料被統一處理後，影片模型通過五十步去噪疊代，生成八十一幀的編輯後影片。

在推理階段，系統使用了一種三路引導機制：同時計算"有完整文字和視覺條件"、"只有視覺條件沒有文字"、"文字和視覺都沒有"三種情況下的速度場預測，然後按照一定權重加權組合，從而在遵循文字指令和保留原始影片內容之間取得更好的平衡。在AgentEdit-Bench測試中，文字引導權重設為2.0，視覺引導權重設為1.25；在另外兩個基準的測試中，視覺引導權重退化為1.0（等價於只用文字引導的標準兩路CFG）。

---

九、局限與未來方向：誠實的研究團隊告訴你它還做不到什麼

Aurora的研究團隊在論文中坦率地列出了當前系統的兩個明顯局限，這種誠實的態度值得稱道。

贊助商廣告

第一個局限是，規劃模組的訓練使用的是"離線偏好優化"（即DPO），但沒有做到"在線強化學習"。兩者的區別是這樣的：離線優化相當於讓模型反覆練習別人標註好的題目，而在線強化學習相當於讓模型真正去執行影片編輯、然後根據最終的影片質量來得到獎勵信號並調整行為。後者理論上能讓規劃模組學到更貼合實際效果的判斷策略，但問題在於：影片生成速度還不夠快，每次執行完整的編輯流程再給獎勵，在現有計算資源下訓練成本太高。研究團隊提出的未來解決思路是：先對影片模型做少步蒸餾（讓它從五十步變成幾步就能出結果），然後再做聯合在線強化學習訓練。

第二個局限是，五十億參數的影片模型在處理"運動幅度很大的新增對象"時表現不夠好。換句話說，在影片裡加入一個靜止擺放的商品logo，或者替換掉一個基本不動的背景，Aurora做得很不錯。但如果要在一段運動激烈的影片裡加入一個同樣在劇烈運動的新主體，並且要求這個新主體的物理運動看起來自然可信，現有模型就力不從心了。這一方面是因為五十億參數的模型本身對複雜運動的建模能力有上限，另一方面也是因為訓練數據里這類"大幅度運動插入"的樣本太少。研究團隊計劃通過更大的基礎模型和更廣泛的訓練數據組合來解決這個問題。

此外，研究團隊還特別提醒了潛在的風險：任何能夠修改影片、插入參考圖像的技術，都可能被用於未經當事人同意的身份操控，而Aurora的圖片搜索功能還可能引入版權和肖像權方面的風險。研究團隊明確表示，Aurora應被理解為一個創作輔助工具，而不是一個可用於生產"證據"或偽造資訊的工具。

---

說到底，Aurora解決的是一個每天都在發生、但長期被忽視的問題：當AI工具越來越強大，用戶卻越來越不願意（或者根本不知道怎麼）把自己的想法轉化成"機器可執行的格式"時，那個從"人類自然語言"到"機器精確指令"之間的橋樑，就是系統設計者應該負責補上的。Aurora用一個訓練有素的規劃模組擔起了這座橋的重量，讓用戶可以更自然地表達，剩下的髒活累活交給系統自己去搞定。

贊助商廣告

這套思路對整個AI應用領域都有啟發意義：不是每個工具都必須要求用戶先學會如何"正確地用它"，而是工具可以先學會如何理解"不夠標準的用戶輸入"。對普通人來說，這個區別意味著AI助手和AI工具之間的根本差異。

有興趣深入了解這套系統每一個技術環節的讀者，可以在arXiv上通過編號2605.18748檢索完整論文，代碼已開源於GitHub（搜索yeates/Aurora），項目主頁可通過搜索"Aurora-Page yeates"找到。

---

Q&A

Q1：Aurora影片編輯系統和普通影片編輯AI有什麼本質區別？

A：普通的AI影片編輯工具要求用戶提前準備好參考圖片、寫出精確的指令、甚至手動標註修改區域。Aurora則在影片編輯模型前面加了一個"規劃模組"，這個模組能理解用戶模糊的自然語言需求，自動判斷是否需要上網搜參考圖、是否需要自動框選目標區域，然後把整理好的材料包遞給影片模型執行，用戶不需要自己準備任何額外材料。

Q2：Aurora的規劃模組是怎麼訓練出"判斷什麼時候該搜圖"這個能力的？

A：研究團隊用兩個階段來訓練這個能力。第一階段是"監督式微調"，用兩萬五千個樣本教它每類任務該怎麼規劃。第二階段是"偏好對齊訓練"，專門針對五類容易出錯的邊界情形——比如影片裡已有的品牌不該再搜圖、純風格轉換任務不該搜圖等——構建了一千八百對正確與錯誤示範，讓模型學會區分這些細微的判斷差異。

Q3：AgentEdit-Bench評測基準和現有影片編輯評測基準有什麼不同？

A：現有的影片編輯基準測的是"指令和材料都已經準備好的情況下模型能做多好"，相當於只考驗廚師手藝。AgentEdit-Bench專門測"用戶的需求本身是模糊的、不完整的"情況下整套系統能不能正確理解並執行，共有一百五十個案例，涵蓋品牌實體替換、添加、背景更換、局部刪除、推理式編輯五類任務，評分標準也包含了"品牌外觀是否與真實形象匹配"這類針對模糊需求特有的考察維度。

贊助商廣告