新加坡國立大學團隊突破影片背景替換難題：AI終於能讓影片背景「活」起來了

這項由新加坡國立大學Show Lab實驗室主導的研究，以預印本形式於2026年5月發布，論文編號為arXiv:2605.06535。研究團隊提出了名為Sparkle的完整解決方案，包含數據集、評測基準和模型，全部開源發布。

贊助商廣告

你有沒有想過，為什麼電影裡演員可以站在紐約街頭，下一個鏡頭卻出現在月球上？這背後是一套複雜的影片後期製作工序，專業術語叫"背景替換"。在好萊塢，這需要專業團隊花費大量時間和金錢來完成。然而，隨著AI技術的快速發展，人們越來越希望通過一句自然語言指令，就讓AI自動完成這件事——"把背景換成秋天的森林"、"把背景改成夜晚的海邊"，AI就能自動搞定。

現實情況卻讓人大失所望。即便是目前最先進的開源影片編輯模型，在處理背景替換任務時，表現依然慘不忍睹。被替換後的背景常常呆若木雞，像一張靜止的圖片貼在影片後面，毫無生氣；或者背景結構直接崩塌，變得模糊混亂，看起來像是有人用橡皮隨意塗抹了畫面。更糟糕的是，有時候你說要換成"有海鷗飛翔的海邊"，AI生成的畫面里根本沒有海鷗——指令和結果對不上號。

新加坡國立大學的研究團隊決定從根本上找出原因。他們深入分析了目前最大的開源影片編輯數據集OpenVE-3M的數據生產流程，發現了問題的核心所在：這個數據集在生成訓練數據時，只告訴AI模型"前景長什麼樣"，卻完全沒有給背景任何具體的引導。這就好比你讓一個畫家幫你畫一幅新場景，你只給了他主角的草圖，卻沒有給他任何關於背景的參考資料，結果畫家只能靠猜，當然畫不好。

正是基於這個洞察，研究團隊提出了一套全新的數據生產方案——將前景和背景的生成引導徹底分開，各自獨立處理，再組合到一起。他們把這個方案生成的數據集命名為Sparkle，總共包含約14萬對高質量影片樣本，涵蓋五大類背景變換主題。基於這個數據集訓練出的模型，在各項評測指標上都大幅超越了所有現有的基準模型。

贊助商廣告

一、癥結在哪裡：一場對"靜止背景"的病因排查

要理解為什麼以前的方法會生成靜止、死板的背景，需要先了解現有方案的工作原理。

以OpenVE-3M數據集的生產流程為例。這套流程分為兩步：第一步，取出源影片的第一幀圖像，用圖像編輯AI把背景換掉，得到一張"新背景第一幀"；第二步，把這張"新背景第一幀"連同前景輪廓資訊一起輸入一個影片生成AI，讓它據此生成完整的替換後影片。

問題就出在第二步。那個影片生成AI拿到的引導資訊，只有一個從原影片中提取的"前景邊緣線條圖"（技術上叫Canny邊緣圖）。這張線條圖只告訴AI"人在哪裡、人的輪廓是什麼"，卻完全沒有任何關於背景該如何運動的資訊。於是，AI在生成背景時，只能憑空想像，而它的注意力又大量集中在前景上——畢竟那是唯一有明確引導的部分。背景的運動資訊完全缺失，最終呈現出來的就是一個呆滯的、幾乎不動的背景。

在極端情況下，這個AI模型甚至會"偷懶"——背景的結構直接崩塌，變成一片模糊的色塊，因為模型實在不知道背景該怎麼畫。

研究團隊發現的第二個問題是"提示詞不對齊"。OpenVE-3M缺乏嚴格的質量篩選機制，導致生成的內容經常和指令對不上。你說要"海鷗在遠處飛翔"，畫面里偏偏沒有海鷗；你說要"窗簾在微風中輕輕搖曳"，畫面里連窗簾都沒有，更別說搖曳了。這樣的訓練數據餵給AI，AI當然也學不會如何正確理解並執行指令。

第三個問題是前景追蹤不夠精準。提取前景時使用的是單次追蹤方法，容易出現"實體丟失"的情況。比如影片第三幀里人的手是張開的，但因為追蹤誤差，編輯後的影片裡那隻手變成了握拳——細節資訊丟失了，前後不一致。

二、破局之道：把前景和背景的生成徹底拆開來做

研究團隊的解決方案可以用一個建築裝修的比喻來理解。以前的做法，是讓一個工人同時負責刷牆（背景）和安裝家具（前景），結果兩件事都沒做好；新的做法是：一個專業團隊專門負責設計和裝修牆面，另一個專業團隊專門負責搬運和擺放家具，最後再把兩者結合起來，互相協調。

贊助商廣告

Sparkle數據集的生產流程分為五個階段，每個階段都有嚴格的質量把控。

第一階段是篩選合適的源影片。由於目前的AI模型在同步背景攝像機運動方面還不夠成熟，研究團隊決定只選用固定機位拍攝的影片——也就是攝像機沒有移動的影片。這樣，背景可以被乾淨地"揭下來"，不會和攝像機的運動混在一起造成混亂。

篩選分兩輪進行。第一輪用光流法（一種分析畫面中物體運動方向和速度的技術）和單應矩陣估計（一種判斷攝像機是否在移動的數學工具）快速過濾，把94萬個影片縮減到約26萬個。第二輪則讓大語言模型Qwen3-VL-32B對剩餘影片逐一審查，要求它在下判斷前先說明自己的理由，以確保準確性，最終保留約22.4萬個固定機位影片。

第二階段是生成初步的背景替換第一幀。研究團隊先用AI生成多樣化的編輯指令，然後用圖像編輯模型FLUX.2-klein-9B對每個影片的第一幀進行背景替換。替換完成後，立即用圖像質量評分模型EditScore評分，凡是總分低於8分的一律丟棄——這一步嚴格把控了提示詞對齊質量，確保生成內容和指令相符。

第三階段是核心創新：單獨生成背景影片。這一步是整個方案最關鍵的突破。

研究團隊首先用AI識別出編輯後第一幀中需要保留的前景元素（比如畫面中的人），然後專門用另一個AI把前景從圖像中擦掉，只留下純淨的背景圖像。這個純背景圖像的生成同樣經過質量篩選，使用更嚴格的8.5分閾值。

有了純淨的背景圖像後，再把它輸入一個圖生影片的AI模型Wan2.2-I2V-A14B，同時配上描述目標背景的文字（比如"金色的秋葉在微風中飄落，陽光透過樹冠灑下"），讓這個模型專心致志地生成背景影片。因為畫面中沒有前景的干擾，模型可以把所有注意力都放在背景的動態細節上——波浪如何翻騰、樹葉如何飄動、雲朵如何流動，這些細節都能被精準地表現出來。

贊助商廣告

第四階段是高精度前景追蹤算法BAIT。

BAIT的全稱是Bbox-Anchor-In-Temporal，可以理解為"基於多時間錨點的邊界框追蹤"。這個算法的設計思路是：與其用一個追蹤器從頭跑到尾（容易中途迷失），不如在影片的多個時間節點各自獨立地啟動追蹤，然後把所有追蹤結果投票匯總。

具體來說，BAIT會先讓大語言模型在每隔半秒採樣一幀的畫面上，分別識別並標註出前景物體的位置框（邊界框）。這些來自不同時間點的位置框，就像在追蹤過程中設置的多個"導航錨點"。然後，以每個錨點為起點，分別向前和向後運行SAM3（一個高級的影片物體分割追蹤模型），獲得N套獨立的追蹤結果。最後，對這N套結果的每一個像素進行"投票"：只有超過半數追蹤結果都認為某個像素屬於前景，這個像素才被納入最終的前景遮罩。

這種多錨點投票機制極大地提升了追蹤精度。以前的單次追蹤方法常見的問題——比如眼鏡沒被完全追到，或者背景里出現了不屬於前景的雜點——在BAIT的多輪投票機制下都得到了有效抑制。

第五階段是用前景和背景的分離引導來合成最終影片。

有了精準的前景遮罩（知道每一幀中哪些像素屬於前景）和單獨生成的背景影片，研究團隊接下來要做的是把兩者合成出最終的替換背景影片。

這裡的做法不是簡單地"把前景直接貼到背景上"——那樣會產生生硬的剪切邊緣，而且人物的光照和背景完全不協調（比如夜晚場景里人物還是白天的打光）。正確的做法是：分別從源影片（前景參考）和新生成的背景影片中提取邊緣線條圖，然後按照前景遮罩把兩套線條圖拼合在一起——前景區域用前景的邊緣線，背景區域用背景的邊緣線。這套組合後的線條圖，連同第二階段生成的"新背景第一幀"，一起輸入一個影片控制生成模型Wan2.2-Fun-A14B-Control，由它來生成最終的替換背景影片。

完成後，再次用EditScore對生成影片進行質量評分，低於8分的全部淘汰。整個五階段流程，每一個涉及內容修改的環節都有質量過濾，最終保留下來的都是高質量樣本。

贊助商廣告

三、Sparkle數據集：14萬對精心打造的影片訓練樣本

經過整個流程的層層篩選和生成，Sparkle數據集最終包含約13.7萬對影片，覆蓋五大背景變換主題。

這五個主題分別是"地點替換"（約3萬對，如把背景換成海濱燈塔、地中海露台、鄉村葡萄園等）、"季節變換"（約3.6萬對，如換成秋天的金色森林、冬雪覆蓋的場景等）、"時間變換"（約2萬對，如換成月光下的夜晚、黎明時分的薄霧等）、"風格變換"（約1.5萬對，如換成油畫風格、電馭叛客風格等）以及"重新創建OpenVE-3M中的場景"（約2萬對，用於與原數據集直接對比）。

值得一提的是"風格變換"主題。這個類別要求AI不僅改變背景的視覺風格，還必須保持前景人物完全不變——這對現有模型來說是個相當嚴苛的約束，導致通過質量過濾的比例相對較低。但正因如此，這部分數據對於提升模型的精細控制能力格外有價值。

整個數據集覆蓋約100個不同的具體場景，21個子主題，為模型訓練提供了豐富的多樣性。

四、Sparkle-Bench：專為背景替換設計的最大評測基準

除了訓練數據集，研究團隊還建立了一套專門用於評測背景替換能力的基準——Sparkle-Bench。

這個基準包含458段影片，覆蓋97個不同場景、21個子主題，是目前規模最大的背景替換專項評測基準。這些影片的來源很有意思：它們都是通過了前四個階段質量檢驗，但在第五階段（最終影片合成）的質量檢驗中未能達標的影片。這樣的影片"難度適中"——它們有足夠的挑戰性，但又不是完全無法完成的任務，非常適合用來測試模型的真實能力上限。

評測維度也做了專門設計，分為六個維度，從三個視角來考察編輯質量。全局視角包括兩個維度：指令合規度（生成的影片是否真正按照指令描述來做）和整體視覺質量（包括影片的整體畫質，以及前景和背景的光照、色溫、陰影是否協調一致）。前景視角同樣包括兩個維度：前景完整性（人物或物體是否被完整保留，有沒有被破壞）和前景運動一致性（保留下來的前景運動是否和原影片一致）。背景視角也是兩個維度：背景動態性（背景中的運動是否符合指令描述的活躍程度，比如指令要求"洶湧的海浪"，生成的是否真的有動感海浪）和背景視覺質量（替換後的背景本身是否清晰、結構穩定、視覺效果好）。

贊助商廣告

所有維度均採用1到5分的評分制，並規定其餘五個維度的分數不得高於"指令合規度"的分數，以防止模型通過提高畫質來掩蓋指令執行不到位的問題。評分由Gemini-2.5-Pro擔任評審，它會先生成評分理由再給出分數，確保評分的可靠性。

五、實驗結果：Sparkle訓練出的模型大幅領先

研究團隊選擇了Kiwi-Edit作為基礎模型進行微調實驗。Kiwi-Edit是一個5B參數（50億參數）的通用影片編輯模型，支持720P解析度和81幀影片，是目前開源模型中性能較好的代表之一。研究團隊沒有對模型結構做任何改動，只是用Sparkle數據集對其進行了1萬步的微調訓練，得到Kiwi-Sparkle，以證明性能提升純粹來自數據質量的改善。

在OpenVE-Bench上的測試結果非常有說服力。OpenVE-Bench是OpenVE-3M官方的評測基準，包含三個維度：指令合規度、一致性與細節保真度、視覺質量與穩定性，每個維度滿分5分。

現有的最佳開源模型UniVideo（13B參數，260億參數，比Kiwi-Edit大好幾倍）得分為2.74分；商業模型Runway Aleph得分2.62分；Kiwi-Edit原始版本得分2.58分——這些模型全都沒能跨過3.0分（滿分60%）的門檻。而經過Sparkle微調的Kiwi-Sparkle，得分直接躍升至3.29分，比Kiwi-Edit原版提升了28%，比參數量是它三倍的UniVideo和OmniVideo2都要高出一大截。

在Sparkle-Bench上，差距更為懸殊。各路模型的總分大多在2到2.7分之間徘徊，而Kiwi-Sparkle的總分達到了3.81分，尤其是指令合規度達到4.10分，成為唯一突破4分大關的模型。背景動態性維度的得分為3.54分，相比Kiwi-Edit的1.57分提升了驚人的125%——這正是背景生成方式改變帶來的最直接體現。

從各主題的細分結果來看，"時間變換"類別（改變場景時間，如白天變夜晚、正午變黃昏）是所有模型表現最差的類別，包括Kiwi-Sparkle。這類編輯需要大幅調整光照，不僅背景要變暗，前景人物的受光情況也必須相應調整，目前即便是Kiwi-Sparkle在這方面也還有明顯提升空間，但它的得分仍然比目前最佳競爭對手Lucy-Edit-1.1高出約41%。"風格變換"類別各模型得分普遍最高，這說明大量的全局風格遷移訓練數據在某種程度上也能幫助模型處理背景風格變換任務。

贊助商廣告

六、消融實驗：逐一驗證每個創新點的貢獻

為了證明Sparkle的每一個設計決策都是有效的，研究團隊進行了嚴格的消融實驗，逐一驗證各個組件的貢獻。

第一組對比是"直接貼圖"（Copy-and-Paste）與Sparkle方案的對比。"直接貼圖"的做法是把經BAIT追蹤的前景直接貼到新背景上，不經過影片重新生成。結果顯示，直接貼圖方案的平均分只有2.68分，而Sparkle方案達到3.71分，提升了38%。在"時間變換"類別，視覺質量的提升幅度高達115%。直接貼圖方式的主要缺陷有兩個：一是剪切邊緣生硬，前景和背景之間有明顯的"摳圖痕跡"；二是光照完全不協調，尤其是當背景從白天換到夜晚時，人物依然是白天的打光，看起來極不自然。Sparkle通過重新生成整個影片，讓模型有機會根據背景環境調整前景的光照，產生了更自然的融合效果。

第二組對比是"只用前景引導"與"前景+背景雙引導"的對比。這組實驗排除了不同工具鏈的影響，用同樣的BAIT追蹤方法提取前景，唯一的區別是最終影片生成時有沒有背景的線條圖引導。結果顯示，只有前景引導時平均分為3.36分，加入背景引導後提升到3.71分（提升10%）。更重要的是，只用前景引導時會出現和OpenVE-3M類似的背景崩塌問題——高頻紋理丟失（草地沒了細節，花朵模糊一片），光照失控（畫面突然過曝）。加入背景引導後這些問題得到了顯著改善。

另外，從"只用前景引導"方案比OpenVE-3M原始數據更好這一事實可以推斷：BAIT追蹤算法的精度提升和質量過濾機制，兩者共同貢獻了約10%的性能提升，剩餘的10%則來自背景引導的加入。

第三組對比驗證了數據多樣性的價值。研究團隊分別用"只有OpenVE-3M子集"和"完整Sparkle數據集"訓練了兩個版本的Kiwi-Edit，在OpenVE-Bench上評測。只用OpenVE-3M子集微調的模型得分為3.04分（相比基礎版提升18%），而用完整Sparkle數據集微調的模型得分為3.29分（提升28%）。這說明Sparkle新增的四個主題，雖然不在OpenVE-Bench的測試範圍內，但它們帶來的多樣性確實讓模型學到了更通用的背景替換能力，在不同場景下都有所幫助。

贊助商廣告

七、一個意外的附加能力：用影片編輯器來"摳圖"

研究過程中，研究團隊發現了一個有趣的副產品。他們在Style主題下專門設計了一類場景——"極簡純白背景"，指令格式類似"把背景換成一個極簡的純白空間，有柔和漂浮的白色粒子緩緩升起"。

神奇的是，經過Sparkle微調的Kiwi-Sparkle，在接到這類指令時，能夠精準地把前景物體從各種複雜背景中分離出來，放置在白色背景上——效果非常乾淨，即便是自行車、汽車這類有大量細節和不規則輪廓的物體也能處理得很好。這意味著，Kiwi-Sparkle實際上具備了相當強的影片前景分割能力，可以作為一種"通過文字指令觸發的影片摳圖工具"來使用。

研究團隊認為，這個發現指向了一個值得未來探索的方向：通過編輯型指令來實現影片物體分割，或許能成為一種比傳統方法更靈活、更易用的影片前景提取方式。

說到底，這項研究解決的是一個看似簡單、實則棘手的問題：如何讓AI生成的替換背景真正"活起來"，而不是一張靜止的圖片。答案是回歸常識——想讓背景好，就得專門為背景提供引導；想讓前景乾淨，就得用更精密的多輪投票追蹤；想讓兩者融合自然，就得重新生成整個畫面，而不是簡單粗暴地拼貼。

這意味著什麼？對於普通用戶來說，這項技術的成熟意味著未來可能出現更好用的影片編輯工具——你只需要打幾個字，就能讓影片裡的人"出現"在完全不同的場景中，背景會自然地流動和變化，光照也會自動調整到位。對於內容創作者、廣告從業者和獨立電影製作人來說，這有可能大幅降低後期製作的成本和門檻。

當然，技術還有明顯的局限。目前系統只能處理固定機位拍攝的影片，一旦攝像機有移動，整個方案就無法正常工作；在需要大幅調整光照的場景（如白天變夜晚）中，效果依然有提升空間；固定機位的限制也使得適用場景相對受限。這些方向，都留待未來的研究繼續攻克。

贊助商廣告

感興趣的讀者可以通過arXiv編號2605.06535查閱這篇完整論文，或訪問showlab.github.io/Sparkle/ 獲取開源代碼、數據集和模型權重。

Q&A

Q1：Sparkle數據集和OpenVE-3M數據集的核心區別是什麼？

A：OpenVE-3M在生成訓練數據時只給AI提供了前景的引導資訊，背景完全沒有引導，導致生成的背景是靜止的、容易崩塌的。Sparkle數據集的核心突破在於單獨為背景生成專屬的引導影片——先把前景從畫面中擦掉，再用圖生影片模型生成只包含背景動態的影片，然後把前景和背景的引導分別提取邊緣線條圖，合併後輸入控制模型重新生成整個影片，實現了真正有生命力的背景。

Q2：BAIT前景追蹤算法比普通單次追蹤好在哪裡？

A：普通單次追蹤是從影片開頭出發，一路追到結尾，中途容易"丟失"目標或引入噪聲（比如把背景里的像素錯誤地算進前景）。BAIT的做法是在影片的多個時間節點分別獨立啟動追蹤，得到多套結果，再用投票機制匯總——一個像素必須被超過一半的追蹤結果都認定為前景，才被納入最終結果。這種多錨點投票機制讓細節（比如眼鏡的邊緣、手指的形狀）得以被精準保留。

Q3：Kiwi-Sparkle比其他影片編輯模型強多少？

A：在OpenVE-Bench背景替換任務的測試中，Kiwi-Sparkle得分3.29分，比基礎版Kiwi-Edit高28%，比參數量是它三倍的UniVideo（13B參數）也要高出近20%，是所有測試模型中唯一突破3分門檻的開源模型。在專門設計的Sparkle-Bench上，Kiwi-Sparkle總分3.81分，背景動態性維度得分3.54分，而Kiwi-Edit的這一項得分僅1.57分，提升幅度超過125%。