影片"變身"太生硬？特拉維夫大學研究團隊教AI學會"勻速變形"

這項由特拉維夫大學、西蒙弗雷澤大學聯合開展的研究，發表於2026年7月舉辦的ACM SIGGRAPH Conference Papers會議（會議地點：美國洛杉磯），論文DOI為10.1145/3799902.3811049，論文編號arXiv:2604.22554。

贊助商廣告

你有沒有看過那種"變形"影片——一朵玫瑰慢慢變成一隻蝴蝶，或者一隻貓逐漸蛻變成一頭獅子？這類影片在短影片平台、影視特效乃至廣告製作中越來越常見。AI生成工具的進步讓創作者能夠輕鬆生成這樣的"變身"片段，看起來很美好，但實際體驗卻經常讓人皺眉：影片前半段什麼都沒發生，貓還是貓，然後在某兩幀之間，突然就變成了獅子。整個過程就好像一輛汽車在高速公路上一直停著，突然猛踩油門衝出去，既突兀又不舒服。

這個問題長期以來沒有被認真對待，因為大家雖然感覺"不對勁"，卻沒有辦法把這種感覺量化出來。你怎麼衡量一段影片的"變化節奏均不均勻"？這正是這篇論文要解決的核心問題。研究團隊提出了一種名為"語義進度函數"（Semantic Progress Function，簡稱SPF）的工具，以及基於它的"ReTime"方法，用來分析並糾正影片變化節奏不均勻的問題。

這項研究的價值不僅僅在於讓影片看起來更好看，更在於它提供了一把尺子——一把專門用來衡量"影片語義變化速度"的尺子。有了這把尺子，研究者可以客觀比較不同AI模型生成的影片質量，創作者可以精準控制變形過程的節奏，而觀眾則能獲得更流暢、更舒適的觀看體驗。

一、那輛"忽停忽沖"的汽車究竟出了什麼問題

要理解這項研究解決的是什麼問題，可以把一段變形影片想像成一段從A城開往B城的公路旅程。理想情況下，這輛車應該勻速行駛，每經過相同的時間，就前進相同的距離，讓乘客感覺平穩舒適。但現實中，AI生成的變形影片往往不是這樣。這輛"AI之車"會在路上磨磨蹭蹭地走很長一段，然後突然疾速衝刺一段，再磨磨蹭蹭……整段旅程充滿了猛烈的加速和減速。

贊助商廣告

論文開篇給出的那個例子非常形象：一個由影片模型生成的"從珠子變成蜜蜂"的影片，珠子在前半段幾乎紋絲不動，然後在很短的幾幀內驟然變成了蜜蜂。這就是所謂的"語義跳躍"——影片內容在語義層面（也就是"看起來是什麼東西"這個層面）發生了突兀的劇烈變化。

這種現象廣泛存在於當前主流的影片生成模型中，無論是用於電影特效的工具，還是用於藝術創作的商業軟體。問題的根源在於，這些模型在生成影片時，並沒有任何機制來約束"每一幀相較於前一幀，內容變化了多少"。模型只知道影片的開頭應該是什麼，結尾應該是什麼，中間怎麼過渡則完全憑"感覺"，結果往往是前松後緊或者前緊後松。

更麻煩的是，在這篇論文之前，根本沒有一個工具可以量化這種不均勻性。研究人員感知到問題的存在，但缺乏一個"測量儀"來告訴你：這個影片在第37幀到第42幀之間發生了多大的語義跳躍？這個問題恰恰是論文的出發點。

二、給影片裝上一個"語義速度表"

研究團隊設計的"語義進度函數"，本質上就是給影片安裝了一個速度表，只不過這個速度表衡量的不是車速，而是影片內容在"意義"層面的變化速度。

具體來說，這個速度表是這樣運作的。研究團隊首先藉助一個已經經過大量訓練的AI圖像理解模型——SigLIP，將影片中的每一幀圖像轉換成一個數字向量（可以理解為一串數字，代表這幀圖像的"語義指紋"）。兩幀圖像的語義指紋越相似，它們的語義距離就越小；兩幀圖像差異越大，語義距離就越大。這就好比用DNA指紋來鑑別兩個物種有多近的親緣關係——SigLIP給每幀圖像測出一個"語義DNA"。

之所以選擇SigLIP而非其他模型，是因為研究團隊通過對比實驗發現，SigLIP在捕捉細粒度語義變化方面表現最佳。舉個例子，在實驗中有一段影片記錄了一個人慢慢變得憤怒的過程，SigLIP能夠檢測到"憤怒情緒開始出現"這個細微的語義節點，而其他模型（如OpenCLIP、DINO）以及最簡單的像素級差異測量方法（L2距離），都無法捕捉到這種細節，只能感知到比較明顯的外觀變化。這個對比直接說明了為什麼衡量"語義變化"需要專門的AI理解模型，而不能簡單看像素有沒有動。

贊助商廣告

有了每對幀之間的語義距離之後，研究團隊用一套數學方法（帶權重的最小二乘優化）把這些散亂的距離數據整合成一條平滑的曲線。這條曲線就是語義進度函數。橫軸是幀的編號（時間軸），縱軸代表累積的語義變化量。如果這條曲線是一條直線，說明影片以勻速變化；如果曲線在某段驟然陡峭，說明那段時間語義變化很急劇；如果曲線在某段幾乎水平，說明那段時間影片內容幾乎沒有變化。

在權重設計上，研究團隊做了一個很有意思的決定：時間上相鄰的幀對之間的約束權重更高，時間上相距較遠的幀對之間的約束權重更低。這樣做的原因是，相鄰幀之間的變化更能反映"局部的語義速度"，而跨度太大的幀對比則容易受到干擾。距離超過30幀的幀對甚至被直接排除在計算之外，這既節省了計算資源，又讓得到的曲線更能反映影片的局部節奏變化。

三、從"量化問題"到"修復問題"：ReTime方法的誕生

有了語義進度函數這把尺子之後，研究團隊發現它不僅能用來診斷問題，還能直接用來解決問題。他們提出的"ReTime"方法，核心思想是：既然原始影片的語義變化速度是不均勻的，那就重新生成一遍影片，但這次在生成過程中告訴模型"時間要重新分配"。

這個"時間重新分配"的過程，可以用一個音樂剪輯的比喻來理解。假設你有一首歌的原始錄音，前半段演奏得太慢，後半段突然加速。你現在要把它重新處理，讓整首歌的節奏均勻。一個方法是直接對原始錄音做音頻處理，但這樣效果往往很差，會有明顯的拼接感。更好的方法是重新讓樂手按照新的節奏演奏一遍——這就是ReTime的做法。

具體而言，ReTime利用了現代影片生成模型（如Wan2.2和LTX-2）的一個內部機制：旋轉位置編碼（RoPE）。這個機制負責告訴模型"這幀是影片的第幾幀"。在正常生成時，第1幀就告訴模型"這是第1幀"，第2幀告訴模型"這是第2幀"，以此類推，時間是均勻的。ReTime的做法是：根據語義進度函數計算出需要怎樣重新分配時間，然後修改這些位置編碼，告訴模型一些扭曲過的時間資訊。

贊助商廣告

舉個直觀的例子。原始影片在第1到第50幀幾乎沒有語義變化，在第51到第60幀急劇變化。語義進度函數告訴我們，前50幀只完成了整體變化量的10%，而後10幀完成了剩下的90%。要讓變化均勻，我們需要重新生成影片時，把原本屬於1%~90%這段語義變化分配給影片的前90幀，把90%~100%這段變化壓縮到最後10幀。通過修改位置編碼，ReTime就實現了這種時間上的"重新分配"。

四、高頻和低頻的微妙平衡

然而，研究團隊很快發現，如果對所有的位置編碼都進行同等程度的扭曲，生成出來的影片會出現問題。影片裡會有局部的抖動和不自然感，仿佛是一段錄像被錯誤地拉伸了某些部分。

這個問題的根源在於，影片的位置編碼不是單一的，而是由多個頻率分量疊加而成的。低頻分量負責編碼影片的整體結構和全局變化趨勢，高頻分量負責編碼局部的細節和短時動態。如果把這個類比成一幅地圖，低頻分量相當於省級行政區劃的大框架，高頻分量相當於街道和建築物的細節。

研究團隊的解決方案是"頻率感知扭曲"：對低頻分量進行強烈的扭曲（因為全局節奏需要被修正），對高頻分量只進行輕微的扭曲（因為局部細節不應該被過度改動）。具體實現上，每個頻率帶的扭曲強度按照指數衰減的規律從低到高頻遞減。這個設計背後的直覺是：你需要大幅調整全局的敘事節奏，但不需要也不應該干擾每一個細節動作的自然流暢性。

通過消融實驗（也就是逐一測試不同方案的效果），研究團隊驗證了這個頻率感知設計的必要性。如果對所有頻率做同等扭曲，影片會出現不自然的抖動；如果只扭曲低頻而完全不動高頻，全局節奏的修正效果又不夠顯著。只有按照指數衰減的方式分配各頻率的扭曲強度，才能得到既全局節奏均勻、又局部流暢自然的結果。

五、擴散過程的早晚也有講究

研究團隊還發現了另一個值得關注的細節：在影片生成的過程中，AI模型是從噪聲開始，一步步"降噪"出影片內容的。這個過程早期主要確定影片的大結構，後期才填充細節。基於這個特性，研究團隊設計了一個隨時間衰減的調製機制。

贊助商廣告

簡單來說，在降噪過程的早期（也就是影片整體結構還在形成階段），施加較強的時間扭曲，強迫模型在全局層面按照目標節奏來構建內容。而在降噪過程的後期（細節填充階段），逐漸減弱扭曲力度，讓模型自然地生成局部細節，避免生硬幹預導致的質量下降。這就好比一個雕塑家，在粗雕階段就按照目標比例塑形，但在精雕細節階段則不再強行約束，而是順著材料的紋理自然雕刻。

此外，單次扭曲往往不足以完全解決節奏不均勻的問題，因為模型有自己的"慣性"，不會完全順著輸入的位置資訊走。研究團隊因此設計了一個疊代細化方案：先生成一遍影片，測量生成結果的語義進度函數，看離理想的直線還差多遠，然後調整位置編碼，再生成一遍，再測量……如此循環。實驗表明，三次疊代就足以讓影片的語義進度接近理想的勻速直線。

六、當AI管不住生成過程時：對已有影片的重構

上面介紹的方法適用於"你可以控制影片生成模型"的場景。但現實中，很多影片來自閉源商業模型，你根本沒法修改它的內部機制；還有很多影片來自真實拍攝，根本沒有所謂的"生成模型"。面對這類情況，研究團隊提供了第二套解決方案：對現有影片進行重構。

這套方案的思路是，先用語義進度函數分析影片，找出語義變化速度突變的節點，把影片切分成若干段，每段內部的語義變化速度相對均勻。然後，把每段的首幀和尾幀提取出來，作為關鍵幀輸入給影片生成模型，讓模型重新生成這一段的中間過程，並根據語義變化量來分配每段的時長（語義變化大的段分配更多時長，變化小的段分配更少時長）。最後，把重新生成的各段拼接在一起，就得到了節奏均勻的版本。

論文中以美劇《怪奇物語》第四季中的一段變身場景為例展示了這個效果。原版影片中，因為一道閃電打來，人物的變身過程被一個極強的光影變化所掩蓋，看起來像是突然變身，而非逐漸蛻變。經過研究團隊的方法處理後，重構的影片把這段語義變化均勻分攤到整個片段，背景元素的緩慢生長和人物形態的漸進蛻變都清晰可見，視覺體驗遠比原版流暢。

贊助商廣告

這套方案的另一個優勢在於，它對使用的影片生成模型沒有特定要求。只要模型能夠接受"首幀+尾幀"作為條件輸入，或者能夠接受一組有序關鍵幀作為輸入，就可以被整合進這套流程中。研究團隊分別用Wan2.2和LTX-2兩個不同架構的模型驗證了這一點，兩者都取得了良好效果，說明這個框架的適用性確實很廣。

七、不只是"勻速"——任意節奏都可定製

研究團隊還順便展示了一個有趣的擴展能力：語義進度函數不僅可以被用來"線性化"影片（讓變化勻速），還可以被用來把影片調整成任意目標節奏。

研究團隊用一段日出影片演示了這個能力。他們設定了兩種目標節奏：一種是"先快後慢"的指數衰減曲線，一種是"先慢後快"的指數增長曲線。通過ReTime，他們成功把同一段影片改成了兩個截然不同的版本：一個版本里太陽快速躍出地平線然後緩緩升高，另一個版本里太陽緩緩出現然後驟然高升。整個調整過程只需要指定目標節奏曲線，無需任何手工標註。

這個能力在影視創作中有很實際的應用價值。比如一個導演想要某個變形鏡頭"先從容後驚心"，或者一個廣告創作者想要產品的"變身"過程在關鍵時刻特別突出，都可以通過這種方式精確實現，而不再依賴剪輯師的手感或者反覆重拍。

八、用數字驗證：量化評估與用戶研究

研究團隊對方法的有效性進行了多層次的量化驗證。

首先是合成實驗驗證。研究團隊設計了一個非常乾淨的測試場景：讓一個三維模型（Keenan的斑點狗模型，一個電腦圖形學領域常用的標準測試物體）在純白背景上以不同速度旋轉——勻速旋轉、加速旋轉、減速旋轉。由於場景極其簡單，語義進度函數的變化幾乎完全由旋轉速度決定。實驗結果顯示，語義進度函數計算出的曲線與真實的旋轉角度曲線高度吻合，準確捕捉到了三種旋轉速度模式。這驗證了語義進度函數確實在追蹤"內容變化的節奏"，而不是在測量其他什麼東西。

贊助商廣告

其次是影片質量保持驗證。研究團隊對128個分別由Wan2.2和LTX-2生成的影片進行了處理，並用VBench這一標準影片質量評測工具對原始版本和ReTime處理後的版本進行了對比。評測指標涵蓋美學質量、動作流暢度和時間一致性三個維度。結果顯示，處理前後的影片在所有指標上的差異都在一個標準差以內，說明ReTime在修正語義節奏的同時，沒有顯著損害影片的整體質量。

最後是用戶研究。真實用戶的主觀感受才是最終裁判。研究團隊進行了一項主觀評測，讓參與者在原始影片和ReTime處理後的影片之間做選擇。結果顯示，88%的參與者認為ReTime處理後的版本在語義節奏上更為均勻和流暢，同時視覺質量也得到了維持。這個數字直接說明了方法的實際感知效果。

九、這項研究的邊界與未來方向

任何方法都有它的適用範圍和局限，這篇論文的作者也坦率地討論了這些問題。

當前方法的主要局限在於，語義進度函數依賴的是逐幀的圖像語義嵌入，而圖像嵌入對影片內容的理解是以幀為單位的，不感知時序上的動態資訊。這意味著，當影片中存在劇烈的攝像機運動（比如快速平移或旋轉）、強烈的光影變化（比如突然的強光照射），或者大面積的非語義性外觀變化時，語義進度函數可能會把這些感知上的變化誤判為語義內容的變化，從而導致不準確的節奏分析。如何把真正的語義變化和這些"假變化"區分開來，是一個有待解決的挑戰。

另一個局限在於疊代細化的次數。研究表明三次疊代足夠，但隨著疊代次數增加，時間位置編碼會逐漸偏離模型訓練時所使用的分布，可能導致影片質量退化。因此，疊代次數不能無限增加，這在某些極端情況下可能限制糾正效果的上限。

研究團隊提出了幾個有價值的未來研究方向。引入能夠感知動態資訊的時序嵌入（而非純靜態的圖像嵌入）可能有助於區分語義變化和運動變化。將語義進度函數擴展為多維度的函數——比如同時追蹤"身份變化速度"、"風格變化速度"和"幾何變化速度"——將允許對影片變化過程進行更精細的控制。此外，這套框架還可以被應用於影片生成模型的基準測試，讓研究者客觀比較不同模型在"語義變化均勻性"這個維度上的表現。均勻節奏的變形影片數據還可以作為訓練數據，用來訓練能夠精確控制"變化強度"的新一代生成模型。

贊助商廣告

說到底，這項研究做的事情看似小眾，但觸及了一個非常普遍的問題：當AI幫你"講一個變化的故事"時，它默認講得節奏很差。這篇論文提供了一個清晰的診斷工具和一套可操作的修複方案，讓AI生成的影片變化過程能夠被有意識地控制和調整，而不再完全聽憑模型的隨機發揮。對於影片創作者、影視工作者乃至對AI生成內容質量感興趣的研究者來說，這都是一個值得關注的進展。有興趣深入研究的讀者，可以通過DOI:10.1145/3799902.3811049或arXiv編號2604.22554查閱完整論文。

Q&A

Q1：語義進度函數（SPF）到底衡量的是什麼，跟普通的影片幀差異有什麼區別？

A：語義進度函數衡量的是影片內容在"意義"層面的累積變化量，而不是像素級別的視覺差異。普通的幀差異可能因為一陣風吹過、一道閃光或者鏡頭晃動而劇烈波動，卻完全沒有語義上的實質變化。SPF藉助SigLIP這類語義理解模型，提取每幀的語義指紋，再計算這些指紋之間的語義距離，因此能區分"看起來有變化"和"內容本質上在變化"，這是它與簡單像素差異最根本的不同。

Q2：ReTime方法需要重新訓練影片生成模型嗎？

A：不需要重新訓練模型。ReTime是在模型推理（生成）階段進行干預的，具體方式是修改模型內部用來表示時間位置的編碼資訊（RoPE），讓模型以為時間的流逝速度是經過重新分配的，從而生成節奏更均勻的影片。整個過程不改變模型的任何參數，也不需要額外的訓練數據或微調過程。

Q3：對於來自真實拍攝或閉源AI工具生成的影片，這套方法還能用嗎？

A：可以使用，但走的是另一條路徑。對於無法介入生成過程的影片，研究團隊提供了"分段重構"方案：先用SPF分析影片找到語義節奏突變點，把影片切成若干段，再把每段的首尾關鍵幀輸入給任意一個支持首末幀條件生成的影片模型，重新生成中間過渡內容，最後按語義變化量分配各段時長並拼合。這條路徑對具體使用哪個影片模型沒有限制，適用範圍很廣。

贊助商廣告