Netflix與牛津大學聯手：當影片生成遇上「點追蹤」，影視製作的未來長這樣

這項研究由Netflix、Eyeline Labs、牛津大學、加州大學洛杉磯分校、石溪大學以及哥倫比亞大學的研究人員聯合完成，發表於2026年7月19日至23日在洛杉磯舉辦的SIGGRAPH Conference Papers會議，論文編號為DOI: 10.1145/3799902.3811093，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

**一部電影，兩個永恆的挑戰**

拍一部電影，導演最頭疼的事情是什麼？答案大概率不是演員檔期，而是兩件看似簡單卻極難兼顧的事情：第一，畫面里的角色、道具和場景必須長得對；第二，它們必須按照導演想要的方式運動。

以特效合成為例，假設你想把一個演員的臉替換成另一個人的樣子，並讓這張"新臉"隨著演員的每一個點頭、轉身、側臉準確地跟隨運動。這需要同時處理"長什麼樣"和"怎麼動"兩個維度的精確控制，而現有的AI影片生成工具幾乎無一例外地把這兩件事拆開來做——要麼專門控制運動，要麼專門控制外觀，從沒有一個工具能在同一個框架里把兩者融合得天衣無縫。

正是為了解決這個問題，來自Netflix等機構的研究團隊提出了一個名叫"Go-with-the-Track"（隨跡而行）的影片生成框架。它的核心思路可以用一句話概括：用一組跟蹤點，同時告訴AI"畫面里該有什麼"和"它應該怎麼動"。

**一、現有工具為什麼總差那麼一口氣**

在理解這項研究的突破之前，有必要先弄清楚現有工具究竟卡在哪裡。

目前市面上有兩類主流的AI影片控制工具。第一類叫"點追蹤影片生成"，它的工作方式是這樣的：你給AI一張影片的第一幀圖像，然後在圖像上點幾個點、畫幾條運動軌跡，告訴AI"這個點該往哪裡走"，AI就會據此生成一段影片。這類工具對運動控制做得不錯，但有一個根本缺陷——所有可以被控制的內容，必須出現在第一幀里。如果你想讓一個人物從畫面外走進來，或者讓某個道具在影片中途才出現，這類工具就無能為力了，因為它不知道那個"尚未出現的人"長什麼樣。

贊助商廣告

第二類工具叫"參考圖像驅動影片生成"，它允許你提供一張或多張參考圖片，讓AI"認識"你想要的角色或場景，然後生成包含這些元素的影片。這類工具在外觀復現上表現不錯，但它缺少對運動的精細控制——AI大概知道"這個人要出現在影片裡"，但無法精確指定"這個人在第5秒出現在畫面左側，然後在第8秒走到右側"。

兩類工具各執一詞，卻都只說了半句話。影視工作者在實際創作中需要的，是既能控制"誰出現"，又能控制"在哪裡出現、怎麼動"——而"Go-with-the-Track"正是把這兩件事統一起來的嘗試。

**二、一個小小的"延伸"，打通了兩個世界**

研究團隊的核心創意，來自對一個古老概念的重新定義。

在電腦視覺里，"點追蹤"（point track）是一個有幾十年歷史的技術概念。它的意思很直接：在一段影片裡選一個點，然後追蹤這個點在每一幀里的位置，得到一條連續的運動軌跡。這就好比你盯著一隻蝴蝶飛行，把它每一刻的坐標記錄下來，最後得到一條蜿蜒的路徑。

傳統的點追蹤只活在影片幀的範圍內——軌跡的起點和終點都必須在影片某一幀上。而研究團隊做的事情是：把這條軌跡延伸到參考圖片上去。

舉個具體的例子。假設你有一張演員的正面照（參考圖），以及一段他從左走到右的影片。傳統點追蹤只能告訴你"演員的鼻尖在影片第1幀在坐標A，在第49幀在坐標B"。而"參考錨定點追蹤"（reference-anchored point-track）額外記錄了"演員鼻尖這個點，在參考圖片上的位置是坐標C"。

這一個小小的延伸意義重大。它意味著AI現在知道了三件事：參考圖裡的這個像素長什麼樣、它對應影片裡的哪個點、這個點在影片裡應該怎麼運動。外觀資訊和運動資訊通過一根"追蹤線"被穿在了一起，AI再也不需要猜測"參考圖裡的這張臉應該貼在影片的哪個位置"，因為追蹤點已經明確告訴它了。

**三、讓AI"認識"成千上萬條軌跡，是個技術難題**

贊助商廣告

把想法變成可以運行的系統，研究團隊遇到了一個棘手的工程問題：如何讓AI模型同時"認識"並區分數量龐大的追蹤點？

在這個系統里，每一條追蹤軌跡都需要一個獨特的"身份證"，讓AI能把"參考圖裡的第3472個點"和"影片第23幀里的同一個點"認出來是同一個點，並把正確的像素顏色貼上去。點的數量可以多達15000條，而且參考圖和影片幀在時間上是不連續的——參考圖可以是完全不同時間拍攝的照片，跟影片沒有直接的空間對應關係。

早期的研究嘗試用隨機生成的向量（可以理解為給每個點隨機分配一個毫無規律的"身份證號"）來解決這個問題。但研究團隊發現，隨機身份證有一個致命的缺陷：AI無法從身份證號本身得到任何關於"這個點在哪裡"的提示。兩條緊緊相鄰的軌跡，它們的隨機身份證號可能天差地別，就好像兩個住在同一棟樓里的鄰居，身份證號碼卻毫無相似之處，這讓AI無法利用空間上的近鄰關係來幫助自己"找到"正確的點。

研究團隊的解決方案叫做"空間感知點追蹤嵌入"（spatially-aware point-track embedding）。這個方案的邏輯很樸素：一條追蹤軌跡在影片幀里的運動路徑本身，就是它最好的身份證。每條軌跡在每一幀的坐標都是唯一的，而且空間上相近的軌跡會有相似的坐標序列，就像住在同一小區的人地址相似。

具體做法是：把一條追蹤軌跡在所有影片幀上的坐標（加上幀編號），先通過一種叫"正弦位置編碼"的數學變換轉成向量，再通過一個小型神經網路（MLP）處理，最後把所有幀的結果取"最大值"（max-pooling）匯總成一個代表整條軌跡的向量。這個向量既是這條軌跡的唯一標識，又天然包含了它的空間特徵——空間位置相近的軌跡，它們的標識向量也會在數學上更為相似。這就把隨機身份證換成了"帶地理坐標的身份證"，極大地幫助了AI在複雜場景中區分和關聯不同的追蹤點。

贊助商廣告

**四、像素級的精度與壓縮空間的矛盾，一個"分塊匯總"的妙招**

系統里還藏著另一個工程難題，這個問題來自AI影片生成模型的工作方式。

現代AI影片生成模型在內部處理的不是原始的高解析度像素，而是經過高度壓縮的"潛空間令牌"（latent token）。可以把這個過程理解為：原本一張1920×1080的影片幀，被AI壓縮成了一個小得多的表示，在空間上縮小了16×16倍，在時間上縮小了4倍。這種壓縮對於影片生成的效率至關重要，但也帶來了問題：追蹤點的坐標是在原始像素空間裡定義的（"第320行第480列"），而AI的內部空間裡根本沒有這麼精細的劃分。

一個粗暴的解決方法是把坐標直接按比例縮小——把原來在第320行的點，近似到壓縮後的第20行。但這樣會丟失大量精細的運動資訊，尤其是當多個運動點原本分散在同一個16×16像素塊的不同位置時，壓縮後它們會全部"坍縮"到同一個代表位置，細節蕩然無存。

研究團隊設計了一個"點追蹤適配器"（point-track adapter）來優雅地解決這個問題。它的工作方式是：把整個影片體積切分成許多"4×16×16時空塊"，每個塊對應壓縮後的一個令牌。對於落在同一個塊內的所有追蹤點，不是簡單地取其中一個或者平均，而是先把每個點的嵌入向量與它在塊內的相對位置（"我在這個塊的左上角還是右下角"）拼接起來，再經過一個小網路處理，最後取最大值匯總成一個代表整個塊的條件向量。

這個設計的精妙之處在於：它既把資訊壓縮到了AI能夠接受的維度，又通過"相對位置"保留了塊內各個點的精細位置差異。這有點像把一棟樓里所有居民的資訊匯總給物業管理員——管理員只需要知道"2樓左側單元有人按門鈴"，而不需要記住每個人的全部個人資訊，但這個"2樓左側"的位置資訊本身就已經足夠精確了。

**五、訓練數據的"混合配方"：合成、靜態與真實，缺一不可**

贊助商廣告

一個模型的能力上限，很大程度上由它的訓練數據決定。研究團隊在數據策略上也做了頗具匠心的設計。

訓練點追蹤條件影片生成模型，最大的數據困難是：真實影片裡的追蹤點坐標通常沒有"標準答案"。現有的追蹤工具本質上是在估計，面對快速運動、遮擋、透明物體等情況時，它給出的追蹤結果可能是錯的。拿錯誤的追蹤結果去訓練模型，就好比用錯誤答案去教小學生做數學題，模型學到的只是如何"表現得像在跟隨運動"，而不是真正精確地跟隨運動。

研究團隊採用了三類數據混合訓練的策略。第一類是真實動態影片數據集（如OpenVidHD、MiraData、OpenHumanVid等），這些數據提供了豐富多樣的真實世界視覺先驗，讓模型學會生成逼真的畫面；但這類數據的追蹤點是用外部工具估計的，帶有噪聲。

第二類是真實靜態場景數據集（如DL3DV）和合成靜態場景數據集（如TartanAir），這些數據集包含了精確的相機位姿和深度資訊，可以用數學方法精確計算出每個點在不同相機角度下的投影坐標，從而獲得"有標準答案"的追蹤點。

第三類是合成動態場景數據集（PointOdyssey），這個數據集包含了帶有精確三維網格的動態場景，可以直接從網格頂點提取每幀的二維坐標，得到完全精確的追蹤軌跡。

三類數據按照11:3:3的採樣比例混合使用，形成了大約3:7的合成與真實數據比例，以及3:7的靜態與動態場景比例。這個配方讓模型既保留了在真實影片上練就的"審美能力"，又通過有標準答案的合成數據培養了"按指令精確行動"的能力。

此外，研究團隊還發展了一種"疊代點追蹤加密"算法。傳統方法要麼只追蹤第一幀里可見的點，要麼在所有幀上均勻隨機採樣。均勻隨機採樣的問題在於：對於一段有49幀的影片，總共只採樣2500個點，平均每幀僅約30個點分散在整個畫面里，很容易出現大片區域沒有追蹤點的"空白地帶"。疊代加密算法的做法是：先做一次追蹤，然後把畫面分成20×20像素的小格，找出哪些格子裡還沒有追蹤點，在空白格子裡新增查詢點，再次追蹤，如此疊代幾次，逐步填滿整個畫面，確保每個角落的運動都被捕捉到。

贊助商廣告

**六、模型怎麼讀懂參考圖，一個"帶地址的照片牆"**

除了點追蹤，系統還需要處理另一個輸入：參考圖像。研究團隊採用的方法是把參考圖像經過VAE（變分自編碼器，可以理解為一個把圖片壓縮成高效表示的工具）編碼後，直接沿時間維度拼接到帶噪聲的影片令牌序列里，讓模型在處理影片的同時"看著"參考圖。

為了讓模型區分"這個令牌是需要生成的影片幀"和"這個令牌是參考圖"，研究團隊做了兩個小調整：參考圖像被分配了從100開始的位置編號（而影片幀的位置編號從0開始），並且參考圖像的時間步嵌入被替換為一個從零時刻初始化的可學習嵌入，暗示"參考圖像是已經完成的、無噪聲的內容"。

訓練時還有一個重要的數據增強策略：對每一張參考圖像，都隨機進行縮放、裁剪、平移等變換。這樣做的目的是確保參考圖像和目標影片幀在空間上永遠不對齊——如果參考圖就是目標影片的某一幀且像素完全對齊，模型可能會學會直接"複製粘貼"參考圖，而不是真正學會通過追蹤點來建立對應關係。通過隨機變換，模型被迫只能依賴追蹤點坐標來理解參考圖與影片幀之間的空間關係。

整個系統建立在開源的Wan 2.1和Wan 2.2影片擴散模型之上，在訓練時對自注意力層和前饋網路層進行微調，同時保持跨注意力層凍結。訓練解析度為480×832，每段49幀，在8塊A100或H200 GPU上訓練約7天。

**七、實驗結果：在三個維度上全面領先**

研究團隊在兩個標準測試集上進行了系統性評估：DAVIS 2017（77段包含各類運動模式的影片）和TAPVid3D-ADT（50段帶有精確三維追蹤標註的影片）。

評估指標被分成三個維度。第一個維度叫"視覺保真度"，用FID和FVD這兩個指標衡量生成影片和真實影片在整體統計分布上的差距，數值越低代表生成影片越"真實"。第二個維度叫"重建精度"，用LPIPS、PSNR和SSIM衡量生成影片和原始影片在每一幀上的像素級相似程度，前者越低越好，後兩者越高越好。第三個維度叫"運動保真度"，用端點誤差（EPE）衡量生成影片中追蹤點的實際位置與輸入條件中指定位置的偏差，數值越低代表運動跟隨得越精確。

贊助商廣告

參與對比的方法包括ATI、DiffusionAsShader（DAS）、Tora、Go-with-the-Flow（GWTF）和Wan-Move，這些都是當前該領域的主流方法。測試分三種密度：使用3000條追蹤軌跡的"密集追蹤"場景、使用512條從第一幀開始的軌跡的"中密度"場景，以及使用32條稀疏軌跡的"稀疏"場景。

在密集追蹤場景下，Go-with-the-Track的FID為28.00，遠低於第二名Wan-Move的40.47；FVD為322.8，遠低於第二名ATI的504.9；運動誤差EPE為7.709，而第二名Wan-Move為12.27。在中密度和稀疏追蹤場景下，優勢同樣明顯。在更具挑戰性的TAPVid3D-ADT測試集上，優勢差距更為懸殊，研究團隊認為這是因為競爭方法完全依賴帶有噪聲標註的真實影片數據訓練，而該測試集對精確運動跟隨的要求更高，暴露出了這些方法的根本局限。

用戶研究同樣給出了明確的答案。研究團隊招募了45位參與者，對30段隨機選取的影片從運動跟隨質量、主體身份保持和整體質量三個維度評分。在運動跟隨這一項上，參與者選擇Go-with-the-Track的比例為46.2%，而第二名GWTF僅為17.7%；在整體質量上，Go-with-the-Track獲得44.3%的偏好，第二名ATI僅為18.6%。

**八、消融實驗：每一個設計決策都有它的道理**

研究團隊還通過一系列"控制變量"實驗，逐一驗證了各個設計選擇的必要性。

當把"空間感知嵌入"換回隨機嵌入時，DAVIS 2017上的運動誤差從7.983上升到10.46，TAPVid3D-ADT上從4.691上升到6.141，視覺保真度也同步下降。這證明了空間相關的身份標識對於精確追蹤的重要性。PCA可視化分析進一步直觀地展示了這一點：空間感知嵌入在畫面上呈現出平滑的顏色漸變，而隨機嵌入則是一片隨機的彩色噪點，毫無空間規律。

當把點追蹤適配器的"相對位置拼接"去掉，僅保留最大值池化時，運動誤差明顯上升。當進一步把整個適配器替換為簡單的隨機採樣（每個時空塊只隨機保留一個追蹤點）時，性能下降最為顯著。當嘗試用注意力機制替代最大值池化時，性能反而不如最大值池化，研究團隊認為這是因為最大值池化能夠保留每條軌跡最顯著的特徵值，而注意力加權平均會把不同軌跡的特徵混合稀釋，不利於保持每條軌跡的獨特性——這與PointNet等點雲處理方法的經驗觀察一致。

贊助商廣告

當把合成數據和靜態場景數據從訓練集中移除後，運動誤差在DAVIS上從8.801上升到10.59，在TAPVid3D-ADT上從5.285上升到7.771。用那個有趣的會議室縮放案例來說明：當只使用真實影片數據訓練時，模型完全無法生成正確的畫面；加入合成和靜態數據後，模型能夠準確生成期望的縮放效果，TV出現在了正確的位置和大小。

在多參考圖像的測試中，提供的參考幀越多，效果越好：只提供第一幀時FVD為346.4，提供首尾兩幀時降至233.3，均勻提供4幀時進一步降至188.7。即使提供的參考圖被隨機裁剪和縮放（不與影片幀對齊），模型也能維持合理的性能，證明它確實通過追蹤點而非空間對齊來建立參考與影片的關係。

**九、豐富的應用場景：從換臉到換天**

這套系統的靈活性在實際應用中展現得淋漓盡致，研究團隊展示了多個頗具想像力的用例。

第一個應用是"影片重風格化"。給定一段源影片，先用追蹤工具提取整段影片的追蹤點，再對影片中的關鍵幀做風格化處理（比如用AI圖像風格化工具把真人影片風格化為油畫風格），最後把風格化後的關鍵幀作為參考圖、追蹤點作為運動條件，輸入Go-with-the-Track，就能得到保留了原始運動的風格化影片。研究團隊展示了把一個跑酷影片風格化為幻想風格、把女孩與貓的互動影片變成神秘奇幻風格等效果。

第二個應用是"網格驅動合成與風格化"。在動畫製作或遊戲開發中，角色通常以三維網格的形式存在。研究團隊展示了如何從動畫網格的頂點位置直接提取追蹤點，把網格的各個頂點投影到指定相機視角下的二維坐標，作為追蹤點條件，再配合風格化的參考圖，生成具有指定外觀的動畫影片。這對於影視特效和遊戲預演製作有直接的實用價值。

第三個應用是"關鍵點驅動合成"。給定一段人物影片和一張參考人物照片，用人臉和身體關鍵點檢測工具（識別眼睛、鼻子、耳朵、肩膀、肘關節等解剖學標誌點）分別在影片幀和參考圖上提取關鍵點坐標。由於同一關鍵點（如"左眼"）在影片和參考圖中共享相同的語義標識，它們自然形成了參考錨定追蹤點。把這些關鍵點輸入模型，就能把參考人物的外觀"貼"到影片中的人物上，同時保留原始的運動。

贊助商廣告

第四個應用是"靜態場景相機控制"。給定一張或多張從不同角度拍攝的場景照片，用三維重建工具（π?）恢復場景的三維點雲和相機位姿，然後把點雲投影到用戶指定的新相機軌跡下，得到新視角的追蹤點條件，就能讓AI生成從新視角看到的場景影片。研究展示了包括螺旋運動、多視角插值等多種相機軌跡。

第五個應用是"動態場景相機重定向"。這個場景比靜態場景更複雜，因為場景中既有相機運動，又有物體運動。研究團隊使用DELTA追蹤工具配合疊代加密算法提取三維追蹤點，用π?估計每幀的相機參數，然後把追蹤點重投影到自定義相機軌跡下，再把源影片中均勻採樣的4幀作為參考圖，輸入模型，就能生成從新視角看到的原始動態場景。

還有一個額外的應用展示了這套系統意想不到的泛化能力：用於內在圖像分解（intrinsic decomposition）的時序穩定化。內在圖像分解是把一張圖片分解為"反照率"（albedo，即物體固有顏色）和"著色"（shading，即光照影響）兩個分量的技術。現有的單幀估計模型雖然在每幀上表現不錯，但逐幀獨立處理會導致相鄰幀之間的估計結果跳動，造成"閃爍"。研究團隊展示了只需對第一幀和最後一幀做內在分解，然後把這兩幀的分解結果作為參考圖輸入Go-with-the-Track，系統就能自動在全序列上插值出時序一致的分解影片，大幅減少閃爍，而這完全超出了模型原本的訓練目標。

**結語：一根線，穿起了影視特效的兩個維度**

說到底，"Go-with-the-Track"做的事情，是把兩個本來分家的問題用一種直覺上極其自然的方式統一了起來——一條追蹤軌跡，既是"這裡應該是參考圖上的那個像素"的地址，也是"這個像素應該往哪裡運動"的路線圖。

這件事聽起來簡單，但背後需要解決三個不小的技術難題：如何讓AI高效地"認識"成千上萬條軌跡（空間感知嵌入）、如何在不丟失精度的前提下把追蹤條件注入壓縮後的潛空間（分塊匯總適配器）、以及如何通過混合數據訓練讓模型真正學會"精確聽話"而不是"大概跟隨"。三個問題的解決方案都是對已有技術的巧妙重組，並沒有發明什麼全新的數學工具，但組合在一起卻產生了質的躍升。

贊助商廣告

對於普通觀眾而言，這項研究最直接的影響可能會出現在未來的影視特效、遊戲動畫和短影片創作工具中——當AI影片工具既能讓你指定"影片裡要出現這個角色"，又能精確控制"這個角色在第三秒從左側走到右側"，創作的門檻會進一步降低，而創作的可能性會大幅擴展。

當然，研究團隊也坦誠地指出了這套系統的局限：如果輸入的追蹤點本身質量不高（比如在快速運動場景下追蹤器給出了錯誤的軌跡），生成影片可能出現時序上的瑕疵；追蹤點的空間解析度也限制了模型對極細微接觸動作和細節運動的控制精度；最終的影片質量還受限於底層影片擴散模型的能力上限。這些都是未來工作可以繼續深化的方向。有興趣進一步了解技術細節的讀者，可以通過論文編號DOI: 10.1145/3799902.3811093查閱完整論文。

---

Q&A

Q1：Go-with-the-Track與現有影片運動控制工具相比有哪些不同？

A：現有工具要麼只能控制外觀（參考圖像驅動），要麼只能控制運動（點追蹤驅動），且點追蹤條件通常只能作用於影片第一幀中已有的內容。Go-with-the-Track通過"參考錨定點追蹤"把兩者統一：每條追蹤軌跡同時記錄了對應參考圖上的位置和影片幀內的運動路徑，使模型能夠將參考圖的任意內容精確放置到影片的指定時間和位置，實現外觀與運動的聯合控制。

Q2：Go-with-the-Track訓練時為什麼要混合合成數據？

A：真實影片中的追蹤點坐標是用估計工具生成的，在快速運動或遮擋場景下存在噪聲。如果只用帶噪聲標註的真實影片訓練，模型會隱式地學會"忽略不可靠的追蹤條件"，無法精確跟隨運動指令。合成數據集（如PointOdyssey）和靜態場景數據集（如DL3DV）能提供從三維網格或精確相機位姿推導出的精確追蹤坐標，幫助模型真正學會嚴格遵循追蹤條件。

Q3：Go-with-the-Track如何處理大量追蹤點與AI壓縮空間之間的解析度不匹配問題？

贊助商廣告

A：研究團隊設計了專門的"點追蹤適配器"。它把影片時空體切分成若干4×16×16的塊，每個塊對應壓縮後的一個令牌。落在同一個塊內的所有追蹤點，會先把各自的嵌入向量與其在塊內的相對位置坐標拼接，經過小網路處理後取最大值匯總為一個代表向量。這樣既完成了從像素空間到壓縮空間的降維，又通過相對位置資訊保留了塊內的精細運動細節，避免了簡單坐標縮放帶來的精度損失。