這項由慕尼黑大學CompVis實驗室與慕尼黑機器學習中心、蘋果公司聯合開展的研究,以預印本形式發布於2026年4月,論文編號為arXiv:2604.11737,有興趣深入閱讀的讀者可通過該編號在arXiv平台查詢完整原文。
現代影片AI面臨一個根本性的困境:每當我們需要預測一段影片中物體將如何運動,現有的方法都要把"畫面長什麼樣"和"東西怎麼動"這兩件事混在一起處理。就好像一個舞蹈老師,明明只需要教學生手臂的運動軌跡,卻非要先把每一幀的服裝顏色、燈光效果、背景牆紙都描述清楚才肯開口。這種做法不僅極其浪費,而且效率低得令人髮指——當前最先進的影片生成模型每秒只能產生0.2幀畫面,等它們勉強生成出第一幀,研究團隊的新方法早已給出數千種可能的運動軌跡預測。
這個新方法被命名為ZipMo,其核心思路乾脆利落:把運動本身從影片中剝離出來,單獨建立一套緊湊的"運動語言",然後直接在這套語言裡做預測和生成。這就像鐵路調度員不需要知道每節車廂里坐了多少乘客、行李有多重,只需要掌握每列火車的運行軌跡就能高效調度一樣。
---
一、從影片海洋到運動地圖——為什麼要把運動單獨拎出來?
回到那個舞蹈教學的場景。假設你要教機器人學會預測人類的肢體動作,有兩條路可以走。第一條路:讓機器人看海量影片,逐幀記憶每一個像素的變化,從膚色到背景牆壁全部一起學。第二條路:只提取每個關節點的運動軌跡,記錄它們在空間中的坐標變化。顯然第二條路更聰明——不僅資訊量小得多,而且完全不受"今天穿藍色衣服還是紅色衣服"這類無關因素干擾。
研究團隊正是抓住了這個直覺。他們指出,當前的影片生成模型有一個根深蒂固的問題:運動資訊和外觀資訊高度糾纏在一起。模型在學習"球往右飛"這件事的時候,同時也在學習"球是橙色的"、"背景是綠色的草坪"、"光線從左上方射來"。這種糾纏導致影片模型需要龐大的參數量和計算資源,而且時間壓縮能力極差——因為你壓縮影片的同時,視覺細節就會損失,所以現有影片自動編碼器的時間壓縮倍數通常只有4倍到8倍。
相比之下,純粹的運動軌跡是非常低維度的資訊。一個點在64幀影片裡的運動,就是64個二維坐標,完全不含任何外觀資訊。這種資訊天然就適合被大幅度壓縮。ZipMo團隊由此提出了一個大膽的目標:把64幀的運動資訊壓縮成單個潛在向量,實現64倍的時間壓縮率。
這裡有一個關鍵的技術概念值得解釋:所謂"軌跡"或"追蹤點",就是在影片的第一幀上標記某個像素點,然後追蹤它在後續每一幀里出現的位置,最終得到一條空間中的運動曲線。現代AI追蹤器(如TapNext、CoTracker3)能夠自動在影片裡完成這個工作,為每個感興趣的點生成完整的運動軌跡。ZipMo的訓練數據,正是用這類追蹤器從大規模影片中自動提取的。
---
二、運動地圖是怎麼繪製的——ZipMo的第一階段
ZipMo的整個框架分為兩個階段,第一階段的任務是學會繪製"運動地圖"。
具體來說,研究團隊訓練了一個變分自動編碼器(VAE)。不了解這個詞也沒關係,你可以把它理解為一個"運動速記員":給它看一段影片裡散落的若干條軌跡(比如20條、50條、100條任意分布的運動曲線),再加上影片第一幀的圖像特徵,它就能把這些稀疏的運動資訊"提煉"成一張16×16的潛在網格,每個網格格子裡儲存著16個數字,整張網格就是這段影片運動狀態的高度濃縮版本。
這張16×16的網格,研究團隊稱之為"潛在運動空間",它就像一張城市的運動地形圖。地圖本身很小,但包含了整段影片運動的本質資訊。更精妙的是,這張地圖是可以"查詢"的——你可以問它"第一幀里坐標(0.3, -0.5)這個點在接下來64幀里會怎麼運動",它就能給出答案,即便這個點原本根本沒有被追蹤過。這實現了從稀疏輸入到稠密輸出的泛化,是一個非常實用的能力。
在編碼器的設計上,團隊做了幾個精巧的工程決策。每條軌跡上的每個採樣點,首先經過傅里葉嵌入處理——簡單說就是把普通的坐標數字轉換成更豐富的數學表示,幫助模型捕捉高頻細節。然後用三維旋轉位置編碼(3D RoPE)同時編碼時間資訊和軌跡身份資訊,讓模型既知道這個點是"哪個軌跡在第幾幀"的採樣,又能理解軌跡之間的空間關係。所有軌跡點的資訊、網格格子的資訊,以及第一幀圖像的特徵,通過全局自注意力機制相互交流,最終將資訊匯聚到那張16×16的潛在網格里。
解碼器的設計同樣值得一提。它採用了掩碼自動編碼器(MAE)的思路——在訓練時,有些軌跡點會被故意隱藏起來,讓解碼器在不知道這些點原始位置的情況下,僅憑潛在網格和第一幀特徵,預測這些被隱藏點的運動軌跡。這個訓練策略迫使模型真正學會運動規律的泛化,而不是簡單記憶輸入。
訓練這個速記員用的目標函數包含兩部分:一是重建誤差,即預測的軌跡坐標與真實軌跡坐標之間的L1距離,要求預測儘量準確;二是KL散度正則化項,要求潛在空間的分布儘可能接近標準正態分布,這樣後續的生成模型才能方便地採樣。兩者之間有一個權衡係數β,團隊將其設置為極小的1×10??,說明他們主要希望模型專注於重建精度,正則化只是輔助約束。
---
三、64倍壓縮到底有多神奇——時間壓縮的秘密
也許你會問:把64幀壓縮成一個格子,資訊不會損失得太厲害嗎?
研究團隊做了一組非常有說服力的實驗,專門測試不同時間壓縮倍數(從2倍到64倍)的效果。他們在固定的計算資源預算下,訓練了一系列具有不同壓縮倍數的模型,然後同時評估三件事:運動生成質量、重建精度、以及推理速度。
結論出乎意料但又在情理之中:壓縮倍數越高,運動生成質量越好,推理速度越快,而重建精度只有非常輕微的下降。具體來說,從2倍壓縮提升到64倍壓縮,運動生成質量(用最小均方誤差Min MSE衡量)從約7降到約5,同時推理速度從大約1倍提升到約20倍(相對於最低壓縮倍數)。重建精度(用δ^avg衡量)則從約96.5%只降到約99%附近——也就是說,重建精度不降反升,因為模型被迫學到了更本質的運動特徵。
這背後有兩個相互強化的機制。第一是計算效率:壓縮倍數越高,需要處理的時序token數量越少,同等計算量下模型可以見到更多樣本,訓練更充分。第二是語義化程度:更高的壓縮迫使模型拋棄細節噪聲,只保留運動的本質規律。研究團隊用一個kNN檢索實驗驗證了這一點——在Something-Something V2數據集的子集上,隨著壓縮倍數增加,用潛在向量做最近鄰檢索的動作類別識別準確率單調上升,從約5%漲到約29%,說明高壓縮率的潛在空間確實學到了更豐富的語義資訊,相似的運動在這個空間裡被聚合得更近。
打個比方:這就像漢字的發展過程。最初的甲骨文儘量模仿實物形狀,"日"字畫得跟太陽一模一樣,細節豐富但難以書寫。經過漫長演化,"日"字被高度抽象壓縮成簡單的方塊,反而變得更易書寫、更利於組合表達新意。ZipMo的潛在運動空間,做的正是類似的"抽象提煉"工作。
---
四、讓運動地圖"開口說話"——ZipMo的第二階段
有了高質量的運動潛在空間,第二階段的任務是訓練一個生成模型,讓它能夠在這個空間裡自由創作——給定初始場景和運動目標,生成符合物理規律的運動預測。
研究團隊選擇了流匹配(Flow Matching)這一技術路線。不熟悉這個概念也沒關係,可以這樣理解:訓練一個嚮導,它的工作是把隨機亂七八糟的運動噪聲,一步步"引導"成符合真實世界規律的運動模式。這個嚮導就是ZipMo的第二階段模型,被命名為ZipMo Planner。
ZipMo Planner是一個基於Transformer的神經網路,有24層,每層的自注意力和交叉注意力維度均為1024,總參數量約5.3億。它的輸入是一個帶噪聲的潛在運動網格,以及各種條件信號;輸出是一個速度場,指示這個噪聲向量應該往哪個方向"流動"才能更接近真實的運動分布。
條件信號有兩種形式,對應兩種不同的使用場景。第一種是"戳點"(poke):用戶在圖像上指定若干個點,告訴模型"這個點應該從A位置移動到B位置"。這些點被傅里葉嵌入處理並通過交叉注意力注入模型。這種方式非常靈活——可以只給1個戳點,也可以給2個、4個、8個,甚至全圖密集覆蓋。戳點稀少時,模型有更多自由發揮空間,生成多樣化的運動假設;戳點密集時,模型被緊緊約束,生成高度貼合指定路徑的運動。第二種是文字描述:通過BERT文本編碼器將任務描述轉換為語言特徵,同樣通過交叉注意力注入模型。這種方式適用於機器人操作等需要語言指令的場景。
值得注意的是,ZipMo Planner始終以第一幀的視覺特徵(由凍結的DINOv2 ViT-B/14圖像編碼器提取)作為場景上下文。這保證了模型知道"當前場景里有什麼",從而生成符合場景物理約束的運動。例如,它不會預測一隻鳥向地面俯衝後穿越地板,因為模型知道地板就在那裡。
---
五、訓練數據與工程細節——一切從大規模影片開始
兩個階段的模型均在1000萬個影片片段上訓練,數據來源是開放大規模影片數據集KOALA-36M。每個影片片段最長8秒,研究團隊對其進行幀採樣(每隔一幀取一幀),得到12至15幀每秒的序列。隨後用TapNext追蹤器在每個片段中隨機採樣1024個點位,獲得偽真實軌跡作為訓練監督信號,並過濾掉不確定性高的軌跡,最終在64幀長度的軌跡上訓練。
VAE的訓練從64塊H200 GPU開始,逐步將批次大小從64擴大到256,總訓練步數約80萬步,整個訓練過程約3天。ZipMo Planner的訓練規模與此相近,批次大小從512擴大到2048,總訓練步數約70萬步,同樣約3天。
兩個模型均使用AdamW優化器,學習率為1×10??,動量參數為(0.9, 0.95),以bfloat16混合精度訓練以節省顯存。VAE採用帶預熱的穩定衰減學習率調度,Planner則使用常數學習率。歸一化層採用RMSNorm,前饋網路使用SwiGLU激活函數,這些都是當前高性能語言模型和視覺模型的通用實踐。
---
六、與其他方法的正面較量——結果如何?
研究團隊在多個基準上對ZipMo進行了評估,比較對象涵蓋流場預測方法、原始軌跡預測方法,以及最先進的影片生成大模型。
評估指標的設計本身就是一個值得講解的細節。由於真實世界的運動是高度多模態的——面對同一個場景,有無數種物理上合理的運動方式——使用單一確定性指標(如平均誤差)會嚴重懲罰那些有創意地預測了"另一種合理運動"的模型。因此團隊採用了三個互補的指標:Min MSE(最小均方誤差,衡量生成的多個樣本中有沒有一個貼近真實運動,反映分布覆蓋能力)、Mean MSE(所有樣本的平均均方誤差,衡量多樣性,太低說明模型崩塌只生成一種運動)、以及EPE(端點誤差,在戳點條件下衡量模型是否真的遵循了用戶指定的運動終點)。所有指標均在[0,128]解析度下計算。
在戳點條件下的運動生成對比中,ZipMo與Motion-I2V(流場預測方法,每秒21幀)和Track2Act(軌跡預測方法,每秒180幀)進行了比較。ZipMo以每秒2500幀的速度,在所有條件密度設置下(1個戳點、2個戳點、4個戳點、8個戳點、全圖密集)均大幅領先。以1個戳點的情況為例,ZipMo的Min MSE為41.0,Motion-I2V為135.7,差距超過3倍;EPE(條件遵循誤差)ZipMo僅0.5,Motion-I2V鋼彈19.7。Track2Act只能在密集條件下評估,其Min MSE為138.7,遠高於ZipMo的30.4。
與影片生成大模型的比較尤為引人關注。研究團隊選擇了兩個代表性模型:Wan(14B參數的開源影片模型)和Veo 3(谷歌DeepMind的閉源頂級影片模型)。由於影片模型不能直接輸出運動軌跡,團隊用CoTracker3對生成影片進行追蹤,從而獲得可比較的運動預測結果。
在"樣本匹配"評估方式下(雙方各生成8個樣本),ZipMo的Min MSE為27.08,Wan為28.67,Veo 3為36.18。ZipMo略優於Wan,明顯優於Veo 3。但這個比較條件對ZipMo其實是不利的——ZipMo只有8.6億參數,Wan有140億參數,幾乎大了20倍。而且生成8個影片樣本對Wan來說需要大約1小時,ZipMo只需要1秒。
在"時間匹配"評估方式下(雙方使用相同的計算時間),差距就變得極為懸殊了。Wan在1小時內只能生成1個影片樣本,Veo 3同樣只能生成1個(且時間未知),而ZipMo在相同時間內可以生成超過1萬個樣本。結果是ZipMo的Min MSE降至21.29,Wan和Veo 3仍停留在64上下。這意味著,當ZipMo可以對同一個場景進行大量採樣、覆蓋各種可能的運動模式時,其生成的運動分布質量遠超影片大模型。
---
七、讓機器人聽話——在機器人操作任務上的表現
研究團隊還在LIBERO機器人操作基準上測試了ZipMo的實際決策能力。LIBERO是一套模擬機器人的操控任務集,包括多個子套件(LIBERO-10、LIBERO-90、LIBERO-Spatial、LIBERO-Goal、LIBERO-Object),任務描述用自然語言給出,如"打開爐灶並把摩卡壺放上去"或"把黃白色馬克杯放進微波爐並關上門"。
ZipMo的使用方式是:給定場景第一幀和任務文字描述,ZipMo Planner生成一個運動嵌入,預測未來64幀(實際評估時下採樣到16幀)內機器人手臂和相關物體的運動軌跡。然後一個淺層的策略頭(6層Transformer,768維)根據這個運動嵌入預測機器人的下一步動作(7維關節角度向量)。策略頭只能看到運動嵌入,不能直接看到圖像,這確保了真正的場景理解和規劃工作由ZipMo完成,策略頭只是將運動信號翻譯為機械臂指令。
整個系統採用滾動規劃策略:每執行一步動作後,從當前幀重新規劃未來的運動軌跡,實現閉環控制。
在與同類方法的比較中,遵循ATM的評估設置,ZipMo在五個子套件上的平均成功率為77.5%,優於ATM的60.4%和Amplify的71.4%。遵循Tra-MoE的評估設置,ZipMo平均成功率為80.3%,優於Tra-MoE的61.4%。在LIBERO-Object任務(需要精準識別目標物體)上,ZipMo達到了98%的成功率,在LIBERO-Spatial任務上達到91.3%,均遠超其他方法。
在軌跡預測的精度比較上,ZipMo同樣全面領先。與WHN(目前最佳的軌跡生成基準方法)相比,ZipMo在LIBERO-90側視角的Min MSE為5.96,WHN為10.99;在LIBERO-10側視角的Min MSE為7.43,WHN為13.86。與ATM、Tra-MoE等判別式方法相比,優勢更為明顯——ATM在LIBERO-90側視角的MSE高達47.82,ZipMo的單次採樣誤差(8.83)已經大幅低於它。
---
八、還能做什麼——密集運動推斷與視覺語義對齊
ZipMo還有一些額外能力值得介紹。
第一是密集運動推斷(Track Densification)。追蹤器給出的軌跡是稀疏的,只覆蓋了影片中部分像素點。但ZipMo可以在任意空間位置查詢運動,因此可以把稀疏追蹤軌跡轉換為全圖密集的運動場。具體操作是:將已有的追蹤軌跡作為戳點輸入給ZipMo Planner,生成完整的潛在運動網格,再對全圖每個像素位置進行解碼,得到類似光流的稠密運動表示。這對需要全局運動場的下游任務(如影片編輯、運動轉移)非常有用。
第二是對追蹤器選擇的魯棒性。研究團隊專門測試了用TapNext訓練的模型能否對CoTracker3的軌跡進行準確重建,反之亦然。結果顯示交叉追蹤器的重建精度(δ^avg約96-97%)與同源追蹤器相當,說明ZipMo學到的是運動的本質規律,而非某個特定追蹤器的特有偏差。即便在訓練時故意丟棄部分軌跡或只使用未遮擋軌跡,重建精度也只有輕微下降(從96.8%降到93-94%),表現出良好的監督信號魯棒性。
第三是在DAVIS 2017和PhysicsIQ這兩個額外數據集上的泛化測試。DAVIS包含150段帶有顯著相機運動的真實影片,PhysicsIQ聚焦於固體力學物理場景。ZipMo在兩個數據集上均大幅優於Motion-I2V:在DAVIS上Min MSE從222.2降至155.1,在PhysicsIQ上從177.8降至90.6,EPE同樣從16.37和12.4大幅降至0.83和0.76。
---
說到底,ZipMo做的事情可以用一句話概括:用最少的資訊,最快的速度,最好地理解"東西是怎麼動的"。這項研究的核心洞見是,運動理解不需要綁架在影片生成的巨型計算開銷上。把運動從外觀中剝離出來,壓縮成高度語義化的潛在向量,然後在這個乾淨的空間裡做生成和推理,不僅速度提升了萬倍量級,生成質量反而超過了擁有數十倍參數量的影片大模型。
對於機器人領域的研究者而言,ZipMo提供了一個高效的運動規劃前端,可以讓機器人以遠低於當前成本的代價實現從語言指令到運動預測的轉化。對於影片理解研究者,它展示了一條不依賴影片像素卻能學到強運動語義的新路徑。對於普通用戶,未來某天你的手機相冊應用可能就用上了類似的技術,讓它真正理解"這段影片裡貓咪跳躍的動作有多優雅",而不只是識別出"這是一隻貓"。
歸根結底,這項工作提醒我們:有時候,解決複雜問題的關鍵不是把模型做得更大,而是想清楚"我們真正需要的是什麼資訊"。ZipMo把這個問題的答案壓縮進了一個16×16的網格里,簡潔有力。有興趣深入了解技術細節的讀者,可以通過arXiv編號2604.11737找到完整論文,相關代碼和模型權重也在論文主頁compvis.github.io/long-term-motion上持續更新。
---
Q&A
Q1:ZipMo與普通影片生成模型(如Wan、Veo 3)的根本區別是什麼?
A:ZipMo只預測運動軌跡,完全不生成影片畫面,因此它不需要處理顏色、紋理、光照等視覺資訊。這使它能把64幀影片的運動資訊壓縮成極小的潛在向量,生成速度比影片模型快一萬倍以上,而且生成的運動質量反而更好,因為運動資訊和外觀資訊被徹底分離,學習更純粹。
Q2:ZipMo的"戳點"條件控制是如何工作的?
A:戳點是用戶在圖像上指定的若干個"起點到終點"的位移指令,比如告訴模型"圖中這隻手應該從左側移動到右側"。ZipMo Planner通過交叉注意力機制把這些戳點整合進運動生成過程,戳點越多,生成運動越貼近指定路徑;戳點越少,模型自由發揮空間越大,會生成多種可能的合理運動。
Q3:ZipMo在機器人控制中是如何使用的?
A:給定場景圖像和文字任務描述,ZipMo預測未來16步內機器人手臂及相關物體的運動軌跡並壓縮為運動嵌入。一個輕量策略頭讀取這個嵌入,預測機器人的關節動作。每執行一步後重新規劃,形成閉環控制。在LIBERO基準測試中,平均任務成功率約77-80%,明顯高於同類方法。






