這項由亞馬遜和埃因霍溫理工大學聯合開展的研究,以預印本形式於2026年4月發表在arXiv平台,論文編號為arXiv:2604.04913。感興趣的讀者可以通過該編號在arXiv檢索原文。
自動駕駛汽車在路口面對一個正在猶豫是否過馬路的行人時,它必須在零點幾秒內預判這個行人接下來會往哪個方向走。這不是一道有唯一正確答案的題目,行人可能向左、向右、駐足,甚至折返。面對這種生來就充滿不確定性的未來,一個智能系統需要同時考慮多種可能性,才能做出真正安全的決策。這個看似簡單的場景,恰恰觸碰了當代影片人工智慧最核心的難題:如何高效、真實地生成多種可能的未來?
現有的AI影片預測系統大致分為兩個門派。一派叫"判別式"系統,它就像一個只能給出一個標準答案的老師,總是預測最可能發生的那一種未來。當未來存在多種可能時,它會把所有可能性平均一下,給出一個模糊的、哪個都不完全符合的中間答案——就像問你"今天中午想吃什麼",它永遠回答"米飯和麵條的平均值"。另一派叫"生成式"系統,它能給出多種不同的預測,更接近真實世界的不確定性,但代價是計算量極其龐大,動輒需要數十億參數的巨型模型,還要反覆運行多次才能生成一個預測結果。
研究團隊在審視這兩個門派時,敏銳地發現了一個關鍵問題:影片裡相鄰兩幀之間,絕大部分內容其實沒有發生任何變化。天空還是那片天空,馬路還是那條馬路,背景里的建築物一動不動。真正發生變化的,只是場景中極小的一部分。傳統的影片AI卻對每一幀都完整地重新描述一遍,就像每次打電話給朋友,不管之前說過什麼,都要從頭自我介紹一樣,既浪費時間又低效。
正是帶著這個洞察,研究團隊提出了兩個核心發明:一個叫DeltaTok的"變化量壓縮器",以及一個建立在它之上的影片世界模型DeltaWorld。整套系統的核心邏輯只有一句話——與其描述整個世界,不如只記錄世界發生了什麼變化。
一、影片預測的底層困境:為什麼"平均答案"是個陷阱
為了真正理解這項研究解決的是什麼問題,不妨把影片預測的處境想像成一位天氣預報員。判別式預報員每次都說"明天氣溫22度",即便實際情況是有50%概率是15度的暴風雨、50%概率是29度的大晴天,他給出的22度預測在哪種情況下都是錯的。生成式預報員能同時給出"可能暴風雨"和"可能大晴天"兩套預報,這才是對不確定未來負責任的態度。
判別式世界模型的數學原理印證了這一點。當一個模型被要求預測不確定的未來,而訓練目標又要求它給出儘可能接近真實情況的單一答案時,數學上的最優解會讓它自動收斂到所有可能未來的平均值。這個平均值看起來"不算太錯",卻對真正的決策毫無用處——它既不是任何一種真實的未來,也無法幫助自動駕駛系統區分行人會向左還是向右。
生成式模型能解決這個問題,但它帶來了另一重麻煩。以目前最先進的生成式影片模型Cosmos為例,它有40億到120億個參數,需要另一個70億參數的解碼器配合,光是生成20個候選未來就要消耗6萬到6.4萬萬億次浮點運算(TFLOPs)。這個計算量相當於同時運行成百上千台普通家用電腦。更麻煩的是,這類模型通常需要多次疊代去噪才能生成一個預測,每次預測都是一趟漫長的旅途。
研究團隊設定的目標因此變得清晰:打造一個生成式系統,讓它既能提供多種可能的未來預測,又把計算成本壓縮到前所未有的低水平。
二、視覺基礎模型的特徵空間:為什麼不在像素上"繡花"
在進入核心技術之前,研究團隊先做了一個關鍵的路線選擇:不在像素層面預測未來,而是在"視覺基礎模型"的特徵空間裡工作。
所謂視覺基礎模型,可以理解為一個見過海量圖片、學會了用抽象概念理解世界的AI眼睛。它看到一張街道圖片,不會記住每個像素的顏色值,而是理解"這裡有輛車"、"那裡有棵樹"、"地面是濕的"。這種理解方式更接近人類大腦的工作方式,也更適合支撐下游的決策任務。
研究團隊選擇的具體工具是DINOv3,一種自監督訓練的視覺基礎模型。在這個模型眼裡,每一幀圖像不是一堆像素,而是一個由語義特徵組成的網格,每個小方格對應圖像的一個局部區域,攜帶著豐富的語義資訊。
在這個特徵空間裡工作有兩個明顯優勢。第一,不需要渲染樹葉的紋理或者建築牆面的磚縫——這些對決策沒有幫助的細節被自然過濾掉了,系統只需要關注對未來行動真正重要的語義內容。第二,研究人員發現,在這個特徵空間裡預測未來,比在像素空間裡預測要容易得多,因此可以使用參數量少得多的輕量級模型。他們的基礎架構來自DINO-world,一個此前已證明"在特徵空間預測未來"這條路線有效的判別式系統,而這篇論文的核心工作,就是把它改造成生成式系統,並大幅提升效率。
三、三步進化:從單一答案到多元未來的蛻變之路
研究團隊用一套精心設計的遞進實驗,展示了他們如何一步步把一個判別式系統改造成高效的生成式系統。每一步都有清晰的改變和量化的效果,讀者可以跟著這條進化路徑,理解每個技術決策背後的邏輯。
第一步,把判別式系統改造成生成式系統。研究團隊引入了一種叫做"最優多假設訓練"(Best-of-Many,簡稱BoM)的訓練方法。具體來說,每次訓練時,系統不再預測單一答案,而是同時生成K個不同的預測,每個預測源自一個不同的隨機噪聲輸入——就像同時發出K個偵探去調查同一個案件,每個偵探的思路略有不同,得出的結論也各異。訓練時只讓最接近真實情況的那個預測"受到獎勵",其餘的不受懲罰也不被優化。這個機制隨著時間推移,會讓不同的隨機輸入自然地學會生成不同風格的未來,而不是都朝著同一個方向靠攏。
這一步的效果立竿見影。在語義分割的指標(mIoU,數值越高代表預測越準確)上,預測出的最優結果明顯好於判別式基線。然而,均值指標卻大幅下降——許多預測樣本退化成了整幀畫面只有一種語義類別的荒謬結果,就像偵探失去了推理能力,隨便猜了一個答案。更糟糕的是,生成16個候選預測就讓訓練時間增加了約5倍,計算代價高得驚人。
第二步,引入幀壓縮。問題的根源在於,每生成一個候選預測,系統就必須輸出整幀圖像對應的全部特徵網格(在256×256的圖像尺寸下,這是256個特徵向量)。研究團隊的解決思路是:用一個專門訓練的編碼器,把一整幀的特徵網格壓縮成單一的一個"幀令牌"(frame token),再用一個解碼器把它還原回來。這樣,系統就不再需要為每個候選預測輸出256個向量,而是只輸出1個向量,計算量暴降。
這一步確實大幅提升了效率,訓練時間降到了判別式基線的40%,內存占用降到了20%。均值指標也有所回升,因為解碼器在還原特徵網格時具有一定的"整形"能力,阻止了那些退化成單一色塊的荒謬預測。然而,把整幀圖像的所有資訊塞進單一一個向量,容量終究是有限的,預測精度仍然明顯低於判別式基線。這個瓶頸有一個清晰的內在邏輯:一個幀令牌需要記住整個場景的所有細節,自然無法精確捕捉幀與幀之間細微的變化。
第三步,引入變化量壓縮,誕生DeltaWorld。這一步是整篇論文最核心的創新。研究團隊的頓悟是:既然相鄰兩幀之間大部分內容都沒變,為什麼要每次都把整幀畫面重新壓縮一遍?只壓縮"變化了什麼"不就夠了嗎?
這正是DeltaTok(變化量壓縮器)的設計理念。它的編碼器同時接收前一幀和當前幀的特徵網格,只產出一個"變化量令牌"(delta token),記錄的是"從前一幀到當前幀,場景發生了哪些變化"。解碼器在還原當前幀時,以前一幀的特徵為基礎,只需讀取這個變化量令牌,就能推算出當前幀應有的特徵。
這個設計的妙處在於,變化量資訊比整幀資訊要簡單得多,單一向量能更準確地表達它。當場景幾乎靜止時,變化量接近零,令牌攜帶的資訊極少,解碼器只需輕微調整前一幀就能得到當前幀。當場景發生大幅變化時,令牌攜帶更多資訊,指導解碼器做更大的變換。整個過程有一個天然的"默認行為"——如果模型什麼都不預測,就等於預測"沒有變化",而"沒有變化"意味著直接延續前一幀,這本身就是一個合理的預測。這個默認行為幫助系統避免了之前出現的退化預測問題。
從數據上看,引入變化量壓縮後,最優預測和均值預測都大幅提升。在Cityscapes(城市街道數據集)的中期預測指標上,均值從42.7躍升至48.7,最優從35.5躍升至45.5。尤其值得注意的是,均值指標幾乎完全恢復到了原始判別式系統的水平,這意味著生成的多個候選未來整體上都是合理的、真實可信的,而不是隨機的噪音。
四、DeltaTok的技術核心:一個向量如何承載兩幀之差
DeltaTok的具體實現,在技術上採用了基於視覺Transformer(ViT)的自動編碼器架構,但對細節有針對性的優化。編碼器接收前一幀特徵網格和當前幀特徵網格,外加一個可學習的"初始化嵌入向量",通過多層注意力機制,把兩幀的資訊提煉成單一的變化量向量。編碼器在處理時,會給每個輸入令牌額外附加一個標記,告訴系統"這是上一幀的資訊"還是"這是當前幀的資訊",幫助模型明確區分兩幀內容。
解碼器則相反:接收前一幀特徵網格和變化量令牌,輸出重建的當前幀特徵網格。為了讓系統在初始化時表現穩定,研究團隊使用了一種叫做"層縮放"(Layer Scale)的技術,讓解碼器在訓練最初階段近似一個恆等映射,也就是默認輸出"不變化",再逐漸學習如何做出有意義的調整。
DeltaTok單獨訓練,目標是最小化重建誤差——也就是讓還原出的當前幀特徵網格儘可能接近真實的特徵網格。訓練完成後,DeltaTok的參數被凍結,作為一個固定的組件嵌入到DeltaWorld中。
訓練時使用的幀對,來自與預測器訓練相同的時間採樣策略:相鄰兩幀的時間間隔在1/25秒到1/3秒之間隨機採樣。這意味著變化量令牌既需要處理幾乎靜止的場景(幀間隔極短),也需要處理變化較大的場景(幀間隔較長),由此獲得了較強的泛化能力。
五、DeltaWorld的完整架構:一條流水線,多種未來
把DeltaTok和最優多假設訓練組合在一起,就得到了完整的DeltaWorld系統。
在處理一段影片時,DeltaWorld首先用DINOv3對每一幀提取特徵網格,再用DeltaTok編碼器把相鄰幀之間的變化量壓縮成單一向量,形成一條時間序列:每個時間步只對應一個變化量向量,而不是整個特徵網格。這條序列從3D(空間×時間)的龐大張量,被壓縮成了1D(純時間)的緊湊序列。以512×512像素的輸入為例,原本每幀需要1024個特徵向量,現在只需1個,壓縮比高達1024倍。
有一個小細節需要處理:第一幀沒有"前一幀",所以系統在序列開頭插入一幀全黑圖像作為占位符,第一個變化量令牌因此實際上編碼的是"從空白到第一幀"的變化,相當於直接編碼了第一幀的絕對內容。
預測器是一個基於Transformer的序列模型,接收過去所有時間步的變化量向量序列,以及K個不同的隨機噪聲查詢向量,一次性輸出K個候選的下一時間步變化量向量。訓練時,只有與真實變化量最接近的那個候選預測會被用於計算損失並反向傳播更新參數。
在推理階段,不同的隨機噪聲查詢自然地產生不同的預測結果,就像K位擁有相同資訊但思維方式略有不同的偵探,會給出K種不同的案件重建方案。把這K個變化量向量分別傳入DeltaTok解碼器,再結合前一幀的特徵,就能還原出K個候選的未來幀特徵網格,最終通過任務頭(如語義分割頭或深度估計頭)得到K套可視化的未來預測。
整個推理過程只需一次前向傳播,不需要反覆疊代去噪,也不需要額外的自回歸生成步驟。對於中期預測(約0.6秒後的未來),系統採用自回歸展開:把預測出的變化量向量追加到上下文序列中,再預測下一步,重複三次,得到三步後的未來特徵。
六、樣本數量的魔力:越多候選,越接近真實
研究團隊對"最優多假設訓練"中的超參數K(訓練時同時生成的候選數量)做了系統性的消融實驗,結果揭示了一個非常有趣的規律。
訓練時使用的候選數K越多,"最優預測"的得分就越高,而且這種提升沒有出現明顯的飽和跡象——哪怕K增大到1024,最優預測指標還在穩步提升。這意味著系統一直在學習生成更精確、更具體的未來預測,並沒有遇到能力上限。直觀理解是:K越大,系統需要在訓練中覆蓋更廣泛的未來可能性,被迫學會生成更多樣化的預測,每種預測因此也變得更加精準和有特色。
與此同時,"均值預測"(把K個候選的特徵平均後做出預測)的得分隨K增大而略微下降,但在K超過64之後趨於穩定。這表明更多的多樣性並不會把均值預測推向荒謬——系統生成的那些多元未來,整體上依然是合理可信的,不會出現一個預測停車場、一個預測火星表面這樣南轅北轍的情況。
最終在主實驗中,研究團隊選擇K=256進行訓練,推理時從20個樣本中選取最優,在精度和效率之間取得了合適的平衡。
七、與巨型模型的正面對比:以一當千
在最終的性能評測中,研究團隊在三個專業數據集上對DeltaWorld與現有系統進行了對比。評測覆蓋語義分割(在VSPW通用影片數據集和Cityscapes城市駕駛數據集上測量mIoU指標)和深度估計(在KITTI駕駛數據集上測量RMSE指標),分別評估短期(約0.2秒後)和中期(約0.6秒後)預測能力。
對比的對象包括:DINO-world(判別式系統,只能給出單一預測),Cosmos-4B和Cosmos-12B(生成式系統,分別有40億和120億參數,另配70億參數解碼器),以及兩個極端基線——"複製最後一幀"(把最近觀測幀當成預測結果)和"完美預測"(直接使用真實未來幀)。
計算量的差距是最直觀的:DeltaWorld生成20個候選預測只需3.1萬GFLOPs,而Cosmos生成同樣數量需要6萬到6.4萬萬億次運算,差距超過2000倍。參數量上,DeltaWorld約0.3億參數,Cosmos則在40億到120億之間,差距超過35倍。
然而更令人印象深刻的是預測精度。在所有評測指標上,DeltaWorld的"最優預測"(從20個候選中選最好的)全面超越Cosmos,包括最大的那個Cosmos-12B變體。在中期Cityscapes分割指標上,DeltaWorld最優預測達到55.4,Cosmos-12B最優預測只有53.3;在短期Cityscapes上,DeltaWorld達到65.8,Cosmos-12B達到55.3,差距相當顯著。在均值指標上,DeltaWorld也在絕大多數指標上領先或持平,說明它生成的多種未來整體上都是真實可信的,而不只是偶爾碰運氣碰出一個好預測。
與判別式的DINO-world相比,DeltaWorld的均值預測在Cityscapes上略優,在VSPW和KITTI上略遜,這是可以接受的——畢竟判別式系統把全部精力集中在生成一個最好的預測,而DeltaWorld同時維護著多種可能性。而DeltaWorld的"最優預測"則全面超越DINO-world,證明在真正需要多元預測的場景下,DeltaWorld能覆蓋到判別式系統永遠無法觸達的可能未來。
另一個有意義的觀察是:DeltaWorld的最優預測和均值預測之間的差距,明顯大於Cosmos。這說明DeltaWorld生成的多種未來之間有更實質性的差異,而Cosmos的多種預測往往大同小異,多樣性其實相當有限。
八、變化量令牌的普適性:不只限於DeltaWorld
研究團隊還驗證了變化量令牌這一思路在其他架構中的可遷移性,結果頗有說服力。
在判別式的DINO-world中,把原本每幀256個特徵向量替換成單一變化量令牌,性能幾乎持平(VSPW下降0.2,Cityscapes提升1.5),而訓練時間降至50%,內存占用降至20%。這說明變化量令牌並非DeltaWorld的"專屬魔法",對於任何在VFM特徵空間工作的影片預測系統都有潛在價值。
研究團隊還在另一個完全不同的系統DINO-Foresight上做了驗證。這個系統使用的是多層DINOv2特徵經PCA降維後的高維特徵,解析度是448×896,原本需要10240個令牌來表達一段上下文序列。引入變化量壓縮後,令牌數量降至5個(每幀1個),而預測精度卻沒有明顯下降——語義分割指標從71.8/59.8提升至72.1/60.0,深度估計指標基本持平。從10240個令牌到5個令牌,壓縮比超過2000倍,而精度沒有損失,這個結果相當有力地支持了變化量令牌作為影片表示通用工具的價值。
九、局限與未來:誠實面對仍在路上的挑戰
研究團隊在論文中坦率地討論了兩個值得關注的局限性。
第一是概率分布建模的不完整性。最優多假設訓練讓系統能夠生成多種不同的預測,但它缺乏一個明確的概率框架來告訴我們"每種未來發生的概率是多少"。不同於擴散模型(通過反覆去噪來嚴格逼近目標概率分布),BoM只保證某些預測更接近真實,但不對整體概率分布做出保證。這意味著系統生成的多種未來,其相對可能性無法直接從預測結果中讀出。從另一個角度看,不同的隨機噪聲查詢產生不同的未來這一現象,暗示著噪聲向量可能隱含了某種"行動指令"的語義,未來或許可以在此基礎上構建明確的行動條件生成系統。
第二是誤差累積問題。由於變化量令牌編碼的是相對變化,還原絕對特徵需要按時間步依次解碼,前一步的誤差會傳遞併疊加到後續步驟。在多步自回歸展開時,這種誤差傳播可能導致預測特徵隨著時間步增加而逐漸偏離真實情況。研究團隊提出了一種潛在的緩解策略:讓編碼器不使用真實的前一幀特徵,而是使用解碼器自身重建的前一幀特徵作為輸入,從而讓系統適應自己產生的誤差分布,而非只能處理無誤差的真實輸入。
說到底,這項研究用一個出人意料的簡單原理——只記錄變化,而不重複描述全貌——撬動了影片AI領域長期存在的計算效率與多樣性預測兩難困境。把每幀影片壓縮成一個變化量向量,不只是一個工程上的聰明優化,更折射出一種對影片數據本質的深刻理解:時間上相鄰的兩幀之間,絕大多數資訊是冗餘的,真正攜帶"發生了什麼"的資訊,往往是微小的增量。
這套思路可能對未來的影片理解、影片生成、機器人導航和自動駕駛都有參考價值。當AI系統能夠以極低的計算代價生成多種可信的未來預測時,它才能真正勝任那些需要應對不確定性的決策場景——而不是每次都給出一個"平均答案",在任何真實的未來面前都顯得格格不入。
Q&A
Q1:DeltaTok和普通的影片壓縮有什麼本質區別?
A:普通影片壓縮(比如H.264)雖然也利用幀間差異減少數據量,但它工作在像素層面,目的是重建人眼可見的畫面。DeltaTok則工作在視覺基礎模型的語義特徵空間,壓縮的不是像素差異,而是語義層面的變化,比如"場景中出現了新的行人"或者"車輛向右移動了"。更重要的是,DeltaTok把整幀的變化量壓縮成單一一個向量,而不是逐像素記錄運動資訊。這讓它天然適合處理遮擋、新物體出現等傳統光流方法難以應對的情況。
Q2:DeltaWorld生成的多種未來預測,怎麼判斷哪個更可靠?
A:DeltaWorld本身不直接給出每種預測的置信度或概率。論文也坦承這是當前方法的一個局限——最優多假設訓練沒有明確的概率分布建模機制。在實際使用中,研究團隊通過計算每個預測與真實結果在特徵空間的距離來評估"最優預測",但這需要知道真實未來,只能用於事後評估。在真實部署場景中,可以結合下游任務的置信度或多個預測的一致性程度來判斷可靠性,但這方面的研究尚待進一步探索。
Q3:DeltaWorld能用於自動駕駛的實時預測嗎?
A:從計算量來看,DeltaWorld已經比現有生成式系統高效2000倍以上,生成20個候選未來只需3.1萬GFLOPs,這在現代GPU上是完全可行的推理負擔。但論文目前的評測是在學術數據集上進行的,針對的是語義分割和深度估計等感知任務,而非端到端的駕駛決策。真正落地到自動駕駛系統還需要解決實時性優化、與規劃模塊的接口設計、以及在極端場景下的魯棒性等工程問題。研究團隊也提到,這套框架為未來擴展預測器規模、延長上下文窗口和增加展開步驟打下了基礎。






