當AI開始忘記自己在畫什麼的時候,影片就會變得一團糟。來自南京大學、地平線機器人和中國移動的研究團隊找到了一個巧妙的解決方案,就像給AI裝上了一個"智能提醒器",讓它在生成長影片時不再犯糊塗。

設想你正在用AI生成一段自動駕駛的影片場景。開始的幾幀畫面看起來很完美:道路清晰、樹木自然、天空蔚藍。但隨著影片繼續生成,奇怪的事情發生了。到第25幀時,路面標線開始變得模糊;到第45幀,道路兩旁的樹木變成了綠色的糊狀物;等到第75幀,整個畫面已經變成了一片詭異的藍綠色混合物,完全看不出原本應該是什麼樣子。
這不是某個特定AI模型的問題,而是幾乎所有"自回歸"影片生成模型都會遇到的通病。自回歸模型的工作方式類似於接力賽:它先生成第一幀畫面,然後基於第一幀生成第二幀,再基於前兩幀生成第三幀,如此循環往復。這種方式的問題在於,每一步的小錯誤都會被傳遞到下一步,就像多米諾骨牌一樣,越到後面錯誤累積得越嚴重,最終導致影片質量嚴重惡化。
研究團隊發現了一個有趣的現象:同樣的技術在大語言模型中表現得很好,為什麼用到影片生成上就不行了呢?答案藏在"資訊密度"這個概念里。當我們說"我沿著街道走"這句話時,每個詞都承載著明確的意義,"街道"就是街道,不可能是別的東西。但影片中的每個像素點就不一樣了,天空中某個位置的藍色可以有無數種細微的變化,草地上某片區域的綠色也可以有千百種呈現方式。這種高度的"冗餘性"讓AI在每一步都面臨著海量的選擇,稍有不慎就會選錯方向。
熵:衡量AI"迷茫程度"的溫度計為了理解AI在生成每個畫面元素時有多"迷茫",研究團隊引入了一個來自資訊論的概念:熵。可以把熵理解為"不確定性"的度量單位。當AI對接下來要生成什麼非常確定時,熵值就低;當AI覺得有很多種可能性時,熵值就高。
研究人員通過熱力圖直觀地展示了這種現象。在生成的駕駛場景影片中,藍色區域代表低熵(AI很確定),紅色區域代表高熵(AI很迷茫)。他們發現了一個規律:天空、樹葉、路面這些具有重複紋理的區域往往是高熵區,因為這些地方的細節可以有很多種合理的呈現方式;而物體邊緣、道路標線、樹木與天空的分界線等結構化的內容則是低熵區,因為這些地方的形態相對固定,AI比較容易判斷。

更嚴重的問題是"熵崩塌"現象。研究團隊觀察到,在傳統方法生成長影片的過程中,低熵區域會逐漸擴張,就像傳染病一樣蠶食原本的高熵區域。到了影片後期,原本應該有豐富細節的樹葉變成了純色塊,原本應該有裂紋的路面變成了光滑的平面。這就好比AI變得越來越"懶",對細節越來越不上心,最終整個畫面失去了真實感。
現有採樣策略為什麼會"水土不服"
在文本生成領域,有兩種經典的採樣策略非常流行:Top-k和Top-p(也叫nucleus採樣)。Top-k的做法是每次只從概率最高的k個候選詞中選擇,比如k設為30,就意味著每次從概率最高的30個詞中隨機挑一個。Top-p的做法是選擇累積概率達到p的最少候選集,比如p設為0.8,就選擇那些累積起來概率達到80%的詞。

這兩種方法在文本生成中效果很好,但用到影片生成上就出了問題。原因在於它們都採用"一刀切"的策略:不管當前位置的不確定性如何,都用同樣的標準來選擇候選項。
對於低熵區域(比如道路邊緣),AI其實已經很確定應該畫什麼了,這時候如果還提供30個候選項,就等於引入了不必要的噪聲,反而會破壞原本清晰的結構。就好比你明明知道答案是"貓",卻非要在"貓"、"狗"、"兔子"里隨機選一個,結果可能選錯。
對於高熵區域(比如樹葉紋理),情況正好相反。如果只提供很少的候選項,AI可能會一直重複某幾種模式,導致樹葉看起來像是用印章蓋出來的一樣。而且一旦某一步選錯了,後面就會基於這個錯誤繼續犯錯,錯誤像雪球一樣越滾越大。
ENkG:給每個位置定製專屬"候選名單"研究團隊提出的解決方案叫做ENkG,全稱是"熵引導的k保護採樣"。這個名字聽起來很學術,但原理其實很直觀:根據每個位置的熵值(不確定性)來動態調整候選項的數量。
具體來說,ENkG的工作流程分為三步。第一步,計算當前位置的熵值,然後將其歸一化到0到1之間,這樣就得到了一個標準化的"迷茫度指標"。第二步,通過一個線性映射公式,將這個迷茫度轉換為應該選擇的累積概率閾值。研究團隊設定的默認參數是:當熵值在0.25到0.6之間變化時,對應的概率閾值從0.65變化到0.9。這意味著對於低熵區域,只選擇累積概率達到65%的候選項(候選集較小);對於高熵區域,選擇累積概率達到90%的候選項(候選集較大)。
第三步是"k保護"機制,這是ENkG的核心創新之一。即使在極低熵的情況下,系統也會強制保留至少k個候選項(默認k=3)。這個設計非常關鍵,因為它避免了兩個極端:既不會像純貪婪算法那樣完全確定性地選擇單一結果(這會加速紋理退化),也不會引入過多噪聲。這就像是給AI設置了一個"最低探索配額",確保它始終保持一定程度的靈活性,不至於鑽進死胡同出不來。
整個算法的美妙之處在於它的"無侵入性"。研究團隊不需要重新訓練模型,不需要修改模型架構,只需要在生成影片的推理階段改變採樣策略就行。這意味著ENkG可以立即應用到任何現有的自回歸影片生成模型上,就像是給舊車裝上了新的導航系統,不需要換車,只需要換個軟體。
效果有多明顯?數據說話研究團隊在多個影片生成模型上測試了ENkG的效果,包括DrivingWorld(自動駕駛場景)、VaVIM(通用影片)和Cosmos(英偉達的模型)。他們使用了兩個數據集:自己收集的DiverseDrive和公開的nuPlan數據集。
在DiverseDrive數據集上,ENkG讓DrivingWorld模型的FVD指標(衡量影片真實度)從696降到了489,降幅達到30%;FID指標(衡量單幀圖像質量)從61.78降到26.61,降幅高達57%。對於VaVIM模型,FVD從1473降到1055,FID從91.75降到46.76。即使是在nuPlan數據集上(模型本來就在這個數據集上訓練得很好),ENkG仍然能帶來明顯提升。

從視覺效果來看,差異更加直觀。在傳統Top-k採樣生成的影片中,到第75幀時,道路標線已經完全模糊,路邊的樹木變成了綠色的色塊,整個天空呈現出不自然的藍綠色。而使用ENkG生成的影片中,即使到第75幀,道路標線依然清晰可見,樹木保持著自然的形態和紋理,天空的漸變也很自然。
VaVIM模型的對比更加戲劇化。使用貪婪採樣時,模型生成的影片在第40幀之後幾乎陷入了"凍結":車輛停在原地不動,整個畫面像是被按下了暫停鍵。這是因為模型陷入了低熵陷阱,每一幀都重複生成幾乎相同的內容。而ENkG通過k保護機制保持了最低限度的多樣性,讓影片保持了流暢的動態感。
研究團隊還進行了長時程測試,生成了200幀的影片序列。傳統方法在100幀之後就開始出現明顯的色彩偏移和背景模糊,到200幀時整個畫面已經面目全非。ENkG生成的影片則始終保持了良好的視覺質量,雖然也有細微的累積誤差,但遠遠沒有到崩潰的程度。
消融實驗:每個設計都有用嗎?為了驗證ENkG中每個組成部分的作用,研究團隊進行了消融實驗。他們分別測試了去掉熵自適應引導和去掉k保護機制的版本。
當去掉熵自適應引導(也就是對所有位置使用固定的採樣策略)時,FVD從489上升到532,FID從26.61上升到41.43。視覺效果上,影片出現了明顯的紋理退化和色彩偏移問題,說明根據不確定性動態調整候選集大小確實是必要的。


當去掉k保護機制時,FVD從489上升到552,FID從26.61上升到39.76。更嚴重的是,影片在第60幀之後開始出現"幀凍結"現象:前景中的車輛應該在移動,但實際上幾乎停在了原地。這證明了k保護機制在防止模型陷入過度確定性方面發揮了關鍵作用。
研究團隊還測試了不同k保護值的影響。他們發現k=1(相當於沒有保護)時效果最差,而k在2到15之間時效果都比較穩定,最終選擇k=3作為默認值,在性能和計算效率之間取得了良好平衡。
對於熵映射的參數敏感性,研究團隊測試了三種配置:保守型(低熵對應更低的概率閾值)、默認型和激進型(高熵對應更高的概率閾值)。結果顯示默認配置效果最好,但即使使用相對極端的參數,性能下降也不太明顯,說明ENkG對參數選擇並不敏感,具有良好的魯棒性。
為什麼別的方法不夠好?可能有人會問:為什麼不直接優化現有的Top-k或Top-p參數呢?研究團隊確實做了詳盡的參數搜索。他們測試了Top-p從0.5到1.0的各個取值,Top-k從30到500的各個取值,甚至測試了Top-p和Top-k結合使用的各種組合。

結果發現,即使是表現最好的靜態配置(比如Top-k=90或Top-p=1.0),FVD也在530以上,FID在34以上,仍然明顯差於ENkG的489和26.61。而且,這些"最優"的靜態配置往往會導致其他問題。比如當Top-k設置得很大時,雖然FVD數值看起來還可以,但生成的影片在視覺上呈現出明顯的"破碎感":物體的結構不連貫,好像被打碎後又拼接起來一樣。
這說明ENkG的優勢不是來自於更精細的參數調整,而是來自於根本性的策略改進:從"一刀切"變成了"量體裁衣",根據每個位置的實際需求來決定候選集大小。
ENkG能用在其他模型上嗎?為了驗證ENkG的通用性,研究團隊在兩個非自動駕駛領域的模型上進行了測試:Lumos-1(通用影片生成)和NBP(下一塊預測)。
在Lumos-1模型上,ENkG同樣展現出了明顯優勢。原始模型使用Top-pk組合採樣(先Top-k再Top-p)生成的48幀影片序列,到後期會出現明顯的色彩失真和紋理模糊。例如,一個城市夜景的影片,到第36幀時建築物的燈光開始變得不自然,到第48幀整個畫面呈現出詭異的色調。使用ENkG後,影片始終保持了自然的色彩和清晰的細節。
在NBP模型上測試了UCF-101數據集(包含各種人類動作的影片)。原始模型在生成複雜動作時容易出現運動模糊和前景背景混淆的問題。ENkG改善了這些問題,生成的影片中人物動作更加清晰連貫。

這些跨領域的測試表明,ENkG不僅僅適用於自動駕駛場景,而是一個通用的解決方案,可以應用於各種類型的自回歸影片生成任務。
影片token和語言token的根本區別研究團隊深入分析了為什麼同樣的採樣策略在文本和影片生成中表現如此不同。他們對比了大語言模型Qwen2.5和影片模型DrivingWorld的輸出分布。
在語言模型中,概率最高的token通常能占到70-80%的概率質量,前20個候選token基本上就覆蓋了99%以上的概率。這是因為在給定上下文的情況下,下一個詞往往有相對明確的少數幾個合理選項。例如,"我沿著街道____",下一個詞大概率是"走"、"跑"或"騎車",其他選項的概率都很低。
但在影片模型中,情況完全不同。概率最高的token平均只占約20%的概率質量,前20個候選token的概率分布非常平坦,沒有明顯的主導者。這反映了影片內容的本質特徵:在時空上高度冗餘,單個token不承載獨特的語義資訊。天空中某個像素點可以是無數種細微不同的藍色,草地上某個區域可以是無數種略有差異的綠色。
更有意思的是,研究團隊發現影片模型的平均熵隨著生成時長逐漸下降。在生成的前幾幀,平均熵大約在1.1左右;到了第30幀,下降到約0.8;如果繼續生成到第100幀,甚至會降到0.6以下。這種"熵衰減"現象在語言模型中並不明顯,因為語言token的高語義密度防止了模型陷入過度自信的循環。
低熵陷阱的視覺表現低熵陷阱不僅僅是一個數值上的現象,它在視覺上有非常明確的表現形式。研究團隊總結了三種主要的視覺退化模式。
第一種是"背景塗抹"。在長時程生成中,原本應該有豐富細節的背景區域(如遠處的樹林、天空中的雲朵)逐漸失去結構,變成模糊的色塊。就好比用濕畫筆在水彩畫上反覆塗抹,最終所有細節都糊成一片。這種現象通常從第50幀左右開始顯現,到第100幀時變得非常明顯。
第二種是"全局色偏"。整個畫面的色調會朝著某個不自然的方向漂移。例如,一個正常光照下的街景,到了影片後期整個畫面可能變得偏藍或偏綠,看起來像是加了錯誤的濾鏡。這不是局部的色彩問題,而是整個幀的色彩空間發生了系統性偏移。
第三種是"紋理凍結"。細膩的紋理(如草地的質感、水面的波紋、樹葉的脈絡)變得異常靜態和重複。這些原本應該隨著視角變化而動態呈現的細節,變得像是貼紙一樣粘在物體表面,完全失去了自然感。
這三種退化模式都與低熵陷阱有關:模型變得過度自信,反覆生成高概率但缺乏多樣性的token,最終導致視覺質量的系統性崩潰。ENkG通過k保護機制強制保持最低限度的探索,有效防止了模型陷入這種惡性循環。
至頂AI實驗室洞見
這項研究揭示了一個重要洞察:AI生成影片的質量,不僅取決於模型有多強大,也取決於我們如何讓模型做決策。就像一個有經驗的廚師知道什麼時候該大膽嘗試新配料,什麼時候該嚴格遵循配方,ENkG教會了AI在什麼情況下該"放開想像",什麼情況下該"謹慎行事"。這種簡單而優雅的策略,可能預示著未來影片生成技術的一個重要方向:不僅要訓練更好的模型,也要設計更聰明的推理策略。
對於普通用戶來說,這項技術最直接的影響就是能夠生成更長、更穩定、更真實的AI影片。無論是想用AI生成一段長達數分鐘的自動駕駛測試影片,還是想創作一個完整的故事短片,ENkG都能讓AI保持"記憶力",不會越畫越離譜。而且最妙的是,這個技術可以直接應用到現有的各種影片生成工具上,不需要等待新模型的發布,只需要更新一下生成算法就行。
論文地址:https://arxiv.org/pdf/2601.19488v1






