香港大學與快手團隊聯手突破：AI終於能「記住」一分鐘前的遊戲世界了

這項由香港大學與快手技術團隊Kling聯合完成的研究，以預印本形式於2026年5月29日發布，論文編號為arXiv:2605.31336。有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。

贊助商廣告

有沒有玩過這樣的遊戲——你在一片森林裡轉了一大圈，回到原點時，原來那棵大樹不見了，地上的小屋變成了荒地，甚至天空的顏色都換了？這不是遊戲設計師故意整你，而是AI生成的虛擬世界面臨的真實困境：它根本記不住自己"一分鐘前看過什麼"。

這個問題聽起來簡單，卻是當前AI影片生成領域最棘手的挑戰之一。香港大學與快手Kling團隊的研究者們為此專門研發了一套名為DecMem（解耦記憶）的系統，目標只有一個：讓AI生成的遊戲世界在整整一分鐘內保持前後一致，你走過哪裡、看到什麼，回來時全都還在。

一、AI為什麼會"忘事"——從短暫記憶到分鐘級一致性的鴻溝

要理解這項研究的價值，先得明白AI生成影片時是怎麼工作的。現在最先進的AI影片系統，本質上是一幀接一幀地"續寫"畫面——每生成新的一幀，它都要回頭看看之前生成的內容，然後預測接下來應該畫什麼。這個過程很像一個作家在寫連載小說，每次動筆前需要翻看之前的章節，保證前後邏輯一致。

然而問題就出在這個"翻看"的動作上。作家翻書很容易，但AI處理歷史資訊卻要付出巨大的計算代價。隨著生成的幀數越來越多，AI需要回顧的歷史內容呈指數級增長，很快就會超出系統的承受能力。因此，絕大多數現有方法只好妥協：只讓AI記住最近的幾幀畫面，更早的內容直接丟棄。這就好比要求作家每次只能翻看最近兩頁，寫到第100章時，第1章的關鍵設定早已無從追溯。

這種"只看近處"的策略在短影片生成中還湊合，但一旦遇到需要"重訪"場景的情況——比如玩家在遊戲裡轉了一大圈回到起點——問題就徹底暴露了。AI根本不記得那個起點長什麼樣，於是隨機生成一個完全不同的場景。玩家眼中，整個世界就像換了一張皮，前後毫無關聯。

贊助商廣告

研究者們把這個問題稱為"長時程不一致性"，並把解決它作為整個研究的核心目標。他們希望做到的，是讓AI在生成超過一分鐘、超過800幀畫面的過程中，始終能準確"記住"並還原之前見過的場景，哪怕那個場景已經在幾百幀之前出現過。

二、前人的嘗試：兩條路都走不通

在這項研究之前，學界已經有人嘗試解決長時記憶問題，大體分成兩個流派，但都有明顯的局限。

第一個流派可以稱為"建地圖派"。這些方法試圖讓AI在生成影片的同時，額外維護一張三維空間地圖，把每一幀里的場景資訊都"釘"到地圖上。等到AI需要回憶某個場景時，就查一查地圖，找到對應位置的資訊。這個思路很直觀，就像你在一個陌生城市遊玩時隨手畫一張示意圖，方便之後找路。問題是，畫地圖本身就需要額外的工具和計算資源，而且現有的三維估計技術並不完美——誤差會隨著時間慢慢積累，時間越長地圖越不准，最終導致回憶的場景越來越失真。

第二個流派可以稱為"看相機角度派"。這類方法不構建三維地圖，而是根據攝像機的朝向和視野角度，從歷史幀庫里檢索與當前視角最相關的幀，把它們作為上下文資訊提供給AI參考。這個方法的代表是WorldMem系統。相比建地圖，它更輕便，也避免了三維估計誤差的積累。但它的核心缺陷在於：它只能以整張幀為單位進行檢索，每次要麼拿來一整幀，要麼完全不用，無法精細地只取一幀里的某個角落的資訊。更重要的是，它的檢索規則是人工設計的啟發式規則，無法通過訓練自動優化——它永遠只能"按規矩辦事"，而不能從經驗中學習什麼時候該重點關注哪些歷史細節。

面對這兩條路的局限，研究者們決定走第三條路：讓AI自己學會在極細粒度上檢索歷史記憶，同時解決記憶越來越多時計算開銷爆炸的問題。

三、注意力渙散——找到問題的真正根源

贊助商廣告

在提出解決方案之前，研究團隊做了一項關鍵的診斷工作，這也是整篇論文中最具洞察力的部分之一。

他們做了這樣一個實驗：讓AI在沒有任何特殊記憶機制的情況下，對所有歷史幀進行"全局注意力"——也就是每次生成新幀時，都能看到此前所有幀的內容，不做任何篩選或限制。按理說，這應該是最理想的記憶方式，資訊最全、不遺漏任何細節。然而實驗結果讓人大跌眼鏡：隨著生成幀數增加，畫面質量反而急劇崩塌，到第800幀附近時，生成的畫面已經面目全非。

研究者們深入分析了AI在這個過程中的注意力分布，發現了一個關鍵現象，他們將其命名為"注意力渙散"。你可以這樣理解這個現象：假設你在一個嘈雜的派對上，需要分辨某人說話的內容。當現場只有3個人時，你的注意力集中，聽得清清楚楚；但當人數增加到300人，每個人都在說話，你的注意力就被攤薄到每個人身上，結果誰說的話都沒聽清。AI面臨的正是同樣的困境——歷史幀越積越多，每一幀都分到一點點注意力權重，真正重要的關鍵幀反而被大量次要幀淹沒，最終導致生成質量崩潰。

更具體地說，研究者通過可視化發現，當AI生成第810幀時，歷史記憶中絕大多數幀都獲得了微小但非零的注意力權重，形成一條長長的"尾巴"。這條注意力尾巴把原本應該集中在關鍵歷史幀上的權重稀釋得所剩無幾，AI不知道該重點關注哪段歷史，於是生成的內容開始偏離應有的軌跡。

面對這個問題，學界已有人提出了"訓練無關的衰減策略"——簡單粗暴地給距離當前幀越遠的歷史幀施加越大的衰減權重，讓AI自動忽視遙遠的歷史。這種方法確實能緩解注意力渙散，但代價是把寶寶連同洗澡水一起倒掉——那些真正需要被記住的遠程場景資訊也一併被壓制，長程一致性依然無從保證。研究者在實驗中確認了這一點：衰減策略在中間階段（大約300到700幀之間）的表現甚至比不做任何處理還要差。

贊助商廣告

由此，研究者得出了一個核心判斷：解決注意力渙散問題，不能靠人工設計的規則，而需要一個能夠自適應地抑制無關歷史、同時保留關鍵歷史的可學習架構。

四、DecMem的設計：兩個相互配合的記憶模組

明確了問題的根源，研究者設計了DecMem系統，其核心是兩個相互配合、各司其職的記憶模組。

第一個模組叫做"稀疏全局記憶"（SGM）。理解這個模組，可以把AI生成影片的過程類比為一位偵探在查閱大量案件檔案。全局記憶意味著檔案庫里存放著所有歷史幀的資訊，但直接翻遍所有檔案效率極低，還會被大量無關資訊干擾。SGM的做法是：先把每一幀畫面拆分成若干個"小塊"（研究中每幀分成6塊），然後對每個小塊提取一個簡化的摘要特徵。當AI需要為當前幀的某個小區域尋找歷史參考時，它先用這些摘要特徵快速比對，找出歷史中最相關的若干個小塊（研究中默認選取80個），再對這些精選出的小塊進行精細的注意力計算。

這個兩階段的設計非常精妙。第一階段用摘要快速篩選，計算量極小；第二階段只對精選內容做精細計算，計算量被控制在可接受的範圍內。整個過程中，每次生成新幀所需的計算量不會隨歷史幀數增加而線性增長，徹底解決了計算效率問題。同時，由於檢索是在小塊級別進行的，而非整幀級別，AI可以只提取某幀里的特定角落資訊，實現了真正的細粒度記憶檢索。更關鍵的是，整個檢索過程是端到端可訓練的——AI可以從大量訓練數據中自動學習什麼樣的歷史小塊對當前生成最有幫助，而不是依賴人工設計的規則。

第二個模組叫做"錨定局部記憶"（ALM）。這個模組的設計思路更直接：既然注意力渙散的核心是歷史資訊太多、信號太弱，那就給AI一個穩定的"注意力錨點"。ALM限制AI只對最近若干幀（研究中設置為8幀）進行滑動窗口注意力計算。這些最近的幀在時間上離當前幀最近，視覺和語義上的關聯最強，注意力權重自然也最集中、最可靠。ALM不試圖解決長程記憶問題，它的唯一職責是提供一個穩定的短程基準，防止AI在大量歷史資訊的干擾下"迷失方向"。

贊助商廣告

這兩個模組通過一個可學習的"門控機制"融合在一起。最終的生成結果等於ALM的輸出加上一個由當前幀特徵動態調節的權重乘以SGM的輸出。ALM負責提供穩定可靠的短程基準，SGM負責在全局歷史中精準定位並提取關鍵的長程資訊，兩者結合，既保證了生成質量的穩定性，又實現了對長程歷史的細粒度訪問。

五、攝像機語言的融入：讓AI理解"我在哪兒看什麼"

除了核心的兩個記憶模組，研究團隊還為系統加入了一套多模態位置編碼機制，解決了另一個重要問題：AI如何理解攝像機的位置和朝向，從而更準確地判斷哪些歷史幀與當前視角相關。

研究者將注意力計算中使用的位置編碼分成三個獨立的通道，分別編碼三類不同的空間資訊，每個通道占用72個特徵維度中的24個。第一個通道編碼攝像機的幾何關係——當前攝像機和歷史幀攝像機之間的相對位置和朝向差異，這讓AI能夠理解"現在看的方向和之前某幀的方向差了多少"。第二個通道編碼畫面內部的空間坐標——每個小塊在畫面中處於左上還是右下，保證AI在比對歷史資訊時考慮到空間位置的對應關係。第三個通道編碼時間幀序號，讓AI能夠感知不同歷史幀之間的時間遠近。

這三類位置資訊被分別注入注意力計算的不同維度，避免相互干擾。有了這套編碼，AI在檢索歷史記憶時不再只是比較視覺內容的相似性，還能綜合考慮攝像機視角、畫面空間位置和時間距離，檢索結果自然更加精準。

六、實驗驗證：數字和視覺都說話

為了驗證DecMem的實際效果，研究團隊在Minecraft遊戲場景數據集上進行了系統性測試，與三個代表性的現有方法進行了對比：MineWorld（使用滑動窗口記憶）、Oasis（同樣使用滑動窗口）、以及WorldMem（使用基於視野角度的幀檢索）。

測試分為兩個階段：第一個階段考察模型在"訓練窗口內"的表現，也就是生成幀數不超過訓練時見過的長度；第二個階段考察模型在"訓練窗口之外"的外推能力，也就是生成比訓練時更長的影片序列。所有模型都以221幀真實影片作為記憶庫初始化，然後繼續生成120幀，測量生成內容與真實幀之間在像素級、感知級和分布級三個層面的差異。

贊助商廣告

在訓練窗口內的測試中，DecMem在三個指標上全面領先：PSNR（峰值信噪比，衡量像素級還原準確度）達到30.08，而WorldMem為26.54、Oasis為24.13、MineWorld僅20.30；LPIPS（感知相似度，數值越低越好）為0.049，而WorldMem為0.080；FID（生成分布與真實分布的差距，數值越低越好）為9.89，而WorldMem為11.74。

在訓練窗口之外的外推測試中，差距進一步拉大，這也是整個測試中最能體現各方法本質差異的部分。DecMem的PSNR仍保持在25.23，而WorldMem下滑到19.14，Oasis跌至13.42，MineWorld更是只剩14.61。FID方面，DecMem為16.27，WorldMem為38.47，Oasis高達63.89，MineWorld更是74.21。這些數字清晰地說明，當生成長度超過訓練時的經驗範圍，其他方法都出現了明顯的質量崩塌，而DecMem保持了相對穩健的性能。

除了客觀指標，研究團隊還組織了一項用戶研究，邀請58位參與者從視覺質量、動作可控性、時空一致性三個維度對不同方法的生成影片進行偏好評分。DecMem在三個維度上均獲得最高偏好率，分別為39.77%、37.81%和42.12%，與排名第二的WorldMem（19.31%、25.33%、24.16%）拉開了顯著差距。

在推理效率方面，DecMem同樣表現出色：每秒生成幀數達到3.65幀，而WorldMem僅為0.54幀，MineWorld為0.16幀，DecMem的速度是最接近競爭對手WorldMem的近7倍，更是比Oasis快了將近兩倍。這一效率優勢直接來源於SGM的稀疏塊檢索設計——計算量不隨歷史幀數增加而線性增長。

七、拆解實驗：每個模組到底貢獻了多少

為了驗證兩個核心模組各自的必要性，研究團隊還進行了消融實驗，分別測試去掉SGM或去掉ALM後系統性能的變化，並與樸素全局注意力及帶衰減策略的全局注意力進行比較。

樸素全局注意力的問題已在前文分析過：雖然資訊最全，但注意力渙散導致質量在長程生成中急劇崩塌，而且計算量隨幀數線性增長，完全無法擴展到分鐘級影片。帶衰減策略的全局注意力在後期（700幀之後）有所改善，但在中期階段（300到700幀之間）性能反而比純全局注意力還差，說明它確實在有效地壓制了部分有用的長程資訊。

贊助商廣告

去掉SGM的版本（只保留ALM）在整個外推過程中表現最差，這印證了長程記憶檢索對於一致性的不可或缺性——沒有全局記憶，模型退化為一個只會看眼前幾幀的局部系統，長程場景一致性完全無從保證。

去掉ALM的版本（只保留SGM）在早期階段表現尚可，但在600幀之後開始急劇惡化，到後期FID和LPIPS指標甚至比樸素全局注意力還差。這個結果直接證明了注意力渙散問題的嚴重性：當SGM向注意力中引入大量來自全局歷史的資訊時，如果沒有ALM的局部錨定來穩定注意力分布，渙散現象不但沒有改善，反而更加嚴重。

只有完整的DecMem——SGM與ALM共同工作——才能在整個外推過程中保持穩定的生成質量，同時計算成本保持近乎恆定。這兩個模組一個負責精準挖掘歷史，一個負責穩定當下注意力，缺一不可。

研究團隊還測試了SGM中檢索塊數量k（top-k）對性能的影響。從測試結果來看，隨著k從20增加到80，各個評估階段的性能都在穩步提升。但當k從80增加到100時，在長程外推階段，PSNR和FID都出現了下滑。這說明並非檢索越多越好——檢索過多的歷史塊會稀釋從ALM那裡獲得的穩定短程信號，削弱兩個模組之間的互補性。研究團隊最終將k設定為80，在長程記憶覆蓋和短程穩定性之間取得最佳平衡。

此外，研究團隊還探索了"動作無分類器引導"技術對生成質量的影響。這個技術的思路來自圖像生成領域——訓練時隨機丟掉一部分動作條件，推理時用有無動作兩種預測的加權組合來生成結果，從而更好地在動作控制強度和生成質量之間取得平衡。實驗發現，加入這個技術後，在訓練窗口內和短程外推階段，像素級PSNR指標略有下降，但在長程外推階段，生成分布與真實分布的差距（FID）從42.55大幅下降到25.27，說明這個技術以少量短程精度為代價，換來了顯著的長程穩定性提升。

八、更大的舞台：工業級模型和多樣化場景

贊助商廣告

為了進一步驗證DecMem的競爭力，研究團隊將其與兩個工業界大規模世界模型進行了對比：Matrix-Game 2.0和WorldPlay。這兩個模型都在多領域、大規模數據集上訓練，具備更強的跨場景泛化能力，且都基於單張圖片作為初始條件進行生成，而非影片片段初始化。

為了公平比較，研究團隊也將DecMem的初始條件統一改為單張圖片，在相同條件下進行用戶研究。結果顯示，DecMem在視覺質量（36.22%對比WorldPlay的35.04%和Matrix-Game 2.0的28.74%）和動作可控性（36.96%對比29.96%和33.07%）上與工業級模型持平甚至略有超出，而在時空一致性這個最核心的指標上，DecMem以39.53%的偏好率領先WorldPlay（34.39%）和Matrix-Game 2.0（26.07%），優勢約為5個百分點。

研究團隊還在另一個不同的數據集——Context-as-Memory數據集——上進行了泛化測試。這個數據集包含大量"重訪場景"，專門考察模型在多次回到同一地點時能否保持記憶的一致性。實驗在島嶼、城市和化工廠三種不同風格的場景中進行，攝像機被驅動著反覆向左和向右轉動，模擬探索者來回穿越熟悉區域的過程。測試結果顯示，DecMem在每次重訪時都能準確還原之前觀察到的建築布局和局部細節，跨環境的穩健性得到了驗證。

歸根結底，這項研究做到了一件看似簡單卻極為困難的事：讓AI生成的虛擬世界真正擁有了"記性"。不是那種只能記住最近幾幀的短暫記憶，而是能在整整一分鐘、數百幀的生成過程中，隨時準確地回憶起之前見過的任何角落。

這件事的意義遠不止遊戲場景。能夠長時程保持一致性的世界生成模型，可以成為訓練自動駕駛系統的虛擬環境、具身智能香港大學與快手團隊聯手突破AI終於能記住一分鐘前的遊戲世界了機器人的練習場地、影視創作的可交互預可視化工具，乃至各類需要持續空間一致性的虛擬仿真平台。

當然，研究者也坦承了現階段的局限：DecMem目前還無法做到實時生成，因為團隊將重心放在了記憶精準度和外推泛化能力上，而非推理加速。未來他們計劃探索將壓縮的全局記憶與細粒度的對象級記憶結合起來，進一步提升長程一致性，並通過知識蒸餾等方法降低推理延遲，向實時世界生成的目標繼續邁進。

贊助商廣告

換句話說，這次研究解決的是"記得住"的問題，下一步要解決的是"記得又快又准"的問題。一個真正意義上的、能長時間維持內在邏輯一貫性的AI世界模型，正在一步一步走向現實。如果你對這項研究的技術細節感興趣，可以通過arXiv編號2605.31336找到完整論文，進一步探索其中每個模組的精確數學推導和完整實驗數據。

Q&A

Q1：DecMem和WorldMem這類基於視野角度檢索的方法相比，最大的區別是什麼？

A：WorldMem是以整幀畫面為最小單位進行檢索，一次要麼取來一整幀，要麼完全不用，無法只提取某幀的局部細節，而且檢索規則是人工設計的，無法通過訓練自動優化。DecMem則把每幀拆分成若干小塊進行細粒度檢索，可以只取歷史中某幀的某個角落資訊，整個檢索過程是端到端可訓練的，AI能從訓練數據中自動學會什麼歷史內容對當前生成最有幫助。

Q2：注意力渙散問題具體會造成什麼樣的視覺效果崩塌？

A：隨著生成幀數增加，AI的注意力被大量歷史幀攤薄，真正重要的關鍵歷史幀獲得的權重越來越低。視覺上的表現是場景逐漸失真、結構崩塌，比如原本應該還在的建築物消失了，地形輪廓變形，場景整體開始"融化"成模糊無序的畫面，到後期甚至出現完全無法識別的圖像噪聲。

Q3：DecMem在真實遊戲或影片生成產品中能用上嗎？

A：目前DecMem還不能做到實時生成，研究團隊自己也指出這是當前的主要局限。它的生成速度約為每秒3.65幀，遠低於實時遊戲需要的每秒30幀以上。但在需要預先生成高質量、高一致性長影片的場景下——比如遊戲關卡預覽、影視可視化預製作、或者具身AI訓練環境生成——已經具備實用價值。研究團隊的下一步計劃包括通過知識蒸餾等方法提升推理速度。