這項由崑崙天工AI(Skywork AI)研究團隊完成的研究以技術報告形式發布於2026年4月,論文編號為arXiv:2604.08995,有興趣深入了解的讀者可以通過該編號在arXiv平台上查詢完整論文。
**當AI開始"實時造世界"**
假設你正在玩一款從未存在過的電子遊戲。你按下向左的方向鍵,遊戲裡的人物轉身,街道隨之出現;你向前走了一分鐘後折回原路,街角那棵彎曲的老樹還靜靜地在那裡,一磚一瓦都和你離開時一模一樣。更神奇的是,這一切不是某個程序員預先設計好的——它是AI在你操作的瞬間憑空"想"出來的,而且每秒鐘能刷新40張畫面,比大多數電影的幀率還高。
這正是Matrix-Game 3.0想要實現的目標。它是一個"交互式世界模型"——用更通俗的話說,就是一台能根據你的實時操作不斷生成畫面的AI影片引擎。你按鍵盤,它造場景;你轉動滑鼠,它調整鏡頭;你走過一片森林,轉身回望,它還記得那片森林長什麼樣。
目前大多數AI影片生成工具更像是"照片沖洗店"——你提交需求,等上幾秒甚至幾分鐘,才能拿到一段幾秒鐘的成品。這種方式用來製作廣告短片還行,但要真正讓人坐進去"玩",就完全不夠用了。Matrix-Game 3.0的野心在於打破這道壁壘:不僅要快,還要有記憶,還要能接受操控,還要清晰到720p的高清解析度。
**一、為什麼同時做到這三件事這麼難?**
做過飯的人都知道,一道菜要同時做到"快"、"好吃"和"量大",往往顧此失彼。AI影片生成也面臨類似的三難困境。
第一難是速度。現有的頂級影片生成模型,比如Sora或Kling,生成質量很高,但速度極慢,根本無法用於實時交互。要讓AI跟上人手操作的節奏,就必須大幅壓縮計算時間,而這通常意味著犧牲畫質。
第二難是記憶。當AI按段生成畫面時,它很容易"忘記"自己剛才生成了什麼。你向前走了三十秒後折回,AI可能已經不記得那條小巷的磚牆是紅色還是灰色了,於是畫出一個和之前完全不同的場景。這種"失憶"在短影片裡不明顯,但在需要持續幾分鐘乃至更長時間的交互體驗中,會讓整個世界感覺支離破碎。
第三難是控制。讓AI根據用戶的鍵盤和滑鼠操作精準生成對應畫面,本身就是一個複雜的技術挑戰。按下"向前"鍵時,AI必須理解這意味著鏡頭推進、背景縮小、新場景逐漸出現,而不是隨機生成一段不相關的畫面。
在Matrix-Game 3.0出現之前,已經有一些研究在嘗試解決其中的一兩個難題。比如Matrix-Game 2.0和HY-Gamecraft-2實現了實時流式生成,但缺乏長期記憶;而LingBot-World通過擴展上下文長度改善了長期一致性,但又很難做到實時流暢。沒有人能把三件事同時做好。
Matrix-Game 3.0的整體解題思路,是把這個問題拆成三個相互配合的子任務,分別在數據、模型結構和推理加速三個層面上各個擊破,再把解決方案拼合成一個協調運轉的完整系統。
**二、"世界的原材料":數據引擎**
要訓練一個AI造世界,首先得給它看足夠多、足夠好的"世界素材"。但這件事本身就不容易。
普通的網路影片沒有精確的攝像機位置資訊,也沒有記錄"用戶按了什麼鍵"的數據。這對於訓練一個能響應操作指令的世界模型來說,就好比想教一個廚師做菜,卻只給他看成品照片,不告訴他配方和步驟——根本沒法學。
崑崙天工團隊因此構建了一套工業級的數據生產流水線,從三個截然不同的源頭同時供貨。
第一個源頭是虛幻引擎(Unreal Engine 5)搭建的合成環境。團隊在這套世界頂級的遊戲引擎里建造了超過一千個虛擬場景,配備了精細的光照和幾何建模。在這套流水線里,每一幀畫面生成時,系統都同時記錄下畫面內容、攝像機的精確位置和朝向、角色在世界中的坐標,以及當前按下的操作鍵——所有這些資訊的時間誤差為零,因為它們都在同一個引擎"心跳"里產生。相比之下,用外部攝影機去錄製已有遊戲的話,影片和操作數據之間總會有難以消除的時間偏差。此外,團隊還設計了一套角色外觀組合系統,可以隨機搭配衣服、鞋子、髮型、配飾等各部分,理論上能產生超過一億種不同外觀的角色,確保訓練數據在視覺上足夠多樣。
但合成環境終究比不上真實遊戲的視覺豐富度。於是團隊又搭建了第二套系統,專門從GTA V、碧血狂殺2、幻獸帕魯、電馭叛客2077、霍格屈絲遺產等多款頂級商業遊戲裡自動錄製數據。這套系統採用了四層解耦架構:最底層是遊戲本身運行的進程,中間層負責控制遊戲裡的角色自動探索場景,錄製層用專業軟體按每60秒一段切片記錄畫面,最外層則負責把所有影片和對應的操作數據、攝像機參數打包成標準格式輸出。整套流程幾乎不需要人工干預,數據準確率超過99%。更妙的是,這套架構的擴展性很好——如果要接入一款新遊戲,只需要針對那款遊戲寫一個特定的"角色控制插件",其餘部分完全可以復用。
第三個數據來源是真實世界的影片。團隊引入了DL3DV-10K(一萬個4K高清場景序列)、RealEstate10K(室內房產漫遊影片)、OmniWorld(城市街頭行走影片)和SpatialVid(涵蓋步行、駕車、無人機航拍等多種視角的高清影片)等數據集。這些真實影片帶來了合成環境裡難以復現的光線變化、材質質感和自然鏡頭運動。為了消除不同數據集之間攝像機坐標系不統一的問題,團隊統一使用ViPE工具對所有真實影片重新進行了位姿標註。
數據收集完成後,團隊還對每一段影片進行了細粒度的文字描述標註,採用四層層次化方案:整體敘述性描述、靜態場景外觀描述、逐段動態事件描述,以及從運動流暢度、背景動態性、場景複雜度、物理合理性和整體質量五個維度打分的感知質量評分。最後,通過深度重投影誤差檢驗、位移比例異常檢測和速度範圍過濾三重機制篩掉了約20%的低質量片段,留下高質量的訓練集。
**三、"會自我糾錯的畫師":基礎模型的設計**
數據準備好了,接下來的核心問題是:AI模型本身該怎麼設計,才能在生成連續畫面時不"跑偏"?
這裡有一個技術上的經典困境,叫做"曝光偏差"。可以把它理解成這樣一個困境:一個學生在練習寫作時,老師總是給他看完美的範文作為參考。他學會了根據完美範文續寫下一句。但到了真正考試時,他只能參考自己上一句寫的內容,而他寫的內容肯定不如老師的範文完美。這個誤差會不斷累積——他越寫越偏,因為他從來沒有練習過"從有缺陷的上文開始續寫"這個技能。
AI影片模型的問題完全一樣。在訓練時,它總是以真實的、完美的歷史幀作為參考來生成下一段;但在實際運行時,它的參考只有它自己之前生成的畫面,而那些畫面難免有各種小錯誤。這些錯誤越積越多,最終導致畫面越來越不穩定。
Matrix-Game 3.0通過一種叫做"錯誤感知訓練"的機制來解決這個問題,其思路來自於Stable Video Infinity(SVI)這篇相關研究的啟發。具體做法是這樣的:在訓練過程中,AI每生成一幀畫面,系統就計算這一幀和真實畫面之間的差異,把這個差異存入一個"錯誤緩衝區"。然後在訓練下一批數據時,從緩衝區里隨機取出一個之前積攢的誤差,把它疊加到用作參考的歷史幀上,再讓AI試著從這個"已經被污染"的參考畫面出發,生成正確的下一幀。久而久之,AI就學會了如何從"不完美的參考"里提取有用資訊,生成依然穩定連貫的畫面。這就像是專門訓練廚師在食材質量參差不齊的情況下也能做出一道合格的菜——而不是只在食材完美時才會做菜。
在操作控制方面,Matrix-Game 3.0繼承並改進了前一代的設計思路。鍵盤按鍵(比如前進、後退、跳躍、攻擊等離散的操作)通過一種叫做"交叉注意力"的機制注入模型,滑鼠移動(連續的方向控制)則通過"自注意力"機制直接影響畫面生成。兩種控制信號以不同的方式融入模型,讓AI對操作的響應既精準又自然。
模型架構上,團隊刻意選擇了讓"教師模型"和"學生模型"(後面會解釋這對概念)使用完全相同的雙向變換器結構。這與很多其他方法不同——很多方法讓教師用一種架構,學生用另一種架構,結果兩者之間的理解方式存在根本性的差異,導致"知識傳授"時出現扭曲。崑崙天工團隊的邏輯是:用同一種語言說話,溝通才最順暢。
**四、"帶地圖的旅行者":長期記憶機制**
解決了單段畫面生成的穩定性問題之後,更大的挑戰是如何讓AI在幾十秒乃至幾分鐘的連續生成中保持世界的一致性。
這個問題可以用一個旅行者的比喻來理解。假設你在一個巨大的城市裡探索,每走過一個街區,你就把它的樣子拍下來存在口袋裡。走了一大圈之後,你回到最初的那條街——你能認出它,是因為你有之前拍的照片。但如果你口袋裡只能裝最近走過的五個街區的照片,之前走過的地方的記憶就只能靠猜測了。
Matrix-Game 3.0的記憶機制要做的,就是讓AI在這個"口袋"里聰明地裝照片,並且知道什麼時候該翻出哪張來參考。
團隊在設計過程中先研究了兩種現有方案,發現各有缺陷。第一種是"隱式長上下文建模"——把所有歷史畫面都餵給模型,讓它自己從中找到相關的部分。這種方法的問題是:當模型還在"噪聲很大"的早期生成階段時,它很難判斷哪些歷史資訊是真正有用的,導致記憶選擇不穩定,而且把所有歷史畫面都保存在內存里,計算開銷也非常大。第二種是"外掛記憶分支"——單獨建一條記憶處理通道,通過交叉注意力把記憶資訊注入到主生成流程里。但這種方式導致記憶特徵和生成特徵不在同一個語義空間裡,特徵對齊困難,收斂很慢,效果也有限。
Matrix-Game 3.0採用的解決方案更為優雅:把記憶幀、近期歷史幀和當前待生成的噪聲幀,全部放進同一個注意力空間裡一起處理。這就像是讓旅行者隨時都能把口袋裡的所有照片鋪在桌上,和眼前的實際景色一起比對,而不是先單獨研究照片、再單獨看景色、最後靠大腦拼接。通過這種統一處理的方式,模型能在同一次計算中同時考慮短期連續性(來自近期歷史幀)和長期錨點資訊(來自久遠的記憶幀)。
但並非所有歷史畫面都值得記住。假設你在城市裡探索,走進了一條死胡同又退出來,那條胡同里的樣子對你接下來繼續向北走幫助不大。Matrix-Game 3.0引入了"攝像機感知的記憶檢索"機制——根據當前攝像機的朝向和視野範圍,從歷史幀庫里挑出"視野重疊度最高"的那些幀作為記憶參考。簡單說,就是挑和當前視角看到的東西最像的歷史畫面來參考。這樣既節省了計算資源,又確保了參考資訊的相關性。
除此之外,團隊還保留了序列里的"第一幀"作為持久性的全局錨點。這一幀始終在場,為整個生成序列提供穩定的風格和場景氛圍基調,就像旅行者出發時給城市全景拍的那張鳥瞰照片,無論之後走到哪裡,總能想起這個城市大體長什麼樣。
為了讓AI真正理解記憶幀和當前幀之間的空間關係,團隊還引入了"相對普呂克編碼"——這是一種把攝像機的相對位置和朝向用數學方式編碼進模型輸入里的技術。打個比方,這就像是在給AI的參考照片上寫上備註:"這張照片是在你當前位置向東走50米、向左轉30度時拍的。"有了這個空間幾何資訊,AI就能更準確地判斷歷史畫面里的場景元素應該出現在當前視野的哪個位置,而不是把歷史記憶以一種視角錯亂的方式強行貼進當前畫面。
在位置編碼(負責告訴模型每一幀在時間序列里處於什麼位置的機制)方面,團隊發現了一個潛在問題:標準的旋轉位置編碼(RoPE)是周期性的,意味著時間間隔很遠的兩幀有可能被誤認為時間相近。為了解決這個問題,團隊引入了"逐注意力頭擾動旋轉基底"技術——讓模型的不同"思考通道"(注意力頭)各自使用略有不同的時間刻度,就像用多塊走速不同的時鐘來共同判斷時間,避免所有時鐘同時走到整點、無法分辨具體時刻的情況。實驗中的注意力熱力圖驗證了這個設計的有效性:即使是時間上相距很遠的記憶幀,在生成當前幀時依然能獲得非常可觀的注意力權重,證明模型確實在有效利用遠距離的記憶資訊。
**五、"讓快車也跑得准":知識蒸餾與推理加速**
基礎模型設計好了,但它還是一個需要多步反覆計算才能生成高質量畫面的"慢車"。要達到每秒40幀的實時速度,必須把它壓縮成一輛"快車",同時儘量保住畫質和記憶能力。
這個壓縮過程叫做"知識蒸餾"。通俗地說,就是用一個大而慢的"教師模型"來監督訓練一個小而快的"學生模型",讓學生儘可能模仿教師的輸出質量。
但在這裡,團隊遇到了一個前人研究中普遍忽視的問題:學生在學習時應該模仿什麼情況下的教師?如果總是讓學生參考"完美歷史幀"來學習,那到了實際推理時,學生面對的是自己生成的"不完美歷史幀",兩種情況之間的鴻溝會導致學生發揮失常。
Matrix-Game 3.0的解決方案是"多段自生成推理方案",整個設計思路借鑑了"分布匹配蒸餾"(DMD)的理論框架。具體做法是讓學生在學習過程中真正"滾動"起來:從隨機噪聲出發生成第一段畫面,然後把這段畫面的末尾當作下一段的起點,繼續生成第二段……如此重複多次,形成一個真正的連續推理鏈。在訓練時,隨機選取其中某一段畫面,把它同時送給教師模型和一個專門評判畫面質量好壞的"評判者模型",通過比較教師和學生在這一時刻的概率分布差異來計算損失、更新學生參數。
這套方案的聰明之處在於,學生從一開始就在"真實的推理環境"里學習,而不是在溫室里學習、到實際場景里才發現自己完全不適應。訓練分兩個階段進行:第一階段(前600步)是"冷啟動",使用單段推理、以真實歷史幀為參考,防止學生在訓練早期因為完全依賴自己生成的糟糕畫面而崩潰;第二階段(後2400步)切換為真正的多段自生成推理,每次隨機選取1到6段的推理鏈長度,讓學生充分適應各種長度的連續生成場景。
有了蒸餾好的學生模型,還需要一系列系統層面的工程優化才能真正達到40FPS。
第一項優化是對核心生成網路(DiT)進行INT8量化。量化是一種把模型計算精度從"高精度浮點數"降低為"低精度整數"的技術,類比於把一把萬分之一毫米精度的遊標卡尺換成一把精度夠用的普通尺子——計算速度快了很多,而對最終畫面質量的影響在可接受範圍內。團隊只對最關鍵的注意力計算層做了量化,其他部分(前饋網路、VAE、文本編碼器)保持原始精度,這樣能在速度和質量之間取得最好的平衡。
第二項優化是對VAE解碼器進行剪枝。VAE(變分自編碼器)負責把模型在"潛在空間"里生成的壓縮表示轉換回人眼能看到的像素圖像,在高解析度流式生成中,這個步驟會成為速度瓶頸。團隊訓練了一個叫做MG-LightVAE的輕量化版本,通過縮減解碼器內部的隱藏層維度來壓縮計算量,同時保持整體架構不變。團隊提供了50%剪枝和75%剪枝兩個版本:50%剪枝版在測試集上的峰值信噪比(PSNR,衡量畫面重建質量的指標)從原始的33.79降至31.84,但解碼時間從0.76秒壓縮到0.30秒;75%剪枝版PSNR進一步降至31.14,但解碼時間只需0.13秒,是原始的約六分之一,而結構相似度(SSIM)在兩個版本中都保持在0.99,說明視覺上的整體結構保真度依然極高。
第三項優化,也是速度提升幅度最大的一項,是把記憶檢索從CPU搬到GPU上執行。模型每生成一段畫面前,都需要從歷史幀庫里找出和當前視角最相關的記憶幀,隨著生成時間越來越長,歷史幀庫也越來越大,在CPU上做這個檢索會越來越慢。GPU版本用一種基於隨機採樣的近似計算方法替代了精確的三維視錐體積交叉計算,速度大幅提升,而檢索準確性依然足夠高。從消融實驗數據來看,去掉GPU檢索後,系統幀率從約40FPS跌至6.60FPS,降幅高達33.40幀,是三項優化里影響最大的一項。去掉INT8量化的影響為12.62幀,去掉MG-LightVAE的影響為14.21幀。三項優化協同作用,共同撐起了40FPS的最終性能。
實際部署時,系統採用8+1的異步GPU分配方案:8塊GPU專門負責DiT推理,1塊GPU專門負責VAE解碼,兩個步驟並行執行,互不等待,進一步提升了流水線的整體吞吐量。
**六、"變大的世界":規模擴展到280億參數**
完成了5B(50億)參數模型的全套設計之後,團隊還進一步探索了把模型規模擴展到28B(280億)參數的可能性,採用的是MoE(混合專家,Mixture of Experts)架構,靈感來自於LingBot-World團隊的相關工作。
在這個大模型的訓練中,團隊發現了一個有趣的規律:模型在處理"高噪聲階段"(即從噪聲逐漸恢復出畫面的早期階段)時,是學習操作控制的最佳時機;而"低噪聲階段"(即對畫面細節進行精細調整的後期階段)則更適合學習如何提升視覺質量。基於這個觀察,團隊把兩個階段的訓練解耦:高噪聲階段的模型用精確標註了操作數據的專業遊戲影片來訓練,確保它準確響應玩家指令;低噪聲階段的模型則可以用網際網路上大量沒有操作標註的普通影片來訓練,廣泛學習各種場景的視覺規律,提升畫面質量和泛化能力。這種解耦讓海量無標註數據的價值得到了充分利用。
此外,團隊還注意到第一人稱視角(好像你直接通過角色的眼睛看世界)和第三人稱視角(你在角色背後跟隨它)的動態規律差異很大,很難用同一個模型同時學好。因此在28B版本里,團隊為兩種視角分別訓練了專門的高噪聲模型,但共享同一個低噪聲精細化模型,在資源利用效率和專業化能力之間取得平衡。
從定性實驗結果來看,28B版本在場景多樣性、動態一致性和長時序穩定性上都有明顯提升,在城市駕駛、騎馬穿越、夜間騎行、開放世界角色漫遊等多種AAA遊戲場景下,場景布局、角色身份和物體關係在長達30秒的序列里都保持了高度一致,同時運動動態、光線變化和場景過渡也更為豐富自然。
**七、實驗結果:這個世界有多真實、多穩定?**
在基礎模型的測試中,研究者設計了一個特別有說服力的實驗:讓AI生成一段影片,前半段按某個方向探索場景,後半段的操作和前半段完全對稱地反向執行,逼迫AI"回到原地"。如果AI的長期記憶有效,它應該能還原出之前見過的場景;如果沒有,它只會生成一個全新的、和之前毫無關聯的畫面。
實驗結果顯示,在多個測試場景里,當鏡頭回到之前探索過的區域時,模型能夠忠實地還原出原有的場景結構和視覺細節,包括局部幾何形狀、物體擺放、建築立面紋樣以及材質級別的細節——這些在實驗結果圖中用紅色方框特別標出,清晰地展示了記憶機制在起作用。
在蒸餾模型的測試中,研究者同樣設計了刻意回訪特定場景和內容的動作序列。結果表明,蒸餾後的快速模型有效繼承了基礎模型的記憶能力:之前出現過後被遮擋的物體和場景,在鏡頭轉回時能夠被正確復原;同時對於新出現的場景,生成質量同樣豐富準確,在較長的序列末尾也沒有出現明顯的風格漂移或內容失真。
在加速實驗的消融分析中,三項優化措施的組合效果得到了量化驗證:完整系統約40FPS,去掉INT8量化後降至27.38FPS,去掉MG-LightVAE後降至25.79FPS,去掉GPU檢索後僅剩6.60FPS。這組數據清楚地說明,速度是多項工程優化共同作用的結果,任何一環的缺失都會顯著影響整體性能,而GPU記憶檢索是其中最不可或缺的一環。
---
說到底,Matrix-Game 3.0做的事,是把"AI實時造世界"這件曾經看起來遙不可及的事推進到了工程可行的邊界。它用工業規模的數據流水線解決了"沒有好材料"的問題,用錯誤感知訓練解決了"AI容易跑偏"的問題,用統一注意力空間的記憶機制解決了"AI容易失憶"的問題,用多段自生成蒸餾解決了"快慢模型之間的鴻溝"問題,再加上量化、剪枝和GPU檢索等一系列工程優化,把一切都壓縮進了每秒40幀的實時體驗里。
這對普通人意味著什麼?短期來看,這類技術最直接的應用場景是遊戲和虛擬現實:未來的遊戲也許不再需要預先設計好所有關卡,AI可以根據玩家的每一次操作實時生成從未有人見過的新場景。稍遠一些,在機器人訓練、工業仿真、沉浸式教育等領域,一個能快速響應操作指令、保持長期一致性的虛擬環境生成器,可以大幅降低構建真實訓練場地的成本。更長遠地看,當AI能實時生成一個有記憶、有反應的虛擬世界時,它本身就成了一種全新的計算媒介——不是展示預設內容的螢幕,而是隨時根據你的意圖演化的活的世界。
不過也有一些值得思考的開放問題。目前Matrix-Game 3.0的訓練數據以遊戲和有限的真實場景為主,生成的世界在視覺風格上還是以遊戲畫風為主;記憶機制目前主要依賴視角重疊度來檢索,對於物體隨時間發生的狀態變化(比如一扇門被打開後的狀態)的持久記憶還有改進空間;而隨著生成序列越來越長,如何讓記憶庫的規模保持可管理,也是未來需要繼續探索的方向。
有興趣深入了解技術細節的讀者,可以通過arXiv編號2604.08995查閱完整技術報告。
---
Q&A
Q1:Matrix-Game 3.0和普通AI影片生成工具有什麼本質區別?
A:普通AI影片工具是"你輸入提示詞、它生成一段固定影片",用戶無法實時干預。Matrix-Game 3.0是一個實時響應用戶操作的交互系統——你按下鍵盤或移動滑鼠,AI會在同一瞬間生成對應的新畫面,同時還能記住幾十秒前看過的場景,在你回到原地時忠實還原。
Q2:Matrix-Game 3.0生成的畫面質量怎麼樣,真的能達到遊戲級別嗎?
A:目前能達到720p解析度、每秒40幀的生成速度,視覺風格接近AAA遊戲畫面。實驗中5B參數模型在速度上已經超過Genie 3報告的約24FPS,28B版本在場景豐富度和動態一致性上進一步提升,但整體依然以遊戲渲染風格為主,與照片級真實感還有差距。
Q3:Matrix-Game 3.0的長期記憶是怎麼實現的,它真的能記住幾十秒前的場景嗎?
A:記憶機制的核心是根據攝像機視角的重疊度從歷史幀庫中檢索最相關的歷史畫面,然後把這些記憶幀和近期歷史幀、當前待生成幀放進同一個注意力計算空間裡聯合處理。實驗中通過"探索後原路返回"的測試驗證了其有效性,在30秒序列里能還原出建築立面紋樣和物體擺放等材質級別的細節。






