宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

可實時交互的AI生成世界,騰訊發布的AI框架Yan,會是元宇宙的破局者嗎?

2025年08月18日 首頁 » 熱門科技

2023年冬天,有一款真人互動影像遊戲在Steam上發行,迅速火遍全球,你知道是誰嗎?

在《完蛋!我被美女包圍了!》里,玩家將扮演男主與六位美女展開戀愛攻略。所有的決策都由玩家進行選擇,不同選擇對應不同的劇情走向。爆火的原因之一是這種結局不確定的互動式玩法相當吸引人。

這個遊戲裡不同劇情發展都是提前錄製好的。

與通過直接錄製影片的手法不同,這次騰訊做的是直接用AI實時生成影片,畫面根據玩家的按鍵交互進行發展。《完蛋!我被Yan包圍了!》

可實時交互的AI生成世界,騰訊發布的AI框架Yan,會是元宇宙的破局者嗎?

2025年8月12日,騰訊Yan團隊發布同名AI框架Yan,實現實時交互式影片生成。這個框架包含三大模塊:Yan-Sim達到1080P/60FPS實時渲染,Yan-Gen支持文字和圖像驅動的世界生成,Yan-Edit允許遊戲中實時編輯場景結構和風格。技術創新解決了語義漂移、實時性能和多模態融合等關鍵難題。論文發表在arXiv上。

過去的AI影片生成技術就像播放預先錄製好的電影片段,你只能觀看,無法干預劇情發展。但Yan系統完全不同,它更像一個超級智能的遊戲引擎,能夠根據你的每一個操作指令,瞬間調整畫面內容。當你按下鍵盤上的前進鍵時,畫面中的角色真的會向前移動;當你輸入"把這個藍色的平台變成紅色"時,AI會立即執行你的指令,並保持所有物理規律的真實感。

這項研究的核心創新在於將交互式影片生成分解為三個相互配合的模塊。第一個模塊叫做Yan-Sim,專門負責AAA級別的實時模擬,確保每秒60幀的流暢體驗。第二個模塊Yan-Gen處理多模態生成,能夠理解文字描述和圖像輸入,創造出符合要求的虛擬場景。第三個模塊Yan-Edit則負責多粒度編輯,讓用戶可以隨時修改場景中的任何元素。

突破傳統限制的AAA級實時模擬

可實時交互的AI生成世界,騰訊發布的AI框架Yan,會是元宇宙的破局者嗎?

在傳統的AI影片生成中,系統需要花費大量時間來"思考"下一幀畫面應該是什麼樣子,就像一個畫家需要仔細觀察、構思、然後一筆一筆地繪製。但Yan-Sim採用了一種全新的方法,它預先學會了如何快速"素描",能夠在瞬間完成複雜場景的繪製。

研究團隊的核心突破在於設計了一個高度壓縮的3D變分自編碼器(3D-VAE)。將壓縮率從1×8×8增加到了2×32×32。

為了實現實時響應,研究團隊還開發了移位窗口去噪推理技術。這個技術的工作原理就像一個高效的清潔工人,不是等所有房間都髒了再一次性打掃,而是持續地、有序地清理每個房間。在影片生成過程中,系統會同時處理多個時間點的畫面,早期的畫面相對"乾淨"(噪聲較少),後期的畫面比較"髒"(噪聲較多),通過這種方式顯著減少了每幀畫面的平均處理時間。

研究團隊還採用了KV緩存技術,這就像給AI裝上了短期記憶系統。當你在虛擬世界中移動時,AI會記住剛才看到的場景特徵,避免重複計算相同的內容。這種技術讓整個系統的運行效率提升了數倍。

為了滿足實時性要求,研究團隊還採用了結構剪枝和FP8量化等優化策略。結構剪枝就像給一個複雜的機械裝置去掉不必要的零件,讓它更輕便但功能不減。FP8量化則是將原本需要高精度計算的部分轉換為更高效的計算方式,在幾乎不影響質量的前提下,將推理速度提升了1.5到2倍。

可實時交互的AI生成世界,騰訊發布的AI框架Yan,會是元宇宙的破局者嗎?

通過這些技術的結合運用,Yan-Sim能夠在單個NVIDIA RTX 4060顯卡上實現1080P解析度、60FPS的實時交互式影片生成。測試結果顯示,系統的延遲控制在0.07秒以內,這意味著當你按下操作鍵後,畫面幾乎能夠瞬間響應你的指令。

多模態智能生成的創新架構

可實時交互的AI生成世界,騰訊發布的AI框架Yan,會是元宇宙的破局者嗎?

Yan-Gen模塊的設計理念源於一個深刻的洞察:要讓AI生成的虛擬世界真正可信,就必須讓它同時理解文字描述、圖像資訊和用戶的操作意圖。

研究團隊面臨的最大挑戰是"反漂移"問題。在自回歸式的影片生成中,AI需要基於前面生成的畫面來創造後續內容。如果前面出現了微小的錯誤,這些錯誤會像滾雪球一樣越累越大,最終導致生成的內容完全偏離原始意圖。

為了解決這個問題,研究團隊創造性地提出了分層字幕系統。這個系統的工作方式類似於電影製作中的分鏡頭腳本。全局字幕就像總導演的整體構想,描述了虛擬世界的基本設定、視覺風格和環境條件,這些資訊在整個生成過程中保持不變,為AI提供穩定的參考框架。局部字幕則像現場導演的具體指導,描述當前場景中正在發生的具體事件和細節變化。

全局字幕的生成過程非常有趣。研究團隊會讓AI觀看一段展現整個虛擬世界的影片,然後要求它總結出三個核心要素:世界的整體布局(包括主要區域和連接方式)、視覺主題(色彩搭配、材質風格、建築特色)、基礎環境條件(光照效果、天氣狀況)。這就像讓一個旅行作家在遊覽一個新城市後,寫出一份能夠幫助其他人快速了解這個城市特色的簡介。

局部字幕則關注更加細緻的內容:當前視野範圍內的具體場景、正在發生交互的物體、關鍵事件(比如角色受傷或任務完成)。這些資訊幫助AI精確地渲染每一個瞬間的細節變化。

可實時交互的AI生成世界,騰訊發布的AI框架Yan,會是元宇宙的破局者嗎?

在技術實現上,Yan-Gen基於預訓練的Wan模型進行開發,通過低秩適應(LoRA)微調技術來適應交互式影片數據的特點。研究團隊巧妙地設計了一個多模態條件注入機制,文本資訊通過umt5-xxl編碼器處理,圖像資訊通過ViT-H-14視覺編碼器處理,而動作信號則通過專門的多層感知機處理。這三種不同類型的資訊通過解耦的交叉注意力層分別注入到生成模型中,確保AI能夠同時理解和響應多種不同的輸入信號。

為了實現真正的實時交互,研究團隊還開發了一個創新的後訓練流程。首先,他們使用自回歸初始化技術,讓AI學會預測影片序列中的關鍵時間點。然後通過因果注意力機制的改造,確保每一幀的生成只依賴於之前的歷史資訊,而不會"偷看"未來的內容。最後,他們使用分布匹配蒸餾技術,將原本需要多步計算的複雜模型壓縮成只需要4步就能完成的高效模型。

這種設計讓Yan-Gen能夠在單個NVIDIA H20顯卡上實現12-17FPS的實時生成速度,如果使用4塊顯卡並行計算,速度可以提升到30FPS。更重要的是,整個系統支持無限長度的內容生成,用戶可以在虛擬世界中無限探索,而不會受到預設內容長度的限制。

革命性的多粒度實時編輯能力

可實時交互的AI生成世界,騰訊發布的AI框架Yan,會是元宇宙的破局者嗎?

Yan-Edit模塊代表了交互式影片編輯領域的一個重大突破。以往的影片編輯系統就像傳統的膠片剪輯,你必須停下播放,仔細編輯某個片段,然後重新播放才能看到效果。但Yan-Edit可以在影片播放的過程中隨時改變任何你想要修改的內容。

這個模塊的核心創新在於將交互式機制模擬與視覺渲染徹底分離。可以把這種設計想像成一個雙層結構的娛樂設施:底層是一個精密的機械裝置,負責控制所有的運動軌跡和物理規律;上層是一個靈活的裝飾系統,負責所有的視覺呈現。當你想要改變某個物體的顏色時,只需要調整上層的裝飾系統,底層的機械運作完全不受影響,所以這個物體的運動方式和物理特性保持完全一致。

研究團隊首先使用深度估計技術為每一幀影片提取深度圖資訊。深度圖就像是物體世界的"骨架透視圖",它記錄了場景中每個物體的3D結構和空間位置關係,但完全不包含顏色、紋理等視覺資訊。通過這種方式,AI可以學會一種更加通用的交互機制理解能力,不會被特定的視覺外觀所干擾。

交互式機制模擬器基於Yan-Sim技術構建,專門負責學習基於深度圖的結構相關交互規律。當用戶輸入"在場景中添加一個圓柱形風扇"這樣的結構指令時,這個模擬器會在深度圖層面添加相應的3D結構,並確保新添加的物體遵循正確的物理規律。這就像一個經驗豐富的建築師,即使看不到建築物的外觀裝飾,也能準確判斷在哪裡可以添加新的結構元素,以及這些元素應該如何與現有結構協調運作。

視覺渲染器則基於Yan-Gen技術開發,專門負責將深度圖轉換為最終的視覺輸出。用戶可以通過樣式提示詞來控制渲染效果,比如"竹子和水彩畫風格,柔和的陽光"或"紫色玻璃和銀色欄杆,青色光線,抽象幾何著色器,寒冷的黃昏"。渲染器會根據這些描述,為深度圖中的每個結構元素賦予相應的視覺外觀。

整個編輯過程的實時性得益於兩個關鍵技術的結合。首先是ControlNet技術的應用,它就像一個智能的翻譯器,能夠將深度圖資訊準確地傳遞給視覺生成模型。其次是KV緩存機制的延續使用,確保編輯過程中的計算效率。

研究團隊設計了兩種不同粒度的編輯能力。結構編輯允許用戶動態添加、移除或替換場景中的交互元素。比如在一個競速遊戲場景中,用戶可以實時添加跳板、移除障礙物、或者將旋轉平台替換為木門。這些結構變化會立即反映在深度圖中,並且新添加的元素會具備正確的物理特性和交互能力。

樣式編輯則關注視覺外觀的實時變化。用戶可以在遊戲進行過程中切換整個場景的視覺風格,從現實主義的渲染切換到卡通風格,或者從白天場景變為夜晚場景。更精細的樣式編輯還支持對特定物體的顏色、材質、光照效果進行獨立調整。

在訓練過程中,研究團隊採用了一個巧妙的分階段策略。他們首先訓練交互式機制模擬器,使用結構提示詞來學習3D結構層面的交互規律。然後訓練視覺渲染器,結合開源的ControlNet權重和自研的蒸餾技術,實現對深度圖的高質量樣式渲染。整個訓練過程使用了大量的隨機生成深度影片和樣式提示詞,確保模型具備良好的泛化能力。

實際應用中,Yan-Edit展現出了令人驚嘆的實用性。在一個測試場景中,用戶開始時在一個綠色草地上進行遊戲,通過樣式編輯功能,可以瞬間將場景切換為水彩畫沖洗風格。隨後又可以切換為抽象幾何著色器風格,整個過程完全實時,不會中斷遊戲體驗。

數據收集與訓練的工程化突破

可實時交互的AI生成世界,騰訊發布的AI框架Yan,會是元宇宙的破局者嗎?

要訓練一個能夠理解複雜交互規律的AI系統,最大的挑戰不是算法設計,而是如何獲得足夠高質量的訓練數據。傳統的數據收集方法就像手工製作精密零件,費時費力且難以保證一致性。Yan團隊開發了一套全自動化的數據收集流水線,就像建造了一座高度自動化的工廠,能夠持續不斷地生產高質量的交互式影片數據。

研究團隊選擇了騰訊自研的《元夢之星》遊戲作為數據收集環境。現代3D遊戲引擎具備複雜的物理模擬能力和豐富的交互機制,能夠提供真實世界中難以獲得的高精度動作-視覺對應關係。《元夢之星》包含了超過90種不同風格的場景,從草原到城堡,從雨林到峽谷,為AI系統提供了極其豐富的學習素材。

數據收集的核心是一個智能探索代理系統。這個代理就像一個永不疲倦的遊戲測試員,能夠自動在各種場景中進行探索和交互。研究團隊巧妙地結合了隨機探索和強化學習兩種策略:隨機模型負責增加探索的廣度,確保代理能夠嘗試各種不同的動作組合;強化學習模型負責增加探索的深度,讓代理能夠到達遊戲場景的各個角落。這種雙重策略確保了收集到的數據既有多樣性又有代表性。

為了保證數據的高精度,研究團隊開發了基於時間戳的精確對齊技術。在遊戲引擎運行過程中,系統會在代理執行動作的確切時刻捕獲螢幕截圖,同時記錄對應的動作信號。這種精確對齊確保了每個動作都能與相應的視覺變化準確對應,為AI學習正確的因果關係提供了可靠基礎。

數據質量控制是整個流水線的關鍵環節。研究團隊設計了三層過濾系統來確保數據質量。視覺過濾器負責檢測渲染失敗或被遮擋的圖像,通過計算圖像的顏色方差來識別異常幀。如果一段影片的平均顏色方差低於設定閾值,說明圖像可能存在渲染問題或大面積遮擋,這段數據會被自動丟棄。

異常過濾器專門處理影片卡頓問題。當遊戲引擎性能不足時,會產生大量重複幀,導致影片播放時出現明顯的卡頓現象。過濾器會檢測影片段的幀數,如果超過正常範圍,就判定為異常數據並予以排除。規則過濾器則專注於遊戲機制的一致性,識別那些不符合遊戲規則的數據片段,比如在"準備階段"收集的數據,此時遊戲機制尚未激活,交互行為可能不一致。

數據平衡處理是訓練成功的另一個關鍵因素。原始收集的數據往往存在偏差,某些場景或動作類型可能被過度採樣,而另一些可能採樣不足。研究團隊開發了一個智能平衡採樣系統,它會分析數據在各個維度上的分布,包括坐標位置、角色狀態、碰撞情況等,然後進行平衡採樣,確保最終的訓練數據集在各個維度上都具有相對均勻的分布。

為了支持高解析度影片生成,整個數據收集系統被配置為1920×1080解析度運行,使用NVIDIA RTX 4060顯卡進行實時渲染。為了實現30FPS的高幀率數據收集,研究團隊採用了動作插值技術:代理每秒發出10次動作指令,同時系統每秒捕獲30幀畫面,通過時間戳匹配技術,將動作信號分配給相應的影片幀。

團隊最終收集到超過4億幀的高質量交互式影片數據,涵蓋90多種不同風格的場景。這個數據集不僅在規模上超越了現有的交互式影片數據集,在質量和多樣性方面也達到了新的高度。數據集中包含了8種不同的動作類型,不僅有基礎的移動操作,還包括跳躍、俯衝、視角旋轉等複雜動作,為AI系統學習豐富的交互機制提供了充分的素材。

至頂AI實驗室洞見

騰訊團隊用來採集數據的遊戲《元夢之星》,也算是元宇宙概念遊戲的先行者。元宇宙的概念炒了很多年了,似乎一直缺少關鍵技術突破,Yan或者同類技術可能成為破局者。

Yan的出現可能還會催生全新的創意產業形態。遊戲開發者可以通過自然語言快速原型化新的遊戲概念;教育工作者可以創造出高度個性化的交互式學習環境;內容創作者可以實時生成獨特的影片內容。

目前的系統仍然需要高性能的GPU支持。研究團隊也承認,在長時間生成過程中保持視覺一致性還需要持續改進。

但隨著技術不斷進步,未來也許每個人都能夠輕鬆地創造和體驗屬於自己的AI生成虛擬世界。

論文地址:https://arxiv.org/abs/2508.08601v1

本文來自至頂AI實驗室,一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。

Q&A

Q1:Yan框架是什麼?

A:Yan是一個基礎交互影片生成框架,由騰訊團隊開發,整合了模擬、生成和編輯全流程。它包括三個核心模塊:AAA級模擬模塊實現實時1080P/60FPS渲染,多模態生成模塊支持文本或圖像驅動的影片創作,以及多粒度編輯模塊允許在交互中動態修改內容。Yan通過解耦機制模擬和視覺渲染,推動AI驅動的交互創作範式,適用於遊戲和媒體應用。

Q2:Yan如何實現1080P/60FPS影片模擬?

A:Yan的AAA級模擬模塊(Yan-Sim)使用高度壓縮的3D-VAE和基於KV緩存的移位窗口去噪推理過程,減少延遲並提升效率。它通過增加VAE壓縮率和採用因果注意力機制,支持幀級交互,實現1080P解析度和60FPS實時性能。視覺質量高,能處理多樣場景和複雜物理機制。優化策略包括剪枝、量化和CUDA圖加速。

Q3:Yan的編輯功能支持哪些操作?

A:Yan-Edit模塊支持文本驅動的多粒度編輯,包括結構編輯(如添加互動對象)和風格編輯(如改變顏色和紋理)。它解耦交互機制模擬和視覺渲染,使用深度圖保留物理結構,並通過文本提示實時修改內容。用戶可在交互過程中動態輸入新提示,比如結構替換和風格切換,確保機制準確性和渲染一致性。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新