「一沙一世界,一花一天堂。
無限掌中置,剎那成永恆。」
這兩句詩出自英國詩人威廉·布蕾克的《天真的預言》,表達了從微觀見宏觀的哲學思想,與3D世界生成從局部到完整的思想不謀而合,第一句詩被騰訊混元團隊引用放在論文開頭。
2025年7月29日,騰訊混元團隊發布3D世界生成框架HunyuanWorld 1.0,能夠僅憑文字描述或單張圖片自動創建完整的可探索3D虛擬世界。HunyuanWorld 1.0通過創新的分層網格表示和全景代理機制,實現了360度沉浸體驗、標準網格導出和物體級交互功能。這項研究發表在arXiv上,4個相關的LoRa模型開源在HuggingFace上。
就像有一個魔法建築師,你只需要跟他說"我想要一個有城堡的中世紀小鎮"或者給他看一張風景照片,他就能立刻為你建造出一個完整的虛擬世界,你不僅可以在其中自由漫步,還能移動裡面的物體,甚至將整個世界導出到遊戲引擎中使用。而且這個世界支持360度全方位觀看,就像置身於VR環境中。
傳統的3D世界生成方法面臨著兩難選擇。一類是基於影片的方法,可以生成豐富多樣的內容,但缺乏真正的3D一致性,就像用2D畫面拼接成的"假3D",時間長了會出現畫面不協調的問題,而且每一幀都需要單獨生成,成本極高。另一類是直接生成3D模型的方法,雖然具有幾何一致性,但由於3D訓練數據稀缺,生成的內容往往單調有限。
HunyuanWorld 1.0巧妙地結合了兩種方法的優勢。研究團隊採用了一個創新的"分層3D網格表示"系統,將複雜的3D世界分解為多個語義層次。這種設計帶來了三個核心特色:首先是通過全景圖像代理實現360度沉浸式體驗,其次是支持標準3D網格導出,可以無縫接入現有的電腦圖形學管道,最後是將場景對象分離建模,實現了物體級別的交互操作。
從文字和圖片到全景世界的神奇轉換
HunyuanWorld 1.0的工作流程就像一個經驗豐富的電影導演在構建電影場景。首先,系統會根據用戶輸入的文字描述或圖片,生成一張360度全景圖像作為"世界原型"。這個過程使用了專門設計的全景擴散Transformer模型(Panorama-DiT),它基於強大的擴散Transformer架構。
當用戶輸入文字時,系統首先會用大型語言模型對描述進行優化和細化。比如用戶輸入"一個美麗的海邊城堡",系統會將其擴展為更詳細的描述,包含建築風格、環境氛圍、光照條件等豐富細節。
如果用戶提供的是圖片,它不會簡單地複製圖片內容,而是會分析圖片中的場景特徵,然後"腦補"出360度完整環境。為了避免重複生成圖片中已有的物體(比如避免在擴展的全景圖中出現多個相同的雕像),系統採用了"場景感知提示策略",先識別原圖中的顯著物體,將其設為負面提示,然後生成與原圖風格一致但內容互補的周邊環境。
生成全景圖像的過程中,系統還解決了兩個技術難題。一是球面投影帶來的幾何扭曲問題,二是全景圖像邊界連接處的不連續問題。為此,研究團隊開發了"高程感知增強"和"循環去噪"兩項技術。前者通過隨機垂直偏移訓練樣本來增強模型對不同視角的適應性,後者在推理過程中使用循環填充和漸進融合來確保全景圖邊界的無縫連接。
智能化的世界分層與語義理解
擁有全景圖像只是第一步,要創建真正可互動的3D世界,系統需要像一位資深的舞台設計師一樣,將複雜場景分解為不同的元素層次。HunyuanWorld 1.0採用了"智能體世界分層"技術,自動將場景分解為天空層、背景層和多個物體層。
這個過程分為三個階段。首先是實例識別階段,系統利用視覺語言模型的豐富世界知識來識別場景中需要獨立建模的對象。這就像一個經驗豐富的導演在觀察拍攝現場時,能夠迅速識別出哪些是可以移動的道具,哪些是固定的背景布景。
接下來是層次分解階段。由於傳統的視覺定位模型無法直接處理全景圖像的空間不連續性(物體可能被分割在全景圖的左右邊界),研究團隊開發了專門的處理流程。他們先對全景圖進行循環填充,確保跨邊界的物體被視為連續實體,然後使用目標檢測器定位物體位置,最後用分割模型生成精確的像素級掩碼。
最後是層次補完階段。系統採用"洋蔥剝皮"式的自回歸過程,逐層移除識別出的物體並補完被遮擋的區域。這個過程就像考古學家小心翼翼地清理文物,一層層揭露出完整的背景資訊。為了實現這一功能,團隊還專門訓練了層次補完模型,能夠根據周圍環境資訊智能填補缺失區域。
精確的深度估計與3D重建
有了分層的圖像,下一步就是將平面圖像轉換為立體的3D世界。這個過程就像雕塑家根據平面設計圖創作立體作品,關鍵在於準確估計每個像素點的深度資訊。
HunyuanWorld 1.0首先為每個圖像層預測深度圖,然後進行跨層深度對齊。系統先對原始全景圖進行深度估計獲得基準深度圖,前景物體的深度資訊直接從基準深度圖中提取。對於後續層次(如去除前景物體後的背景層),系統會單獨預測深度並通過深度匹配技術與基準深度圖對齊,確保不同層次間的幾何一致性。
在3D重建階段,系統為不同類型的層次採用了差異化策略。對於前景物體,提供兩種重建方案:一是直接投影法,將帶有深度資訊的物體掩碼通過片狀變形轉換為3D網格,並加入極點區域平滑和網格邊界抗鋸齒處理;二是完整3D生成法,提取個體物體實例後使用專門的圖像轉3D模型生成高質量的3D資產,然後通過自動物體放置算法將其整合到3D場景中。
對於背景層,系統採用自適應深度壓縮來處理深度異常值並確保合理的深度分布,然後通過片狀變形將背景全景圖轉換為3D網格。天空層則使用統一深度值重建,深度設置為略大於場景最大深度,確保天空始終顯示在最遠處。除了傳統網格表示,系統還支持3D高斯飛濺表示,為VR應用提供更真實的天空渲染效果。
突破性的遠程世界擴展技術
雖然分層世界重建已經能夠實現世界探索,但在面對遮擋視角和有限探索範圍時仍存在挑戰。為了解決這些限制,HunyuanWorld 1.0引入了名為Voyager的創新技術,這是一個基於影片的視角補完模型,能夠實現一致的世界外推。
Voyager採用了"世界一致性影片擴散"機制,結合可擴展的世界緩存系統來維持空間一致性並防止視覺幻覺。系統構建一個初始3D點雲緩存,然後將緩存投影到目標相機視角為擴散模型提供部分引導。生成的幀會持續更新和擴展世界緩存,形成一個支持任意相機軌跡的閉環系統,同時保持幾何一致性。
為了克服單次生成長影片的限制,研究團隊提出了結合世界緩存的平滑影片採樣方案,實現自回歸場景擴展。世界緩存累積所有生成幀的點雲資訊,配合點雲剔除方法移除冗餘點以優化內存使用。利用緩存點雲作為空間代理,系統開發了平滑採樣策略,能夠自回歸擴展影片序列,同時確保片段間的無縫過渡。
全方位的系統優化與實際應用
為確保實際部署和實時性能,HunyuanWorld 1.0還進行了全面的系統優化。在網格存儲方面,團隊採用了雙重壓縮策略適應離線使用和在線部署場景。
對於離線網格使用,採用多階段管道,包括網格簡化、紋理烘焙和UV參數化。團隊評估了基於XAtlas的UV參數化解決方案,在保持良好UV質量的同時消除了相比簡單參數化方法的渲染接縫。這個壓縮管道實現了80%的尺寸縮減,適用於高質量離線內容製作。
對於在線網路部署場景,採用Draco壓縮技術,在保持視覺保真度的同時提供卓越的壓縮效率。這種方法展現了優越的尺寸縮減能力(90%),保持了與未壓縮網格相當的渲染質量。該格式提供原生WebAssembly支持,確保與基於網路的圖形管道的無縫集成和廣泛的瀏覽器兼容性。
在模型推理加速方面,採用了基於TensorRT的綜合加速框架,配合智能緩存和多GPU並行化。系統將擴散Transformer模型轉換為優化的TensorRT引擎,支持緩存和非緩存推理模式,共享內存分配以最小化GPU開銷。
豐富的應用場景
HunyuanWorld 1.0的三大核心優勢使其能夠支持廣泛的實際應用。在虛擬現實領域,全景世界代理能夠生成完全沉浸式的360度環境,專為Apple Vision Pro和Meta Quest等當代VR平台的虛擬現實部署進行了優化。全面的空間覆蓋消除了視覺偽影和邊界不連續性,提供無縫的全方位瀏覽體驗。
在物理仿真方面,生成的3D世界和獨立的3D物體表示支持直接3D網格導出,確保與現有電腦圖形學管道的完全兼容性。這使得與物理引擎的無縫集成成為可能,支持碰撞檢測、剛體動力學和流體仿真等應用。
遊戲開發是另一個重要應用領域。生成的3D世界涵蓋多樣化場景和各種美學風格,包括外星景觀、中世紀建築遺蹟、歷史紀念碑和未來城市環境。這些世界以標準3D網格格式導出,支持與Unity和Unreal Engine等行業標準遊戲引擎的無縫集成。
物體交互功能通過分離的物體表示實現場景內精確的物體級操作和交互。用戶可以對個體場景組件執行精確的3D變換,如平移、旋轉和縮放,同時保持周圍環境元素的完整性。
技術評估與性能表現
研究團隊進行了全面的實驗評估,將HunyuanWorld 1.0與現有最先進方法進行了詳細比較。在圖像到全景生成任務中,與Diffusion360和MVDiffusion相比,HunyuanWorld 1.0在所有評估指標上都實現了顯著改進。定量結果顯示,HunyuanWorld 1.0在視覺質量評估指標BRISQUE上得分45.2(越低越好),明顯優於競爭方法的71.4和47.7分;在圖像相似度CLIP-I評估中得分85.1,超過了基線方法的73.9和80.8分。
在文字到全景生成評估中,HunyuanWorld 1.0同樣表現卓越。與四種先進方法(Diffusion360、MVDiffusion、PanFusion、LayerPano3D)的比較顯示,HunyuanWorld 1.0在視覺質量指標上持續領先。定性比較結果進一步證實了這些定量發現,相比經常出現不連續偽影和幾何扭曲的基線方法,HunyuanWorld 1.0生成的全景場景具有更強的視覺一致性和美學質量。
在3D世界生成評估中,研究團隊分別評估了圖像到世界和文字到世界的生成能力。圖像到世界比較顯示,HunyuanWorld 1.0在視覺質量和與輸入圖像的語義對齊方面都超越了WonderJourney和DimensionX等現有方法。文字到世界比較中,該方法在所有評估指標上都優於LayerPano3D和Director3D,展現了生成高視覺保真度3D世界並與輸入文本描述保持強語義對齊的能力。
至頂AI實驗室洞見
HunyuanWorld 1.0的核心創新在於巧妙地橋接了2D生成模型的豐富性和3D表示的一致性。通過將全景圖像作為世界代理,系統既利用了2D生成模型的強大能力和豐富訓練數據,又實現了真正的3D一致性和高效渲染。
語義分層3D網格表示是另一項重要創新。這種表示方法不僅支持高效的內存使用和渲染性能,還實現了實例級別的物體建模,為交互式應用開闢了新的可能性。分層設計使得系統可以針對不同類型的場景元素採用最適合的處理策略,顯著提升了生成質量和效率。
智能體世界分層技術展現了將大型語言模型的語義理解能力與電腦視覺技術相結合的巧妙應用。通過利用視覺語言模型的豐富世界知識進行語義物體識別,系統實現了場景的智能化分解,這為後續的3D重建和交互設計提供了堅實基礎。
數據處理和模型訓練方面的創新同樣不容忽視。團隊建立了完整的全景圖像數據處理流程,從商業採購、開源下載到自定義渲染,涵蓋了數據獲取的各個環節。特別是針對全景圖像標註的三階段流程,有效解決了現有視覺語言模型在處理全景圖像時面臨的挑戰。
HunyuanWorld 1.0代表了3D世界生成技術的一次重大飛躍。它為普通用戶提供了一個易用的3D世界創作工具。無論你是遊戲開發者、建築設計師、教育工作者,還是僅僅對虛擬世界充滿好奇的普通人,這項技術都有可能徹底改變你創造和體驗虛擬內容的方式。
當然,這項技術仍處於發展階段,在生成質量、處理效率和應用範圍方面還有繼續優化的空間,但展現了出巨大的潛力。可以預見,隨著技術的進一步完善和普及,我們將迎來一個人人都能輕鬆創造虛擬世界的新時代。
項目地址:https://3d.hunyuan.tencent.com/sceneTo3D
論文地址:https://www.arxiv.org/abs/2507.21809
END
本文來自至頂AI實驗室,一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
Q&A
Q1:HunyuanWorld 1.0能夠處理什麼類型的輸入?
A:HunyuanWorld 1.0支持兩種輸入方式:文字描述和圖片。文字可以是簡單的場景描述,如"海邊的中世紀城堡",系統會自動擴展為詳細描述;圖片則可以是任意風景照片,系統會基於圖片內容生成完整的360度環境。無論哪種輸入,最終都能生成可探索的3D世界。
Q2:HunyuanWorld 1.0生成的3D世界能夠用於實際項目嗎?
A:完全可以。HunyuanWorld 1.0生成的3D世界支持標準網格格式導出,可以直接導入Unity、Unreal Engine等主流遊戲引擎。同時支持VR平台部署,能夠進行物理仿真,並且場景中的物體可以單獨操作。這使得它不僅適用於概念展示,更能滿足實際項目開發需求。
Q3:HunyuanWorld 1.0與現有的3D建模軟體有什麼不同?
A:最大區別在於易用性和自動化程度。傳統3D建模需要專業技能和大量時間,而HunyuanWorld 1.0隻需要一句話或一張圖就能生成完整世界。它結合了2D生成模型的豐富性和3D模型的一致性,既保證了內容質量,又大大降低了使用門檻,讓非專業人員也能快速創建專業級的3D環境。