隨著虛擬現實(VR)和增強現實(AR)技術的快速發展,創造高質量、沉浸式和動態環境的需求日益增長。然而,現有的生成技術往往局限於動態對象的生成或單一視角的圖像繪製,無法滿足 VR/AR 應用對自由視點、360 度虛擬視角的嚴格要求。
為了解決這一挑戰,PICO、德克薩斯大學奧斯汀分校、加利福尼亞大學洛杉磯分校和德克薩斯農工大學的研究人員攜手合作,成功地將單個全景提升至身臨其境的 4D 體驗,並展示了以 4K(4096×2048)解析度生成 360 度全景動態場景的能力。

這項研究的核心在於團隊提出的創新管道,該管道不僅促進了自然場景的動畫化,還通過高效的飛濺技術優化了一組動態高斯函數,用於實時探索。為了克服缺乏高質量 4D 數據和模型的難題,尤其是全景格式的數據,研究人員開發了一種全新的 Panoramic Denoiser。這種去噪器能夠適應一般的 2D 擴散先驗,在 360 度的圖像中保持動畫化,將它們轉換成在目標區域有動態場景的全景影片。
隨後,Dynamic Panoramic Lifting 技術將全景影片提升為 4D 沉浸式環境,同時保持了空間和時間的一致性。通過將二維模型的先驗從透視域轉移到全景域,並進行具有空間外觀和幾何正則化的四維提升,團隊實現了 4K 解析度的高質量全景到四維內容的生成。

這一突破性的技術框架被命名為 4K4DGen,旨在創建解析度高達 4K 的全景 4D 環境。4K4DGen 解決了在全景影片中保持整個 360 度視場一致的對象動態的關鍵挑戰,同時保留了影片過渡到完全交互式 4D 環境時的空間和時間一致性。
具體來說,Panoramic Denoiser 通過去噪對應於用戶交互區域的球形 latent 代碼來動畫 360 度視場全景圖像。這一步驟利用了最初為窄視場視角圖像設計的訓練擴散模型,但經過優化後能夠生成 360 度動態全景,同時確保整個全景的全局一致性和連續性。
為了將全向全景影片轉換為 4D 環境,Dynamic Panoramic Lifting 技術使用了富含視角先驗知識的深度估計器來糾正尺度差異,從而生成全景深度圖。此外,還採用了時空幾何對齊優化的時變三維高斯函數,以確保動態場景表示和渲染的跨幀一致性。

通過將透視域的二維通用統計模式應用於全景格式,並利用幾何原理有效地正則化高斯優化,團隊成功實現了高質量的 4K 全景到 4D 內容的生成。這一技術不僅具有逼真的新景合成能力,還允許用戶使用文本提示創建高質量的 4K 全景 4D 內容,從而提供身臨其境的虛擬遊覽體驗。
儘管取得了顯著的進展,但研究團隊也指出了當前的局限性。例如,生成的 4D 環境中時間動畫的質量主要依賴於預訓練的 I2V 模型的能力;目前無法合成環境的重大變化,如天氣條件的變化;以及生成的 4D 環境需要大量的存儲容量。然而,這些局限性也為未來的研究提供了方向,包括集成更先進的 2D 動畫器、開發能夠處理環境變化的算法以及優化存儲技術等。