在增強現實(AR)與虛擬現實(VR)領域,高保真全身 Avatar 堪稱模糊物理與虛擬世界界限、提供沉浸式體驗的核心要素,其應用前景廣闊,涵蓋遠程呈現、虛擬試穿以及沉浸式遊戲等諸多方面。
然而,當前基於高容量神經網路實現高保真 Avatar 的方法面臨嚴峻挑戰,通常需要依賴桌面 GPU 才能達成單個 Avatar 的實時性能。在 VR 一體機這類移動設備上,由於內存和計算帶寬的限制,實現 Avatar 的動畫與渲染困難重重。
在此背景下,Meta 團隊開展了深入研究,並提出 SqueezeMe 這一創新框架。這一簡單且高效的框架,成功將高保真 3D 高斯 Avatar 轉化為輕量級表示形式,使得移動設備能夠輕鬆實現Avatar的動畫與計算渲染。
團隊在研究過程中發現,從神經網路解碼姿勢相關的高斯屬性會帶來不可忽視的內存和計算開銷。受電腦圖形學中廣泛應用的混合形狀和線性姿態校正啟發,研究人員巧妙地將神經網路學習的姿態校正提取到線性層,有效解決了這一問題。此外,通過讓鄰近高斯函數共享校正量,進一步減少了參數數量。
將這些創新方法與基於Vulkan的自定義管道相結合,Meta 團隊取得了重大突破——首次在 Meta Quest 3 上實現了 3 個高斯 Avatar 的實時同步動畫和渲染,幀率高達 72 FPS。這一成果為 Avatar 在移動設備上的廣泛應用奠定了堅實基礎。
在具體技術實現上,Meta 團隊受電腦圖形學中姿態相關線性校正的啟發,計算從姿態參數到 3D 高斯的幾何與外觀參數(包括旋轉、位移、尺度和球諧係數)的線性映射。首先,利用大容量卷積神經網路訓練一個在UV貼圖定義姿態相關校正參數的 3D 高斯 Avatar,該模型僅使用 5 倍更少的高斯點,就能達到與最先進高斯 Avatar 方法相當的性能。接著,提取關鍵幀及其關聯的高斯參數,確保覆蓋各種姿態的均勻性。然後,對關聯的姿態參數到目標校正量進行線性回歸求解。
儘管線性提煉簡化了解碼器的計算,但線性矩陣的規模依然較大,給移動計算帶來不小的內存開銷。團隊通過深入觀察發現,靜態高斯參數需要保留高頻信號以實現高保真效果,而姿態相關校正量往往是低頻的。基於這一關鍵洞察,他們讓 UV 貼圖布局相鄰的高斯點之間共享校正量,成功將所需內存減少約 16 倍,同時最大程度降低了對視覺保真度和高頻人物特定細節的影響。
在推理過程中,使用基於線性模型計算的參數渲染高斯點,並採用基於 Vulkan 的自定義渲染器。實驗結果表明,該方法允許在 Meta Quest 頭顯上以實時幀率(72 FPS)對最多 3 個全身 Avatar 進行動畫和渲染,且質量下降微乎其微。
不過,這項技術目前也存在一些限制。頭像數據需通過傳統捕捉陣列採集,這些設施配備超過 100 個攝影機以及數百盞照明燈,造價高昂。此外,該裝置採用平面光照,暫不支持光照調整。
目前,SqueezeMe 技術的具體應用落地時間尚未明確。但可以預見的是,一旦這項技術成熟並廣泛應用,將為 AR/VR 領域帶來革命性變化,推動高保真 Avatar 在移動設備上的普及,讓用戶隨時隨地享受沉浸式的虛擬體驗。