近日,索尼研究團隊公布了一項名為EgoAnimate的創新技術,能夠僅通過單個頭戴式攝影機拍攝的俯視角畫面,快速生成高質量、可驅動的虛擬現實化身。該技術有望解決當前VR社交與遠程協作中,創建個人化數字形象成本高昂、流程複雜的核心痛點。

傳統高精度數字人製作通常依賴複雜的多攝影機陣列或專業動作捕捉設備。儘管已有基於單目攝影機的方案,但其普遍要求標準的正面視角,難以適配頭盔等設備自然產生的俯拍畫面——後者存在嚴重的身體遮擋與視覺畸變。
EgoAnimate技術的突破在於巧妙地採用了兩階段生成框架。首先,其核心的視角轉換模塊利用先進的生成式AI模型,將嚴重遮擋的俯視圖「理解」並重建為完整的標準正面人體圖像。隨後,系統將生成的清晰正面圖像,輸入至現有的高性能動畫驅動模型中,最終產出能夠自然運動的數字化身。

為訓練這一系統,團隊構建了專門的配對數據集,並採用了獨特的訓練策略,使模型不僅能準確還原人體姿態與比例,還能精細捕捉服裝的紋理與款式。測試表明,該系統在服裝還原準確率上表現優異,並展現出強大的泛化能力,能夠處理不同來源的多樣化圖像與影片素材。
該技術的問世,意味著未來用戶僅需佩戴普通的頭戴設備,即可在虛擬會議、社交平台或遊戲中,快速獲得一個與自己外觀一致、動作自然的數字化身,極大提升了沉浸式體驗的便捷性與普適性。






