Meta 和牛津大學的研究人員打造了一款人工智慧模型「VFusion3D」,該模型能夠從單一的圖像或文本描述中,無縫生成出高保真 3D 對象,標誌著向可擴展 3D 智能時代的邁進,預示著 VR 體驗、遊戲世界及數字設計領域的深刻變革。
VFusion3D 不僅是技術上的一個飛躍,更是對人工智慧領域長期瓶頸——3D 訓練數據稀缺問題的有力回應。研究團隊利用預訓練的影片 AI 模型,生成了豐富的合成 3D 數據,為訓練更為強大的 3D 生成系統鋪設了堅實的基石。正如他們所言:「制約基礎 3D 生成模型發展的關鍵,在於 3D 數據的稀缺性。」
為了突破這一限制,研究人員對前沿的影片 AI 模型進行了精細調整,使其能夠生成多視角影片序列,這一過程仿佛賦予了 AI 從多角度洞察並構想物體的能力。隨後,這些合成的寶貴數據被用來訓練 VFusion3D,使其具備了前所未有的創造力。
測試結果顯示,與之前最先進的系統相比,人類評估者在 90% 以上的時間裡更喜歡 VFusion3D 的 3D 重建。模型可以在幾秒鐘內從單個圖像生成 3D asset。
此外,這一方法的可擴展性為未來的技術飛躍預留了無限可能。隨著 AI 模型的持續進化及可用於微調的 3D 數據日益豐富,VFusion3D 的性能預計將實現更為迅猛的增長。
這一突破性成果,最終有望成為推動遊戲產業、VR/AR 領域及所有依賴 3D 內容的行業創新的強大引擎。然而,儘管其潛力巨大,研究人員也坦誠地指出了當前技術的局限性,特別是在處理特定對象如車輛和文本時面臨的挑戰,這為後續的研究指明了方向。