近日,專注於視覺內容生成的模型公司 Stability AI 宣布與華人團隊 VAST 開發 Tripo SR,這是一種受 LRM 啟發的可單圖生成 3D 的 AI 模型,旨在滿足娛樂、遊戲、工業設計和建築專業人士不斷增長的需求,並提供用於可視化詳細3D對象的響應式輸出。
TripoSR 可以在其他模型的一小部分時間內創建詳細的 3D 模型。在 Nvidia A100 上測試時,TripoSR 在大約 0.5 秒內生成草稿質量的 3D 輸出(紋理網格),優於其他開放的圖像到 3D 模型,如 OpenLRM。除了速度之外,TripoSR 對使用或不使用 GPU 的用戶都是完全可訪問的。
Stability AI 表示:「我們的訓練數據準備採用了多種數據渲染技術,這些技術能夠更緊密地複製現實世界中圖像的分布,顯著提高了模型的泛化能力。我們為訓練數據精心策劃了一個更高質量的 Objaverse 數據集子集訓練數據,從而讓 TripoSR 可以更接近地複製現實世界中的圖像分布,顯著提高模型的泛化能力。在模型方面,我們還在基本 LRM 模型的基礎上引入了多項技術改進,包括通道數優化、掩模監控和更高效的裁剪渲染策略。」