騰訊推出靜態圖像3D渲染AI模型「InstantMesh」

日前，騰訊發布了一種新的 AI 模型，稱為「InstantMesh」，可以使用靜態照片渲染 3D 對象。

贊助商廣告

據悉，新的 AI 模型是該公司舊版 Instant3D 框架的升級版，可以結合多視圖擴散模型和基於大型重建模型 (LRM) 架構的稀疏視圖重建 3D 對象。騰訊還將 InstantMesh 模型開源，並為開發者提供了一個預覽應用程式，以測試其功能或生成和導出 3D 渲染。

該公司已經在 Hugging Face 上開源了 AI 模型，因此開發者可以測試其效率。對於發燒友來說，還有一個應用程式視圖，他們可以在其中添加照片並觀看它變成 3D 渲染。通過測試，這一建模過程可以在 10 秒內完成，但渲染質量仍有待提高。

談到人工智慧模型背後的技術，該公司使用了兩種不同的架構——多視圖擴散模型和 LRM 架構。前者有助於將圖像作為輸入進行處理，並生成圖像中不可見的不同維度，而 LRM 則構建了一個可以在 3D 環境中體驗的軌道視圖對象。

據騰訊稱，InstantMesh 解決了 3D 渲染領域的 Janus 問題。Janus 問題是 3D 渲染空間中的一種現象，由於模型必須「想像」參考對象的不同側面並創建它們，因此它會創建對象的多個規範視圖，而不是一個有凝聚力的 3D 對象。該公司通過使用從 Stable Diffusion 微調的新型視圖生成器解決了這個問題。

該研究論文還分享了與不同現有模型的基準分數，包括最近推出的 Stability AI 的 Stable Video 3D。根據分數，InstantMesh 在 Google 掃描對象 (GSO) 和 OmniObject3D (Omni3D) 軌道視圖上的表現優於SV3D。SV3D 在 Omni3D 基準測試中的幾個參數中表現更好，這些參數與輸出的解析度相對應。