英特爾實驗室推出AI擴散模型，可從文本提示產生360度圖片

英特爾實驗室與Blockade Labs宣布，合作推出Latent Diffusion Model for 3D（LDM3D）新穎的擴散模型，使用生成式AI創造栩栩如生的3D視覺內容。LDM3D是業界首款使用擴散過程產生深度圖的模型，創建可360度觀看的生動、沉浸式3D圖片。從娛樂、遊戲再到建築、設計等方面，LDM3D具備為內容創作、元宇宙應用和數字體驗帶來革命性變化的潛力。

贊助商廣告

英特爾實驗室AI∕ML研究科學家Vasudev Lal表示，生成式AI技術可以進一步擴大和提升人類的創造力並節省寶貴的時間。然而，今日絕大多數的生成式AI模型均局限在產生2D圖片，僅有極少數能夠從文本提示中產生3D圖片。與目前潛在擴散模型（latent diffusion model）不同的是，LDM3D使用參數數量幾乎相同的模型，從給定的文本提示中產生圖片和深度圖。相較於標準深度估測後處理法，可為圖片中每個像素提供更準確的相對深度，為開發者節省構建場景所耗費的大量時間。

英特爾指出，封閉的生態系僅具備有限的規模，而英特爾真正落實AI民主化的承諾，未來將通過開放式生態系讓人們更廣泛地運用AI優勢。近年來，在電腦視覺領域，特別是生成式AI取得顯著進展。然而，今日許多先進的生成式AI模型僅限於產生2D圖片。與通常僅能從文本提示中產生2D RGB圖片的現有擴散模型不同，LDM3D讓用戶能夠從給定的文本提示中同時產生圖片和深度圖。LDM3D在使用與潛在擴散模型幾乎相同的參數數量情況下，相較標準的深度估測後處理法，為每個像素提供更為精確的相對深度。

另外，這項研究可能徹底改變人們與數位內容的互動方式，用戶能夠以以往想像不到的方式去體驗他們的文本提示。LDM3D所產生的圖片和深度圖，讓用戶能夠把靜謐的熱帶海灘、科幻宇宙中的未來世界，通過文本敘述轉換成精細的360度全景圖。這種捕捉深度資訊的能力可以立即強化整體的真實感和沉浸感，為娛樂、遊戲、室內設計、房地產銷售，以及虛擬博物館和沉浸式虛擬現實（VR）體驗等各式各樣的行業打開創新應用。

贊助商廣告

英特爾強調，LDM3D是由LAION-400M資料庫中的10,000個樣本進行訓練，該資料庫內置超過4億個圖片與文本標註。該團隊使用Dense Prediction Transformer（DPT）大型深度估測模型（先前由英特爾實驗室所開發）對訓練語料庫進行標註。DPT大型模型為圖片中的每個像素提供高度精確的相對深度。LAION-400M資料集專為研究目的而打造，讓廣大的研究人員和其他有興趣的社交媒體，以更大的規模進行模型訓練測試。LDM3D模型在搭載Intel Xeon處理器和Intel Habana Gaudi AI加速器的英特爾AI超級電腦上進行訓練。生成的模型和流程結合產生的RGB圖片和深度圖，可以產生360度視角，帶來沉浸式體驗。

而為了證明LDM3D的潛力，英特爾和Blockade的研究人員開發出一款利用標準2D RGB照片和深度圖來創造沉浸式、可互動360度視角體驗的應用程式──DepthFusion。DepthFusion使用以節點為基礎的可視化程序設計語言TouchDesigner，該語言應用於即時互動多媒體內容，能將文本提示轉換為可互動和沉浸式的數字體驗。LDM3D模型為可同時創建RGB圖片及其深度圖的單一模型，可節省記憶體耗用量並改善延遲。

英特爾進一步指出，LDM3D和DepthFusion的推出，為多視角生成式AI和電腦視覺的進一步發展鋪路。英特爾將繼續探索運用生成式AI來擴大人類的能力，並創建強大的開放源碼AI研發生態系，讓這項技術的使用更加民主化。英特爾持續大力支持AI開放式生態系，目前正通過HuggingFace進行LDM3D開源工作，將讓AI研究人員和從業人員能夠進一步改善系統，並為定製化應用進行微調。

(首圖來源：英特爾)