Luma AI：基於NeRF，文字、圖片、影片都可生成3D模型

上周，我們剛剛報道了3D內容方案商Luma AI完成2000萬美元A輪融資消息，本周Luma AI繼續宣布推出影片轉3D場景API：Video-to-3D API。簡單來說，現在Luma正式開放了NeRF能力，意味著正在進行商業化探索。

贊助商廣告

正如最近很火爆的GPT等生成式AI那樣，NeRF在最近兩年同樣是一項關注度極高的方案，而以NeRF為核心的Luma AI發展同樣迅速。

可能很多人還不熟悉Luma AI這家公司，它是一個專注於3D內容方案的平台，短短半年之內先後基於NeRF上線了文生3D模型、網頁版全體積NeRF渲染器、影片到3D模型API等功能。

關於Luma AI

前面我們提到，Luma的核心就NeRF，簡單來講這是一套三維重建技術方案，它的特點是基於現有視角的圖像生成新視角的圖像。

有了NeRF，可以說你手裡的相機不單單只是拍照這麼簡單，而是變成數據採集裝置，通過拍攝大量圖片或影片，即可創建出一個可微分的三維場景。比起傳統的攝影測量方案，NeRF的優勢是可以用更少量的數據生成三維模型。

贊助商廣告

據了解，Luma公司成立於2021年9月，總部位於美國加州，創始人：Amit Jain、Alex Yu，分別在3D視覺、機器學習、實時圖形學有所建樹。

近半年發展歷程：

22年10月，開放網頁版Luma；
22年11月，iOS版App開始測試；
22年12月，推出文生3D模型功能；
23年1月，iOS版App開始支持NeRF Reshoot；
23年1月，升級NeRF，自動去除雜影；
23年2月，推出網頁版全體積NeRF渲染器；
23年3年，iOS版App 支持AR預覽；
23年3月，推出影片轉3D API。

那麼，接下來我們分開來解析一下Luma的產品組合。

Luma App

實際上，上述很多功能都是組合形式出現，例如手機App，當前Luma只推出了iOS客戶端。可以通過iPhone上傳影片，基於NeRF生成3D場景。手機版App的推出可以說是一個大的突破，因為之前市面上並沒有類似的NeRF產品出現。

很快，經過網友們的測試發現Luma NeRF的效果非常出色，色彩、光影、清晰度等方面都良好。據悉，Luma對NeRF進行了改良和優化，才有這麼好的表現。

影片效果

贊助商廣告

導出3D模型效果

iOS端支持導入影片，以及引導模式和自由模式三種：

導入模式，這個很好理解，和Web模式功能類似，對設備和影片理論上要求最低。
引導模式，需要360度拍攝，App將具體提示框提醒你的拍攝視角、拍攝位置；
自由模式，支持非360度（部分視角）拍攝，App不會給出明確提示框，當然也需要儘可能拍攝多個角度。

引導模式、和自由模式需iPhone 11或更新機型，而查看3D模型要求是iPhone X或更新機型。

根據@未來GIS實驗室的測試，小物體渲染後細節表現不錯，室內場景可還原牆面和地板的反光，室外場景的效果同樣非常逼真，整體的效果可以說是非常不錯。

NeRF Reshoot也是一個有意思的功能，通過生成的3D場景你可以「重新拍照」，比如你可以從其它角度查看圖片並重新拍照；重新定製虛擬相機路線，生成一段新的影片；修改圖片/影片比例；調整幀率等等，也可以在AR模式下結合6DoF模式還原當時拍攝場景，算是一項進階玩法。

另外，Luma App還加入AR預覽模式，這個沒什麼難度，應該就是基於ARKit的體驗拓展。

網頁和API類

網頁版本目前集成了主流功能，包括：網頁版Luma、文字轉3D模型、影片轉3D API。

1，網頁版Luma

網頁版Luma就是自行上傳照片、影片來進行三維重建，網頁版可以上傳更大的文件，目前影片和圖片（ZIP壓縮包）體積最大限制5GB，通常來講照片的生成質量比影片要好一些，前提是照片是進行特定拍攝，無明顯模糊。

贊助商廣告

另外，Luma官網還會列出一些精選的3D場景，大家可以用於參考。當然，在App里可以查看或編輯其他人的精選3D場景。

2，文字轉3D模型

文字轉3D模型功能目前依然未全量開放，就像是Midjourney一樣，只需輸入文字描述，即可生成對應的3D模型。

文字生成3D模型效果圖

上圖是文字生成3D模型的示例，官網上也有更多示例，並不是每一個質量都很好。當然，目前也處於測試階段，效果也跟你的Prompt有很大關係，感興趣可以先加入等待列表。

3，影片轉3D API

效果方面，影片轉3D的效果幾乎和網頁版一致。
價格方面，轉換一個影片費用1美元，就是單純的按照次數收費，不管影片容量大小，所以當然是儘量豐富影片的細節，轉換時間在30分鐘左右。

贊助商廣告

Luma表示，這一方案將為：電子商務、遊戲美術、影視特效等領域發展重要價值，因為此前創建3D模型的價格在60-1500美元，時間需要2-10周（Luma提供數據）。

以下是Luma提供的用於轉換3D場景的影片拍攝技巧：

捕獲過程

捕獲速度：運動模糊會顯著降低重建質量。為了達到最佳效果，慢慢移動手機，儘量避免快速移動，尤其是旋轉。

場景覆蓋：為了獲得最佳效果，應該從儘可能多的獨特視角捕捉物體或場景。此外，在拍攝時最好移動手機(在3D空間中)，而不是從靜止位置旋轉它。站在同一個地方，在一個球體中向外捕捉通常不太好。引導捕獲模式是一個很好的選擇，以確保足夠的覆蓋。

對象大小：對於引導捕獲，任何可以從所有角度(包括頂部和底部)輕鬆查看的對象都是一個很好的候選對象。對於自由形式的捕捉來說，任何東西都是公平的，儘管更好的覆蓋範圍會產生更好的結果，所以較大的物體可能難以獲得完全乾淨的結果。

物體距離：為了獲得最佳效果，在掃描時儘量保持整個物體在幀中。這樣做將為應用程序提供更多關於反射和物體形狀的資訊，從而實現更準確的重建。

物體材質：目前，該應用程序掙扎於複雜的反射(例如，曲面鏡面)，彎曲的透明物體(例如，車窗或塑料水瓶)，以及非常大的無紋理表面(例如白牆)。大多數其他材料都很好。

捕捉環境光照水平：該應用程序可以在大多數光照條件下捕捉物體，只要紋理仍然可以識別(即，沒有被洗掉或完全黑暗)。照明條件將被烘焙，所以場景應該點亮，但你希望它出現在最終的結果。

移動的物體：在捕捉過程中，場景中的任何運動都可能降低最終結果的質量。例如，在風中移動的樹葉可能會導致細節的丟失，而在背景中移動的人可能會引入偽影。拍攝時請注意不要將手指/手臂/腿伸入畫面。

相機設置

影片設置注意事項：如上傳影片，需關閉影片穩定選項，尤其安卓手機；iOS需禁止使用「HDR影片」選項。

贊助商廣告

曝光：建議使用固定曝光，儘管動態曝光對室外場景有益。

捕獲格式

基於圖片生成：可在Luma網頁上傳圖片壓縮包。通常照片比影片質量更高，但需特定拍攝，無模糊，並包含EXIF元數據。

提醒：可上傳原始格式圖像(如CR3和DNG等)和HDR圖像(.exr)，以實現更高的動態範圍，以提高質量。如果使用原始文件，元數據將用於sRGB渲染(而底層NeRF將是HDR)。使用EXR，渲染的顏色將在當前顏色空間中，因為沒有colorspace元數據。

不建議上傳大於4K解析度的圖片，當前版本對高解析度圖像效率更低；

魚眼相機和360相機：360度影片可以更有效實現大面積，但很多360相機實際上是雙魚眼相機，進行拼接形成，拼接可能會導致失真。但可以手動在網頁版上傳，注意選擇對應的模式。註：單魚眼模式Insta360 .insv文件可以直接重命名為mp4上傳；多魚眼模式可將Insta360 .insv文件放在一個zip上傳。