這項由香港科技大學方川、李恆、梁藝恂等研究人員與Manycore Tech Inc.公司合作完成的研究發表於2025年9月,論文編號為arXiv:2509.14981v2。有興趣深入了解的讀者可以通過該編號查詢完整論文。
想像一下,你只需要對著電腦說"我想要一個現代簡約風格的客廳",幾分鐘後,一個完整的3D房間就出現在螢幕上,不僅看起來逼真得像真實拍攝的照片,而且你還能在裡面自由"走動",從各個角度欣賞房間的每一個細節。這聽起來像科幻電影裡的情節,但香港科技大學的研究團隊已經把它變成了現實。
這項名為SpatialGen的技術就像是一個超級智能的室內設計師,它不僅能理解你的文字描述,還能根據房間的基本布局資訊,生成出令人驚嘆的3D室內場景。更神奇的是,你甚至可以給它看一張照片,它就能以此為靈感,創造出風格相似但布局完全不同的新房間。
傳統的3D建模就像手工雕刻一樣,需要設計師花費大量時間精心製作每一個細節。而現在的一些自動生成方法雖然能節省時間,但生成的場景往往看起來很假,要麼像是用積木搭建的玩具房間,要麼在不同角度觀看時會出現奇怪的變形。SpatialGen的突破在於它找到了一個巧妙的平衡點:既保持了照片般的真實感,又確保了從任何角度看都完全合理。
為了訓練這個"超級設計師",研究團隊收集了一個規模龐大的數據集,包含12328個不同的場景、57440個房間和470萬張高質量的全景圖像。這就像是給AI看了幾百萬個真實房間的照片,讓它學會了什麼樣的房間布局是合理的,什麼樣的裝修風格是協調的。
一、解決室內設計的三大難題
室內設計領域長期面臨著一個棘手的三角難題,就像是要在蹺蹺板的三個支點之間找到完美平衡。第一個支點是真實感,也就是生成的場景要看起來像真實拍攝的照片,而不是明顯的電腦製作痕跡。第二個支點是多樣性,意味著系統不能總是生成相似的房間,而要能創造出各種不同風格和布局的空間。第三個支點是用戶控制,用戶需要能夠指定自己想要的風格、布局或特定元素。
傳統的程序化建模方法就像是按照固定食譜做菜的廚師,雖然能做出看起來很棒的菜品,但菜單永遠是那幾道,缺乏創新和變化。這些方法使用預設的規則和幾何約束來生成場景,確實能產生非常逼真和物理合理的室內環境,但生成的場景往往大同小異,缺乏創意和多樣性。
相比之下,最新的3D生成方法就像是剛學會做菜的新手廚師,雖然敢於嘗試各種新奇的組合,但往往做出來的菜品看起來就不太對勁。這些方法可以自動生成場景布局或其他3D表示,但由於缺乏足夠的訓練數據,生成的結果在布局合理性和外觀真實感方面都存在明顯不足。
基於圖像的方法則找到了一個中間路徑,它們就像是善於模仿的廚師,通過學習大量成功菜品的照片來改進自己的技藝。這些方法利用強大的2D圖像生成模型來創建全景圖或多視角圖像,然後通過3D重建技術將這些圖像轉換為3D場景。由於能夠利用在大量圖像數據上訓練的強大模型,這些方法在真實感和多樣性之間取得了更好的平衡。
然而,基於圖像的方法面臨著一個新的挑戰:多視角語義一致性。簡單來說,就是當你從不同角度觀看同一個房間時,所有的物品和布局都應該保持一致,不能出現從正面看是沙發,從側面看卻變成了桌子的情況。雖然最近的影片生成技術在時間連貫性方面有所改進,但在探索超出輸入視角的區域時,要保持語義一致性仍然是一個巨大挑戰。
為了解決這些問題,研究人員引入了3D語義布局作為先驗資訊來指導生成過程。這就像是給廚師提供了一張詳細的食材清單和基本的擺盤指導,讓他們在創作時有據可依。然而,由於缺乏大規模的配對3D布局和圖像數據集,現有的布局條件方法不得不採用兩種妥協策略。
第一種策略是分數蒸餾方法,這就像是讓一個從未真正做過菜的人通過看菜譜來指導廚師做菜。這種方法直接從強大的2D預訓練模型中提取知識來創建3D內容,避免了對大規模訓練數據的需求。但由於SDS方法本身的局限性,生成的結果往往存在嚴重的視覺偽影,比如過度飽和、缺乏細節等問題。
第二種策略是全景代理方法,這種方法就像是只會做一道菜的專業廚師,雖然這道菜做得很好,但適用範圍有限。這些方法利用全景圖像數據集進行訓練,因為全景數據集相對容易獲得且標註豐富。然而,由於全景圖像是在固定攝像機位置拍攝的,基於這些數據訓練的模型在推廣到新視角時能力有限,限制了它們在實際應用中的效果。
二、構建史上最大室內場景數據集
要訓練一個能夠生成高質量3D室內場景的AI系統,就像培養一個優秀的室內設計師一樣,需要讓它見識足夠多的優秀設計案例。研究團隊面臨的第一個挑戰就是現有數據集的局限性。現實世界的數據集雖然提供了真實的外觀觀察,但收集和標註這些數據需要大量的成本和人力投入。而合成數據集雖然能夠提供豐富的標註資訊,但在場景多樣性或攝像機視角方面仍有限制。
為了解決這個問題,研究團隊決定從零開始構建一個全新的大規模數據集。他們從一個在線室內設計平台獲取了大量專業設計師創作的房屋設計,這些設計大多是為實際生產而創建的真實項目。這就像是收集了全世界最優秀設計師的作品集,為AI提供了豐富的學習素材。
數據收集過程就像是精心策劃的攝影之旅。研究團隊為每個場景創建了物理上合理的攝像機軌跡,這些軌跡能夠在場景中平滑導航,同時避開障礙物。攝像機每隔0.5米進行一次採樣,確保對空間的全面覆蓋。在每個視點,他們使用業界領先的渲染引擎生成逼真的全景渲染圖,捕獲顏色、深度、法線、語義和實例分割等多種資訊。
為了確保數據質量和多樣性,研究團隊實施了嚴格的篩選標準。他們根據專業設計師評級、渲染數量、總建築面積和獨特物體數量等四個關鍵標準來選擇場景。然後,他們從每個選定場景中提取單獨的房間,並應用額外的過濾器,只保留那些建築面積大於8平方米且包含3個以上獨特物體的房間。這個過程就像是從海量的設計作品中精選出最具代表性和教育價值的樣本。
最終的數據集規模令人印象深刻:12328個不同場景,57440個獨立房間,470萬張逼真的全景渲染圖。數據集涵蓋了各種房間類型,包括12592個客廳和餐廳、2179個客廳、2524個書房、8540個廚房、8460個浴室、1464個陽台、9049個主臥室、8603個次臥室、2793個兒童房和4418個其他房間類型。這種多樣性確保了AI系統能夠學習到各種不同類型空間的設計規律。
在物體類別方面,原始在線設計最初包含大約65000個物體類別。研究團隊過濾掉了室內設計特有的小眾物體類別,並將剩餘物體映射到ADE20K的62個常見類別。他們還根據嚴格的標準篩選物體邊界框:丟棄房間布局外的物體,排除任何邊長短於0.1米或長於1.8米的物體。這個過程產生了總計1046637個物體邊界框,為AI提供了豐富的物體識別和布局學習素材。
三、革命性的多視角多模態生成技術
SpatialGen的核心技術就像是一個具有超強空間想像力的設計師,它不僅能理解文字描述和參考圖像,還能同時處理多種不同類型的資訊。傳統的方法往往只能處理單一類型的輸入,比如只能理解文字或只能分析圖像,而SpatialGen則能夠同時理解和生成RGB彩色圖像、場景坐標圖和語義分割圖三種不同的表示方式。
這種多模態處理能力的關鍵在於一個創新的交替注意力機制。這個機制就像是一個經驗豐富的指揮家,能夠協調不同樂器組之間的配合。它通過兩種互補的注意力路徑來工作:跨視角注意力和跨模態注意力。跨視角注意力負責處理不同視角之間的資訊整合,確保從不同角度看到的同一個物體保持一致。跨模態注意力則在每個視角內部工作,協調顏色、幾何和語義資訊之間的精確對齊。
為了處理場景坐標圖這種特殊的幾何資訊,研究團隊開發了一個專門的場景坐標圖變分自編碼器(SCM-VAE)。標準的圖像VAE雖然在RGB圖像和語義圖上表現良好,但在重建場景坐標圖時會失敗,導致幾何保真度差。SCM-VAE通過引入額外的幾何特定損失函數來解決這個問題,包括多尺度梯度損失來改善解碼場景坐標圖中的邊界清晰度。
整個生成過程採用了疊代密集視角生成策略,這就像是逐步完善一幅巨大拼圖的過程。由於GPU內存限制,系統無法一次生成所有視角的圖像,因此採用增量方式維護場景的全局彩色點雲,以確保疊代之間的外觀一致性。在每次疊代中,點雲被投影到目標視角上,為一致生成提供像素對齊的指導。通過結合不確定性圖,系統還能過濾掉不確定性低於預定閾值的3D點,產生更清晰的變形圖像。
四、從2D圖像到3D場景的神奇轉換
生成了多視角的圖像後,SpatialGen需要將這些2D圖像重建為完整的3D場景,這個過程就像是考古學家根據發掘出的文物碎片重建古代建築的全貌。系統採用了基於RaDe-GS的3D重建方法,這是一種先進的3D高斯濺射技術,能夠從密集生成的顏色、幾何和語義圖像中重建出3D場景表示。
這個重建過程的巧妙之處在於它不僅重建了場景的外觀,還保留了語義資訊。系統為每個3D高斯點增加了語義特徵,這意味著重建出的3D場景不僅知道每個位置的顏色和形狀,還知道那裡放的是什麼物體。場景從預測的點雲開始初始化,然後在可微分渲染優化過程中,利用預測的場景坐標圖進行深度監督,使得系統能夠在僅僅7000步內快速收斂。
最終生成的3D場景具有高保真度的RGB渲染和幾何精確的深度重建能力。用戶可以在這個虛擬環境中自由移動視角,就像在真實房間中走動一樣,從任何角度觀看都能看到合理且一致的場景內容。這種能力為虛擬現實、增強現實、室內設計和機器人仿真等應用開闢了新的可能性。
五、全面超越現有技術的實驗驗證
為了驗證SpatialGen的性能,研究團隊設計了一系列全面的實驗,就像是對新產品進行嚴格的質量檢測。他們不僅在自己構建的數據集上進行測試,還在現有的標準數據集如Hypersim和Structured3D上進行了對比實驗。
在文本到3D場景生成任務中,SpatialGen與兩類主要的競爭方法進行了比較。第一類是分數蒸餾方法,包括Set-the-Scene和SceneCraft。實驗結果顯示,當僅在Hypersim數據集上訓練時,SpatialGen的表現略遜於SceneCraft,這主要是因為Hypersim數據集規模太小,無法充分發揮強大的多視角擴散模型的潛力。然而,當在Hypersim和新數據集的組合上訓練時,SpatialGen在所有指標上都超越了SDS方法,特別是在圖像獎勵分數上取得了顯著提升,驗證了大規模數據集對高質量3D場景生成的重要性。
第二類競爭方法是全景代理方法,以Ctrl-Room為代表。在Structured3D數據集上,SpatialGen取得了具有競爭力的性能,雖然分數相對較低,但這是可以理解的,因為Ctrl-Room專門針對固定攝像機位置的單一全景圖合成進行了優化。然而,SpatialGen的關鍵優勢在於它不局限於單一攝像機位置,能夠實現高質量的全景生成,同時還支持逼真的新視角合成。
在圖像到3D場景生成實驗中,研究團隊設計了四種不同的攝像機軌跡來測試系統的生成能力:前進軌跡模擬穩定的攝像機運動,內向軌道確保輸入和輸出視角都朝向房間中心,外向軌道中輸入和輸出視角位於相同位置但朝向不同,隨機遊走軌跡中輸入和輸出視角從連續的隨機遊走路徑中採樣。實驗結果表明,在所有軌跡下,語義布局都顯著改善了結果,特別是FID分數的提升表明帶有布局指導的方法能夠更有效地捕獲潛在的數據分布。
六、技術創新的深層價值與廣闊前景
SpatialGen的技術突破不僅僅是一個學術成果,它代表了人工智慧在創意設計領域的一次重要跨越。這項技術的價值就像是給每個人都配備了一個專業的室內設計師,無論是普通消費者想要重新裝修自己的家,還是專業設計師需要快速生成設計方案,都能從中受益。
對於室內設計行業而言,SpatialGen可能會帶來革命性的變化。傳統的設計流程往往需要設計師花費大量時間製作效果圖和3D模型,而現在只需要簡單的文字描述或參考圖片,就能在幾分鐘內生成高質量的3D場景。這不僅大大提高了設計效率,還降低了設計成本,使得高質量的室內設計服務能夠惠及更多普通消費者。
在虛擬現實和增強現實領域,SpatialGen為內容創作提供了強大的工具。遊戲開發者可以快速生成各種室內環境,電影製作人可以創建虛擬場景進行預覽,教育工作者可以構建沉浸式的學習環境。這種技術的普及將大大降低VR/AR內容的製作門檻,推動這些技術在更多領域的應用。
對於機器人研究而言,SpatialGen提供了生成多樣化訓練環境的新途徑。研究人員可以快速創建各種室內場景來訓練導航算法、物體識別系統和人機交互模型。這種能力對於推進家庭服務機器人、清潔機器人和陪伴機器人的發展具有重要意義。
然而,這項技術也面臨著一些挑戰和限制。跨視角和跨模態注意力機制雖然提高了生成質量,但也增加了計算成本,限制了系統一次能夠生成的圖像數量。此外,攝像機採樣策略可能會影響生成質量,這需要在未來的研究中進一步優化。
研究團隊已經將數據集和模型開源,這為學術界和工業界的進一步研究提供了寶貴資源。這種開放的態度不僅能夠加速技術的發展,還能促進更多創新應用的出現。我們可以預期,在不久的將來,基於SpatialGen技術的各種應用將會湧現,從簡單的家裝設計工具到複雜的虛擬世界構建平台。
說到底,SpatialGen代表了人工智慧技術在理解和創造三維空間方面的重大進步。它不僅解決了現有技術在真實感、多樣性和用戶控制之間的平衡問題,還為未來的研究指明了方向。隨著計算能力的不斷提升和算法的進一步優化,我們有理由相信,這種技術將會變得更加強大和易用,最終改變我們設計、體驗和交互三維空間的方式。對於那些對這項技術感興趣的讀者,可以通過論文編號arXiv:2509.14981v2查詢完整的技術細節和實驗結果。
Q&A
Q1:SpatialGen技術是如何工作的?它需要什麼樣的輸入?A:SpatialGen就像一個智能室內設計師,它需要兩種主要輸入:一個3D房間布局(告訴它房間的基本結構和物品位置)和一個參考資訊(可以是文字描述如"現代簡約客廳",也可以是一張圖片)。系統會根據這些資訊生成多個角度的房間圖像,然後將這些2D圖像重建成完整的3D場景,用戶可以在其中自由移動視角觀看。
Q2:這項技術相比傳統的3D建模有什麼優勢?A:傳統3D建模就像手工雕刻,需要設計師花費大量時間精心製作每個細節。而SpatialGen能在幾分鐘內自動生成高質量的3D室內場景,不僅大大提高了效率,還能保證生成的場景從任何角度看都真實合理。更重要的是,它能根據簡單的文字描述或圖片生成多樣化的設計方案,為用戶提供了前所未有的創作自由度。
Q3:SpatialGen生成的3D場景能用在哪些實際應用中?A:這項技術的應用前景非常廣闊。在室內設計領域,可以幫助設計師快速生成效果圖和方案預覽;在遊戲和影視製作中,可以快速創建各種室內場景;在VR/AR應用中,可以構建沉浸式的虛擬環境;在機器人研究中,可以生成多樣化的訓練環境;對於普通消費者,未來可能通過手機應用就能設計自己的理想家居空間。