貝殼找房研究院打造的「全屋全景生成器」：讓AI帶你逛遍整棟房子的每一個角落

這項由貝殼控股（Ke Holdings Inc.）研究團隊完成的研究，以預印本形式於2026年5月19日發布在arXiv平台上，論文編號為arXiv:2605.17916v2，感興趣的讀者可以通過該編號檢索完整論文。

贊助商廣告

**當你還沒裝修，就能先"住進去"看看**

房地產行業有一個古老的痛點：在一套房子竣工、裝修完畢之前，買家幾乎無法真正感受到那套房子住起來是什麼感覺。戶型圖上那些冷冰冰的線條和數字，根本無法讓人感受到陽光從窗戶斜射進來的角度，也無法告訴你站在客廳門口望向臥室時的那種空間感。現如今，商業VR（虛擬現實）看房產品讓這件事變得容易了一些——你可以戴上頭顯，站在一個虛擬的"節點"上環顧四周，再點擊跳到下一個節點，就像在真實空間裡走動一樣。

但新的問題隨之而來：如果這套房子還不存在，只有一張平面圖，AI能憑空把它"生成"出來，讓你戴上VR頭顯就能逛遍所有房間嗎？這正是貝殼研究團隊試圖解決的難題，也是他們提出PanoWorld這套系統的核心動機。

PanoWorld要做的事，用一句話概括就是：給它一張平面圖和一張風格參考圖，它能自動生成一套完整的、多房間一致的全景VR漫遊，每個視角拍出來的牆面材質、門洞形狀、地板顏色，都能彼此對應上，不會出現"從客廳看臥室的門是白色的，轉過身來從臥室看客廳那扇門卻變成了棕色"這種尷尬情況。

**一、現有方法為什麼都不夠用**

要理解這項研究的價值，得先搞明白現有的技術路線各自卡在哪裡。

目前做室內場景生成的方法大體分成兩個方向。第一類是純粹的2D圖像生成，也就是用擴散模型（一種主流的AI圖像生成技術）直接生成全景圖片。這類方法的優勢顯而易見：生成的單張圖片非常漂亮，光影真實，細節豐富，家具也擺放得自然。問題在於，當你換一個視角再生成一張圖時，AI根本不知道上一張圖里那面白牆長什麼樣——它每次都是"從零開始想像"，於是同一面牆在不同視角下可能會變成完全不同的質感，同一扇門在不同方向看過去可能尺寸都對不上。這就好比你雇了一個畫家給你畫房子每個角落的效果圖，但這個畫家每次畫之前都把上一張圖忘得一乾二淨，結果所有圖放在一起完全對不上號。

贊助商廣告

第二類方法走的是全局3D建模路線，比如NeRF（神經輻射場）或3DGS（三維高斯散射）這樣的技術，直接生成一個完整的三維模型，再從任意角度渲染圖片。這類方法天然具備視角一致性，因為它底層維護的是同一套三維結構。但問題是，一整棟房子包含多個房間、走廊、門洞，空間跨度大、細節複雜度高，直接生成高質量的全屋三維模型在計算開銷上極其昂貴，而且生成質量往往不如專門的2D圖像模型精細，紋理細節經常顯得模糊或失真。打個比方，這就像你要雕刻一座精美的宮殿微縮模型，每個房間的壁畫、地毯、家具都得雕得栩栩如生——工程量太大，最後往往哪裡都顧不細緻。

PanoWorld的思路是把這兩條路的優點嫁接在一起，同時規避各自的短板。它不強求生成一個完美的全局三維模型，也不依賴每次都從頭重新想像的2D生成器，而是設計了一套"邊走邊記、有記憶地生成"的工作流程。

**二、一套全屋漫遊是怎麼被"搭建"出來的**

PanoWorld的工作流程，可以用"導遊帶路"這個框架來理解。

旅程的起點是一張平面圖。系統首先把平面圖"立體化"，生成一個粗糙的三維外殼——想像一個只有牆壁、地板、天花板和門洞的空房子模型，沒有任何家具、裝飾和材質，就像毛坯房的白模。這個白模提供的是全局的空間結構資訊：哪裡有牆，哪裡有門，哪裡是客廳，哪裡是臥室，各個房間是怎麼連通的。這個白模本身不是最終產品，它的作用是給後續生成提供一個可靠的"骨架"。

在白模的基礎上，系統會規劃出一條漫遊路徑，把所有需要生成的視角節點串聯起來。這些節點包括用戶最終會"站立"觀看的目標節點，以及為了讓相鄰節點之間有足夠視覺重疊而插入的輔助節點，相鄰節點之間的間距通常在0.5到1.5米之間。路徑規劃遵循一個原則：從圖中連通度最高、到其他節點路徑代價最小的節點出發，這樣生成順序最合理，記憶的積累也最高效。

贊助商廣告

接下來是最關鍵的"逐節點生成"循環。在起始節點，系統結合白模渲染出的幾何引導圖（包含法線圖和語義分割圖，相當於告訴AI"這裡是一面豎直的牆，那裡是地板"）以及用戶提供的風格參考圖，生成第一張全景圖。這張全景圖是整趟旅程的"樣板"，風格、色調、家具選型都從這裡定下來。生成完畢後，系統立刻把這張全景圖"消化"進一個三維記憶庫——也就是3DGS緩存——裡面儲存的是若干個三維"高斯點"，每個點記錄了它在空間中的位置、大小、方向、顏色和透明度，合在一起就像一團形狀各異的彩色氣泡，可以從任意角度渲染出對應的圖像。

走到下一個節點時，系統先從當前的記憶庫向這個節點的方向"渲染"出一張視覺記憶圖，相當於"從我目前的記憶里，這個新位置應該能看到什麼"。再結合白模給出的幾何引導，以及一張已生成的鄰近全景圖提供的局部外觀參考，把這三類資訊一起餵給2D圖像生成器，生成這個節點的高清全景圖。生成完畢後，再把新的全景圖納入記憶庫更新，然後繼續走向下一個節點。

這個過程一直循環到所有節點都生成完畢。整個旅程就像一位有記憶的導遊帶你參觀房子：每到一個新房間，他既能從已有的記憶里推斷這裡大概什麼樣子，又能把新的觀察繼續記下來，下次再用。

**三、記憶庫怎麼做到"聰明地更新"而不越來越慢**

理論上，最簡單的做法是每生成一個新節點，就把所有已生成的全景圖重新跑一遍三維重建模型，把全局記憶從頭更新一次。但這樣做有個致命的問題：隨著節點數量增加，每次更新的計算量會急劇膨脹，走到第二十個節點時，重建一次要處理的歷史數據量已經是起點的二十倍。對於一套多房間的住宅來說，這根本不可行。

PanoWorld的解決方案是"局部更新、全局積累"的拓撲感知漸進緩存策略。具體來說，每次為新節點更新記憶庫時，只使用三類輸入：新節點本身、同一房間內已生成的附近節點，以及通過門洞與當前節點直接連通的邊界節點。這樣，每次更新的計算量是固定的、有上限的，無論整條路徑走了多遠，每個節點的更新代價都大致相當。

贊助商廣告

新生成的局部三維高斯點要併入全局記憶庫時，系統會做一次仔細的"融合審查"。兩個高斯點能夠融合的條件有三個：它們屬於同一個房間；它們在空間中的距離足夠近（小於各自尺寸的某個倍數）；它們在支撐它們的觀測視角上有足夠高的相似度。滿足這三個條件，才算是"見過同一塊地方的兩個記錄"，可以合併。不滿足條件的高斯點則各自保留，或者在透明度不足時被剪枝刪除。

融合的方式也經過精心設計。幾何屬性——也就是高斯點的位置和形狀——通過加權平均合併，權重來自各自的不透明度。顏色屬性中，代表基礎顏色的零階係數會做平滑混合，但代表高頻視角相關細節的高階係數則嚴格繼承自"支配高斯"（不透明度更高的那個）。這個設計背後的邏輯是：如果對所有顏色係數都做數值平均，結果就像把兩張照片疊加取平均值，細節會被模糊化，高頻紋理資訊會不可逆地消失。只平均基礎色、保留主導高斯的細節，才能維持記憶庫渲染的清晰度。

還有一個跨房間記憶污染的問題。假設你從客廳走到臥室，客廳那面牆的紋理已經存入記憶庫了。當系統試圖從臥室方向向客廳那面牆渲染視覺記憶時，那些高斯點表示的是牆的"客廳面"，從臥室方向看就變成了"背面"，渲染出來會是不正確的紋理。為了過濾這類錯誤，系統把記憶庫渲染深度和白模渲染深度做比較：如果記憶庫里某個像素的深度超過白模對應位置的深度一定閾值，說明那個像素在當前視角的第一個可見表面之後，屬於穿牆看到的錯誤內容，標記為無效，後續2D生成器會忽略這些位置。

**四、那個專門用來理解全屋結構的"全景重建大腦"**

要把一張全景圖變成一組三維高斯點，PanoWorld設計了一個專門的模組——全景式大型重建模型（Panoramic LRM）。這個模組的特殊之處在於，它是目前已知第一個專門針對多房間全屋尺度、可同時處理多張360度全景圖並一次性輸出三維高斯點的前饋式神經網路。

贊助商廣告

這裡有兩個技術難題值得展開說。

第一個難題是全景圖的邊界問題。普通透視照片有清晰的左右邊界，但全景圖是圓形的——最右邊的像素和最左邊的像素實際上在空間裡是緊挨著的，中間沒有任何"斷開"。如果用處理普通圖片的方式處理全景圖，模型會認為左右邊緣是兩個距離很遠的地方，這會破壞邊界附近的幾何理解和圖像生成的連續性。為了解決這個問題，團隊設計了一種"循環全景位置編碼"（CPRoPE）：在水平方向用周期性的整數諧波頻率替代標準的線性位置編碼，讓位置編號走到最右邊之後自然"繞回"到最左邊，就像時鐘的錶盤一樣——12點之後接著是1點，而不是13點。這讓模型在做注意力計算時能正確理解全景圖的環形結構。

第二個難題是多房間之間的"資訊污染"問題。這個模組需要同時接受來自同一棟房子多個房間的全景圖作為輸入，但不同房間被牆壁物理隔開，互相之間本來就看不到對方。如果把來自所有房間的圖像token全部放在一起做自注意力計算，來自臥室的紋理資訊就可能"滲透"進客廳的重建里，反之亦然，造成虛影、重複材質或幾何錯亂。

對此，團隊提出了"房間感知分組注意力"機制：同一個房間內的所有節點token之間可以自由做密集注意力交互；不同房間之間，只有通過門洞或邊界直接連通的節點才能有限地交換資訊；其他跨房間的token對，注意力分數直接被掩碼設為負無窮（也就是完全隱藏）。這個設計讓每個房間內部的重建資訊得到充分聚合，同時通過門洞節點傳遞合理的跨房間約束，而不讓毫無關聯的兩個房間互相"污染"。

訓練這個模組用的損失函數也頗為講究。它需要同時優化圖像重建質量（L2像素損失和VGG19感知損失）、高斯點的稀疏性（不透明度正則化）以及幾何精度（深度損失）。其中深度損失不是直接監督渲染出來的深度圖，而是對每個輸入像素，把預測的高斯點位置投影到相機坐標系下的深度，與該像素對應的真實深度做比較，用對數深度L1損失和尺度無關對數損失的組合來衡量，這樣對遠距離和近距離的深度誤差都能公平地懲罰。

贊助商廣告

**五、最終那張全景圖是怎麼生成出來的**

PanoWorld的2D全景生成器使用Qwen-Image-Edit作為骨幹，這是一個經過大量圖像編輯任務微調的多模態模型。這個生成器的輸入是三路資訊的融合：白模給出的幾何引導（告訴它空間結構）、記憶庫渲染出的視覺記憶圖（告訴它已觀測區域的外觀）、以及一張鄰近的已生成全景圖（提供局部風格和細節參考）。

風格資訊只在起始節點生成時使用一次，之後靠鄰近全景圖的"接力"傳遞下去，確保全屋風格的一致性不依賴於反覆輸入風格圖。幾何引導和外觀記憶被有意識地解耦：白模約束大尺度的牆面位置、門洞形狀、地板範圍，但不攜帶任何紋理資訊；記憶庫負責顏色、材質、家具細節，但不干預全局布局。這種解耦讓2D生成器能夠在尊重全局結構的同時，自由發揮紋理和材質的生成質量，不會因為記憶庫渲染質量不完美就把最終圖像質量拉低。

記憶庫渲染圖中那些被深度門控標記為無效的像素（比如穿牆內容），會被編碼成一個特殊值（255）傳入生成器，生成器會把這些位置當作"這裡沒有參考資訊，你自由生成"來處理。

在訓練階段，這個生成器用了三類數據。3D-FRONT合成資料庫提供了約6813套房子的渲染全景圖和深度圖，約20萬張；RealSee3D數據集提供了1萬套真實房屋場景、共29萬餘張帶深度的全景圖；另有250萬張私有2D全景圖（沒有三維標註）僅用於提升生成視覺質量。訓練時對每張全景圖都進行了"去家具"預處理，生成類似白模的空房間圖像作為幾何條件，同時用SAM提取語義分割圖，用MoGe-2提取法線圖。

**六、實驗怎麼說：數字背後的真實含義**

PanoWorld的評測分兩部分：全景圖生成質量和全屋三維重建質量。

在全景圖生成評測中，研究團隊構建了一個包含7套真實平面圖、3種風格設定、共126張評測全景圖（分布在42個節點）的基準數據集。對比的方法包括DreamHome-Pano（有幾何控制的單節點全景生成方法，但沒有多節點一致性機制）、Pano2room（房間級全景外推方法）、Nano Banana 2和Seedream-4.5-Edit（兩個強力多模態圖像編輯模型）、以及OmniRoam（全景影片生成方法，通過逐幀生成模擬多節點漫遊）。

贊助商廣告

評測指標有三個：HPSv3衡量單張圖片的審美質量（與人類偏好評分高度相關）；CLIP圖圖相似度衡量風格與參考圖的一致性；重疊區域PSNR（PSNRov）衡量跨節點一致性，方法是在白模上手動選取若干1米×1米的共視區域（牆面、地板、牆上裝飾），密集採樣三維點，投影到不同全景圖裡的對應像素，計算兩次觀測同一位置時的像素誤差。

結果顯示，PanoWorld在跨節點一致性上有壓倒性優勢，PSNRov達到22.1365，比排名第二的OmniRoam高出約5.75個分貝。在單張圖片審美質量上，Nano Banana 2以9.5483分領先所有方法，PanoWorld以7.9564分處於中游，但這個取捨是合理的——PanoWorld犧牲了一點"單張圖片自由發揮"的空間，換來了跨節點幾何和材質的穩定性。風格一致性方面，Nano Banana 2也以0.7940的CLIP分數略占優勢，PanoWorld得分0.7577。

在全屋三維重建評測中，系統在50套未見過的RealSee3D場景上進行測試，分別測試輸入8張和12張全景圖的情況，與MVP、Adapt-Splat和WorldMirror 2.0三種基線方法對比。PanoWorld在8張輸入下PSNR達到29.2361，SSIM達到0.8880，LPIPS為0.2225，三項指標均全面領先其他方法，優勢幅度相當顯著——第二名Adapt-Splat的PSNR只有21.2418，差距接近8個分貝。12張輸入下PanoWorld的重建質量略低於8張（PSNR為28.8003），原因是更多視角覆蓋了更大的空間範圍，引入了更多跨房間可見性變化，給全局融合帶來了更高的挑戰，而不是簡單的冗餘資訊疊加。

**七、拆掉每個零件來看：哪塊最關鍵**

研究團隊做了一系列消融實驗，把系統的各個模組逐一"拆掉"來驗證其貢獻。

針對2D生成器的消融實驗，拆掉三維記憶庫（視覺記憶）後，PSNRov從22.1365大幅下降到18.8374，證明三維記憶是跨節點一致性的主要來源。拆掉鄰近全景圖輸入後，PSNRov降至19.0182，說明鄰近全景圖提供了記憶庫渲染質量不完美時的補充外觀參考，同時負責把風格資訊在節點間傳遞下去。拆掉CPRoPE全景位置編碼後，PSNRov降至20.6109，說明循環位置編碼對維持全景圖邊界處的幾何連貫性和跨節點對齊有實質幫助，但對單張圖片的審美質量（HPSv3）影響甚微——這也驗證了CPRoPE的作用確實是邊界連續性而非視覺美感。

贊助商廣告

針對全景LRM的消融實驗，結果更為極端。拆掉房間感知分組注意力機制（RAGA），只保留標準全局自注意力，PSNR從29.2361暴跌至21.7084，下降超過7.5個分貝。這說明拓撲感知的跨房間特徵隔離是多房間全屋重建質量的關鍵支撐；一旦不同房間的資訊可以自由混合，重建質量就會退回到與其他基線方法相近的水平。拆掉CPRoPE後，PSNR降至28.1739，也有明顯但不及RAGA那麼劇烈的下降。

**八、這套系統現在還做不到什麼**

PanoWorld的論文對自身的局限性也有坦誠的描述。

首先，整個系統的質量高度依賴平面圖的準確性和白模轉換的質量。如果平面圖有誤差，或者門洞拓撲關係記錄不完整，生成出來的幾何骨架就會出錯，後續所有節點的生成都會受影響。

其次，節點之間的間距如果設置得太大，相鄰節點的視覺重疊面積會變小，記憶庫從已有節點向新節點的渲染也會變得稀疏，導致引導效果變弱，新節點生成時"自由發揮"的部分增多，跨節點一致性隨之下降。

此外，動態物體、鏡子、透明材質（比如玻璃幕牆、水面）以及大件家具的複雜遮擋關係，對當前系統來說仍然是挑戰。這些情形下三維高斯點的建模質量會下降，記憶庫的引導也會變得不可靠。

研究團隊在討論部分提出了幾個未來的改進方向：把平面圖到白模的估計過程和生成過程聯合優化，減少對獨立工程流水線的依賴；引入對象級別的可編輯語義，允許用戶修改某個房間的家具擺放而不影響其他房間；以及開發更強的交互式重新風格化能力，讓用戶能快速在同一套空間結構上切換不同的裝修風格。

說到底，PanoWorld做的事情本質上是給AI圖像生成裝上了一套"空間記憶"，讓它不再是那個每畫一張就忘記上一張的畫家。它選擇了一種非常務實的路徑：不強求生成一個完美的三維模型，而是讓三維模型扮演"記事本"的角色，最終交付給用戶的仍然是高質量的2D全景圖，只不過這些圖彼此之間終於能"認出"同一堵牆、同一扇門。對於真實VR看房產品來說，這恰恰是最關鍵的那一步。

贊助商廣告

如果有一天你打開一款看房App，戴上頭顯在一套尚未建造的房子裡慢慢轉圈，從客廳走進臥室，再繞到廚房，發現每扇門的顏色、每片牆的紋理在不同角度看起來都對得上，那背後很可能運用了類似PanoWorld這樣的技術邏輯。當然，這項研究仍處於學術階段，從實驗室到消費級產品還有相當長的路要走，但它指出的方向已經足夠清晰。感興趣的讀者可以通過arXiv:2605.17916v2查閱完整的技術細節。

Q&A

Q1：PanoWorld生成的全景圖和普通AI生成的全景圖有什麼區別？

A：普通AI每次生成全景圖都是獨立的，換個角度就會"重新想像"，導致同一面牆在不同節點看顏色和材質可能對不上。PanoWorld維護了一個三維記憶庫，每次生成新節點時都會參考已有記錄，因此跨節點一致性大幅提升，實驗中重疊區域PSNR比最強對比方法高出約5.75個分貝。

Q2：PanoWorld需要什麼輸入才能生成全屋漫遊？

A：主要需要兩類輸入：一張平面圖（用來生成房間骨架和空間結構），以及一張風格參考圖（用來確定裝修風格、色調和材質方向）。風格參考圖只在第一個節點使用，之後靠相鄰全景圖接力傳遞風格資訊，不需要對每個節點單獨指定風格。

Q3：全景LRM中的房間感知分組注意力機制有多重要？

A：非常關鍵。消融實驗顯示，把房間感知分組注意力替換為標準全局自注意力後，重建質量的PSNR從29.24分暴跌至21.71分，下降超過7.5個分貝，說明拓撲感知的跨房間特徵隔離是多房間全屋重建質量的核心支撐，一旦不同房間資訊自由混合，重建質量就會大幅退化。