當你的手機相機「看懂」整個世界：Insta360等機構聯合開發的UniSHARP如何讓AI從一張照片重建任意攝影機的三維世界

這項由Insta360 Research、中山大學、北京航空航天大學、武漢大學和加州大學默塞德分校聯合開展的研究，以預印本形式於2026年6月5日發布在arXiv平台，論文編號為arXiv:2606.07514。感興趣的讀者可以通過這個編號在arXiv上查閱完整論文。

贊助商廣告

**一張照片，重建一個世界**

手機拍下一張客廳的照片，然後AI自動幫你生成"如果我站在沙發另一側會看到什麼"——這聽起來像科幻電影裡的情節，但今天要介紹的研究正在把它變成現實。更厲害的是，這套系統不只對普通手機相機有效，對魚眼鏡頭、廣角鏡頭、甚至360度全景攝影機同樣適用。

我們可以用一個攝影師的視角來貫穿整篇文章的理解。一個攝影師手裡只有一張照片，卻想知道"轉個角度會看到什麼"——這就是這篇研究要解決的核心問題。而且這位攝影師不只用一種相機，他今天用魚眼鏡頭拍了魚缸，明天用廣角鏡頭拍了街道，後天又用全景相機拍了整個房間，他需要的是一套在所有相機上都能用的方案。這篇論文給出的答案，叫做UniSHARP。

**一、攝影師的困境：為什麼一張照片"看不懂"世界**

普通人在家裡拍一張照片，照片裡的世界是"壓扁"的——所有的深度、距離、遮擋關係全都丟失了，剩下的只是一個二維的色彩平面。就像把一個立體的蘋果壓成果凍貼紙，你當然還能認出這是個蘋果，但你已經無法知道蘋果背面是什麼顏色、蘋果有多厚了。

AI研究者早就意識到這個問題，並提出了"從單張圖片重建三維場景"這個挑戰方向。近年來出現了一種叫做"三維高斯散射"（3D Gaussian Splatting，簡稱3DGS）的技術，可以把場景表示成成千上萬個半透明的"小氣泡"，每個氣泡有自己的位置、大小、顏色和透明度。把這些氣泡組合在一起，就能模擬出真實場景的立體外觀，從任意角度渲染出新的視角。

已有的方法，比如SHARP和Flash3D，在普通相機（專業術語叫"針孔相機"或"透視相機"）上表現得相當不錯。它們能從一張家居照片中學會"猜測"三維結構，生成你換個位置會看到的畫面。但問題來了：這些方法都是專門為普通相機設計的，如果你給它一張魚眼鏡頭拍的照片，或者一張360度全景圖，它們就完全蒙圈了。

贊助商廣告

為什麼呢？因為不同的相機用的是不同的"語言"描述世界。普通相機用的是一種叫"針孔模型"的幾何語言，假設光線是直直地穿過鏡頭中心打到感光元件上的。魚眼鏡頭則會讓光線彎曲，拍出來的畫面邊緣明顯扭曲。全景相機則把整個球形的視野"攤開"成一張矩形圖片，就像把地球儀的表面撕開鋪平成世界地圖一樣——南北極會被極度拉伸。這些不同的"語言"讓原有的AI方法無法直接套用。

**二、攝影師的工具箱：UniSHARP是怎麼工作的**

研究團隊給出的解決思路非常直覺：與其為每種相機單獨寫一套規則，不如找到一種所有相機都能共用的"通用語言"。這個通用語言的核心，叫做"光線-距離空間"（ray-distance space）。

回到攝影師的比喻。不管你用什麼相機，當你的眼睛（或鏡頭）看向某個方向時，你看到的東西都可以用兩個參數描述：你看的方向是哪裡（用一個單位向量表示，像指南針一樣），以及你看到的物體離你有多遠（一個距離數字）。把這兩個參數組合起來，就能唯一確定空間中的一個點。這套"方向加距離"的描述方式，無論你是用魚眼鏡頭、廣角鏡頭還是全景相機，都是通用的。

UniSHARP正是建立在這套通用語言之上。給定一張輸入圖片，系統首先為圖片上的每個像素預測一根"光線"——就是"這個像素對應的觀察方向"。這個過程借鑑了另一個名為UniK3D的研究，後者專門解決"任意相機下的單目三維估計"問題。有了每個像素的方向，再加上估計出的深度（距離），就能把每個像素對應到三維空間中的一個點。所有相機類型的像素都能用這套方式統一處理，這就是"通用性"的來源。

在這套通用坐標系建立起來之後，UniSHARP會構建"幾何錨定高斯"（Geometry Anchored Gaussians）。可以把這些理解成攝影師在三維空間裡插下的一面面小旗幟——每面旗幟的位置由剛才的光線和距離確定，旗幟的顏色來自輸入圖片的對應像素。這些旗幟是後續所有渲染工作的基礎框架。

贊助商廣告

研究團隊設計了兩層這樣的旗幟體系。第一層對應可見表面，就是相機直接能看到的地方；第二層則專門負責處理"遮擋區域"——比如一把椅子遮住了後面的牆，換個角度之後椅子背後的牆就會出現，第二層旗幟負責猜測那裡可能有什麼。第二層通過一個額外的深度估計頭來預測，讓系統在渲染新視角時有更多的幾何資訊可用。

只有旗幟還不夠。旗幟只記錄了顏色，但高斯散射還需要知道每個氣泡的大小、方向和透明度。這就是"特徵條件高斯殘差"（Feature Conditioned Gaussian Residuals）的作用。UniSHARP的編碼器會同時提取兩類特徵：一類是"2D語義特徵"，就是從圖片裡學到的視覺含義（這裡是牆、那裡是椅子腿、那個是反光表面）；另一類是"3D空間特徵"，基於剛才的光線方向和深度，編碼幾何形狀的先驗資訊。把這兩類特徵融合之後，解碼器會對每個基礎旗幟預測一個"修正量"——調整位置、大小、旋轉、顏色和透明度，最終得到完整的三維高斯點雲。整個過程就像攝影師先畫出草圖（幾何錨定），再根據光影經驗精修每個細節（殘差預測），最終得到一幅精準的三維素描。

**三、全景照片的特殊挑戰：極點問題與應對策略**

360度全景圖有一個所有攝影師都深有體會的問題：圖片中間（赤道附近）的區域比較準確，但靠近上下邊緣（極點區域）的內容被嚴重拉伸了。就像世界地圖上格陵蘭島看起來比非洲還大，但實際上非洲的面積是格陵蘭的14倍以上。

這種拉伸意味著全景圖的極點區域裡，每個像素實際上對應的是非常小的一片空間——如果系統在這些像素上也生成大量高斯旗幟，就會造成極點附近旗幟過度密集、赤道附近旗幟稀疏的不均勻狀況，影響渲染質量。

為了解決這個問題，研究團隊設計了一種"緯度相關的概率丟棄"機制。簡單說就是：越靠近極點的像素，系統越有可能主動"跳過"為它創建第二層旗幟。具體的跳過概率由緯度的餘弦值決定——赤道處（緯度為0）餘弦值為1，跳過概率最低；極點處（緯度為90度）餘弦值為0，跳過概率最高。第一層旗幟始終保留，以確保基本的表面覆蓋；只有第二層（負責遮擋區域）才會被這種機制調節。這種設計把全景圖的畸變適應問題，從"需要專門設計一個特殊預測分支"簡化成了"在訓練時調整分配策略"，實現起來優雅得多。

贊助商廣告

**四、混合訓練：讓一個模型認識所有相機**

訓練一個能處理所有相機類型的統一模型，聽起來簡單，實際上有相當多的工程細節需要處理。不同相機拍出來的數據格式不同、解析度不同、有效圖像區域不同（魚眼圖片裡有大片黑色圓形邊框），甚至連"什麼叫有效的源-目標圖片對"的定義都有差異。

研究團隊的解決方案是統一接口加混合採樣。所有相機類型的數據都轉換成同一套"光線-距離"接口進行訓練，網路結構里沒有任何針對特定相機的專用分支。訓練時，系統從透視、廣角、魚眼、全景四類數據集中按照預設比例抽樣，每個小批量內的數據來自同一類數據集（方便批處理）。透視圖像來自RealEstate10K、DL3DV和WildRGB-D；廣角圖像來自研究團隊自建的OmniRooms-Wide；魚眼圖像來自ScanNet++的魚眼子集；全景圖像來自HM3D全景數據集和研究團隊自建的OmniRooms。

沒有真實深度標註的數據集怎麼辦？研究團隊用UniK3D生成偽深度標籤來填補空缺——這就像攝影師沒有專業測量工具時，用自己的經驗眼力估算一下距離，作為訓練的參考。

這套混合訓練策略帶來了一個重要的附加效果：不同相機類型之間能夠互相"借力"。魚眼圖像里學到的彎曲幾何先驗，可能幫助模型更好地理解廣角圖像里的邊緣扭曲；全景圖像里學到的空間一致性，也能讓普通透視圖像的渲染更穩定。

**五、不知道相機型號也沒關係：無標定推理**

實際使用中，很多人並不知道自己手機相機的精確焦距和畸變參數。研究團隊為此設計了一種"無標定"（pose-free）推理模式。

在這種模式下，用戶只需要提供一張RGB圖片，不需要任何相機參數。系統會先用UniK3D預測每個像素對應的光線方向，然後根據這些光線方向的"覆蓋範圍"來推斷相機類型：如果光線覆蓋的角度大約是水平60-90度，那麼這可能是普通透視相機；如果覆蓋了140度以上，可能是魚眼；如果接近360度，那就是全景相機。針對透視和魚眼輸入，系統會擬合出相應的相機參數；全景輸入則直接用球形相機模型處理。

贊助商廣告

整個過程就像一個經驗豐富的攝影師，只看照片裡的透視畸變和視角範圍就能猜出這張照片是用什麼鏡頭拍的，然後據此調整自己的三維理解。測試結果（表6）顯示，無標定模式下的PSNR為20.85，而使用真實相機參數時為21.56——差距不大，說明這套自動推斷相當可靠。

**六、損失函數：攝影師評價自己草圖的三把尺子**

訓練神經網路需要告訴它"什麼樣的結果是好的"，這就是損失函數的作用。UniSHARP的訓練目標由三部分組成，就像評價一幅素描作品時，攝影師從三個角度評分：外觀像不像、深度對不對、高斯場穩不穩。

外觀損失包含三項。顏色L1誤負評估渲染出來的像素顏色和真實顏色的絕對差距；不透明度損失確保高斯旗幟能正確遮住對應的像素，不留空洞；感知損失（perceptual loss）則用深度學習特徵和紋理統計（Gram矩陣）來評估視覺質量，讓渲染結果在人眼看來更真實，而不只是數值上接近。

深度損失關注幾何精度。系統分別監督源視角的第一層深度（應該和真實深度吻合），以及渲染到目標視角後的深度（確保跨視角幾何一致）。只監督源視角是不夠的——就像攝影師只校準正面視角，換個角度拍就完全失真了。

高斯正則化損失負責穩定高斯場的結構。具體包括三項：對第二層深度施加平滑約束（total variation）防止深度抖動；在第一層深度有劇烈變化的邊緣處抑制高透明度的"浮游高斯"（floater suppression），這些浮游高斯會在渲染新視角時產生半透明的鬼影；以及用多尺度Sobel梯度對齊渲染深度和真實深度的邊緣細節，讓深度邊界更清晰。對於全景圖像，水平方向的有限差分會使用循環邊界處理，以正確對待360度圖像左右相連的拓撲結構。

**七、評測基準：攝影師的考卷**

為了系統評估UniSHARP的性能，研究團隊構建了一個跨相機類型的分層評測基準。這個基準按視場角（FoV，即相機能看到的角度範圍）劃分為四個檔次，每個檔次使用不同的數據集。

贊助商廣告

透視相機組（60到90度視場角）包含DL3DV、RealEstate10K、Tanks and Temples和WildRGB-D，共36873個源-目標對。這是最常見的普通相機場景。廣角相機組（90到140度）使用研究團隊自建的OmniRooms-Wide數據集，共10692對，這個數據集是把OmniRooms全景圖投影成廣角視圖生成的。魚眼相機組（140到180度）使用ScanNet++的魚眼子數據集，共14163對。全景相機組（360度）使用Replica、HM3D和OmniRooms，共42754對。

評測時，每個序列的第一幀作為源圖像，後續最多十幀作為目標視角，所有指標（PSNR、SSIM、LPIPS）在所有有效目標視角上平均。為了確保評測聚焦於"合理的視角變換"而非天馬行空的長程幻想，系統只保留源-目標重疊率超過60%、相機中心距離小於0.5米、幀索引差距不超過10的圖像對。

OmniRooms數據集是研究團隊用AirSim仿真平台在合成室內場景中生成的，每個錨點位置渲染一張源全景圖和29張局部隨機目標全景圖，所有相機共享固定朝向，圖像解析度1024×2048。相機高度被嚴格限制在60到180厘米之間，過濾掉貼著地板或貼著天花板的不合理位置。

**八、實驗結果：攝影師的考卷得了多少分**

在透視相機數據集上（表2），UniSHARP在WildRGB-D上取得PSNR 21.56 / SSIM 0.674 / LPIPS 0.143，在DL3DV上取得PSNR 19.47 / SSIM 0.594 / LPIPS 0.196，在RealEstate10K上取得PSNR 24.50 / SSIM 0.795 / LPIPS 0.087。這三項數字的含義可以這樣理解：PSNR越高，渲染結果的像素級精度越好；SSIM越接近1，結構相似度越高；LPIPS越低，人眼感知越像真實照片。UniSHARP在所有三個透視數據集上都是同類方法中最好或第二好的，超過了SHARP、Flash3D、LVSM和TMPI。

在Tanks and Temples這個沒有參與訓練的純外測數據集上（表5），UniSHARP取得PSNR 16.32 / SSIM 0.498 / LPIPS 0.282，是所有比較方法中PSNR和LPIPS最好的。這說明統一化的訓練沒有讓模型過度依賴特定數據集，泛化能力反而有所提升。

贊助商廣告

在魚眼數據集ScanNet++ Fisheye上（表4），UniSHARP取得PSNR 20.66 / SSIM 0.771 / LPIPS 0.184，對比競品PanoDreamer（15.13 / 0.682 / 0.383）和Matrix3D（16.38 / 0.690 / 0.371），優勢相當明顯。在廣角數據集OmniRooms-Wide上，UniSHARP取得PSNR 25.24 / SSIM 0.854 / LPIPS 0.076，同樣大幅領先。

在全景數據集上（表3），以HM3D為例，UniSHARP取得PSNR 29.24 / SSIM 0.895 / LPIPS 0.065，而Matrix3D為23.40 / 0.793 / 0.114，PanoDreamer為21.86 / 0.708 / 0.152。在沒參與訓練的Replica全景數據集上，UniSHARP取得PSNR 30.18 / SSIM 0.933 / LPIPS 0.038，進一步證明了模型的泛化能力。

推理速度方面（表9），UniSHARP完成單張圖片的新視角合成只需3.1秒，而PanoDreamer需要8.6秒（約2.8倍），Matrix3D需要38.8秒（約12.5倍）。速度優勢來自UniSHARP的前向傳播設計——它一次推理就預測完整的高斯表示並直接渲染，避免了PanoDreamer的逐場景優化和Matrix3D的影片生成擴散採樣過程。

**九、消融研究：去掉某個零件，車還能跑嗎**

消融研究就是逐一去掉模型的某個組件，看看性能會下降多少，從而確認每個設計的必要性。研究團隊在WildRGB-D和HM3D上進行了系統的消融實驗（表7和表8）。

去掉原生解析度分配（即不再按照輸入圖片的真實像素排列分配高斯旗幟），WildRGB-D上PSNR從21.56降至21.21，HM3D上從29.24降至28.72，說明保留輸入細節對渲染質量有實質貢獻。去掉第二層高斯，WildRGB-D上PSNR降至20.63，HM3D上降至28.29，證明額外的遮擋層對新視角合成不可或缺。去掉全景畸變自適應，對WildRGB-D影響有限（21.50），但HM3D上PSNR降至28.43，說明極點正則化對全景場景更重要。

如果用直接輸入深度圖和RGB圖（而非學習到的語義和幾何特徵）來驅動高斯預測，WildRGB-D的PSNR降至20.38，HM3D降至28.04——這是所有消融變體中最大的性能下降，說明學習特徵空間比直接使用原始像素和深度作為條件能提供更強的上下文資訊。

贊助商廣告

在損失函數消融中（表8），去掉目標視角的渲染深度監督損失是影響最大的單項——WildRGB-D的PSNR降至20.42，LPIPS升至0.206。這說明僅僅監督源視角深度是不夠的，必須同時監督"新視角下渲染出來的深度"才能保證跨視角的幾何一致性。浮游高斯抑制損失對全景場景特別關鍵：去掉它之後，HM3D的LPIPS從0.065猛升至0.153，說明在深度不連續處（比如窗框、桌角）會產生大量半透明鬼影，嚴重影響視覺質量。

**十、用六個面湊一個球：SHARP的笨辦法及其失敗**

既然SHARP已經有很好的透視圖像處理能力，一個自然的想法是：把全景圖切成六個面（就像正方體的六個面），分別用SHARP處理每個面，然後把結果拼回來。研究團隊在附錄中測試了這種"立方體地圖分解"方案，結果證明它行不通。

問題在於，六個面分別處理時，每個面都基於自己局部的針孔相機假設來預測高斯場。這六套高斯場在邊界處是不連續的，拼合回全景圖時，邊界處會出現非常明顯的接縫——就像把六張地圖硬拼在一起，拼縫處的地形完全不連續。UniSHARP直接在統一光線空間中處理整張全景圖，天然沒有這個問題，渲染出來的新視角是無縫連貫的。

說到底，UniSHARP提供的並不只是"更好的性能數字"，而是一種根本上更正確的思維方式：不應該為每種相機單獨設計方案，而應該找到所有相機共有的幾何語言（光線和距離），在這個通用語言上構建統一的表示和推理框架。這種思路的價值，遠超具體的數字提升。

對於普通人來說，這項研究意味著未來無論你用什麼相機——手機、運動相機、無人機廣角鏡頭、家庭安防魚眼攝影機——都可能享受到同一套AI系統幫你生成"換個角度看是什麼樣"的能力，而不再需要每種設備配備專屬的AI方案。更直接的應用場景包括：用一張家居全景圖生成可自由漫遊的三維家居展示；從一張魚眼安防截圖重建犯罪現場；用無人機廣角圖片快速重建建築外觀；或者把手機隨手拍的照片變成VR可漫遊的三維空間。

贊助商廣告

歸根結底，一張照片和一個世界之間的距離，正在被這類研究逐漸縮短。有興趣深入研究技術細節的讀者，可以在arXiv上通過編號2606.07514找到完整論文。

---

Q&A

Q1：UniSHARP和SHARP有什麼區別，為什麼SHARP不能直接用於全景和魚眼圖片？

A：SHARP是專門為普通透視相機設計的，它在處理每個像素時假設光線是直線穿過鏡頭中心的。魚眼和全景相機的光線是彎曲的或球面展開的，SHARP無法正確理解這類圖像的幾何結構。UniSHARP通過引入"光線-距離"通用坐標系，讓所有相機類型都能用同一套語言描述，從而實現了真正的跨相機泛化能力。

Q2：三維高斯散射技術是什麼，為什麼不用傳統的三維重建方式？

A：三維高斯散射是把場景表示成大量半透明"小氣泡"（高斯橢球）的方法，每個氣泡有位置、大小、顏色和透明度，渲染時通過光線與氣泡的相互作用合成圖像。它比傳統的神經輻射場（NeRF）渲染速度快得多，比多平面圖像表示的幾何精度更高，特別適合需要實時或接近實時渲染的應用場景。

Q3：UniSHARP在沒有相機參數的情況下還能用嗎，精度損失大不大？

A：能用。UniSHARP的無標定模式會自動從圖像預測的光線方向分布來推斷相機類型和幾何參數，然後用推斷出的參數驅動後續渲染。在WildRGB-D數據集上，無標定模式的PSNR為20.85，而使用真實相機參數時為21.56，差距約為0.7個PSNR單位，視覺質量基本相當，對大多數應用場景來說這種差距可以接受。