北京大學攻克三維場景理解難題：用「雙曲空間」重新定義AI看世界的方式

這項由北京大學電腦科學學院主導的研究成果於2026年4月發布，論文編號為arXiv:2604.17454，有興趣深入了解的讀者可以通過該編號在學術預印本平台查閱完整論文。

贊助商廣告

**當機器人迷路時，問題出在哪裡？**

假設你第一天去一個完全陌生的購物中心，你的大腦會自然地建立一張"心智地圖"：一樓是超市，二樓是餐廳，餐廳里有幾張桌子，桌子旁邊有椅子。這種從"大範圍場所"到"具體物品"的層級感，對你來說毫不費力——你天然就知道椅子比餐廳更"具體"，餐廳比整棟樓更"局部"。

然而，對於當今的人工智慧系統來說，這種看似理所當然的層級感恰恰是一塊難啃的骨頭。現有的大多數AI在理解場景時，會把"餐廳"和"椅子"丟進同一個"平面容器"里——就好像你把不同大小的俄羅斯套娃全都拆散鋪在桌子上，失去了原本一個套著一個的嵌套關係。這個問題直接影響了機器人導航、自動駕駛、增強現實等一系列與普通人生活息息相關的技術。

北京大學的研究團隊提出了一個頗具創意的解決方案，他們開發了一套名為"雙曲場景圖"（Hyperbolic Scene Graph，以下簡稱HSG）的新框架。這套框架的核心思想是：把AI理解場景的"戰場"從普通的歐幾里得空間（也就是我們日常生活里量長度用的那種平直空間）換到一種特殊的"雙曲空間"——在這裡，層級關係會被空間的幾何形狀天然地編碼進去，就像俄羅斯套娃被放回了它們該在的嵌套位置。

**一、普通空間為何裝不下"誰包含誰"的關係**

理解HSG的關鍵，首先要理解為什麼現有的方法會在層級關係上栽跟頭。

當下主流的場景圖系統，比如北京大學團隊此前提出的MSG（多視角場景圖）框架，會用一種叫做"對比學習"的技術讓AI學習場景理解。這種技術就像在告訴AI："這兩張照片裡都有同一把椅子，所以它們應該在數學空間裡彼此靠近；而這把椅子和那個完全不相關的馬桶就應該離得遠遠的。"學完之後，AI會把每個場景元素——不管是一個房間還是一把椅子——用一串數字來表示，這串數字決定了它在數學空間裡的"坐標"。

贊助商廣告

問題在於，普通的歐幾里得空間（你可以理解為標準的坐標紙，橫軸豎軸都是直線）在表示層級關係時效率極低。在一張普通坐標紙上，如果你想表示"餐廳包含桌子，桌子旁有椅子"這樣三層嵌套的關係，隨著層級越來越多、越來越複雜，你需要的坐標軸數量會急劇膨脹——就像你試圖把一棵參天大樹壓扁塞進一張薄薄的紙里，樹枝不得不重疊交叉、亂成一團。麻省理工學院和其他機構的先前研究已經證實，歐幾里得空間處理這類樹形層級結構時確實力不從心。

於是，北京大學團隊把目光投向了雙曲空間。雙曲空間是一種具有"恆定負曲率"的彎曲空間——如果普通坐標紙是一張平鋪的桌面，那雙曲空間就像一個形狀類似馬鞍或羽衣甘藍葉子邊緣的彎曲表面，越往外延伸，空間就以指數級速度變大。這個特性讓雙曲空間天然適合表示樹形結構：越抽象、越宏觀的概念放在靠近中心的位置，越具體、越細粒度的概念放在遠離中心的外圍，而隨著層級的增加，外圍空間會以指數速度增長，永遠有足夠的地方容納更多細節。

用一個類比來說：雙曲空間就像一棵被魔法縮小的神奇樹。樹幹（最抽象的概念，比如"整個建築"）在最中心，枝幹（中等層級的概念，比如"餐廳"、"臥室"）向外延伸，每一根樹葉（最具體的元素，比如"那把紅色的椅子"）掛在最外面。越往外，可以掛的樹葉數量以指數級增長，無論你的場景多麼複雜，這棵樹永遠有足夠的枝丫來容納所有細節。

**二、HSG是如何把這棵"神奇的樹"搭建起來的**

HSG的實現依賴於一種被稱為"洛倫茲模型"的數學工具——這是描述雙曲空間最常用的幾種數學語言之一，和愛因斯坦相對論里描述時空的數學結構有幾分相似之處（雖然物理含義完全不同）。在洛倫茲模型里，每個概念被表示為一個多維空間中的點，這個空間滿足一個特殊的方程，使得整個空間具有均勻的負曲率。

贊助商廣告

在這個框架里，"原點"（也就是空間裡最中心的那個點）被賦予了特殊的意義：它代表最抽象、最宏觀的概念，可以把它理解為"世界上所有事物的祖先"，研究團隊稱之為"根節點"（ROOT）。越接近根節點，概念越抽象；越遠離根節點，概念越具體。按照這個設定，"餐廳"這類場所級別的概念應該比"椅子"這類物體級別的概念更靠近根節點。

HSG的第一個核心操作是"把普通數字變成雙曲空間裡的點"。AI在處理圖像時，圖像編碼器（這裡使用的是來自Meta的DINOv2模型，一種經過大規模自監督訓練的強大視覺特徵提取器）會先把每張圖片變成一串普通的數字。然後HSG通過一種叫做"指數映射"的數學操作，把這串數字"搬"到雙曲空間的表面上，就像把一張平整的地圖貼到一個彎曲的球面上一樣。貼上去之後，所有的數字點都嚴格地落在雙曲曲面上，而不是在空間裡到處亂飄。

HSG的第二個核心操作是改造"學習方式"。原有的MSG框架使用餘弦相似度（兩個向量夾角的餘弦值）來衡量兩個概念的相似程度。HSG把這個衡量工具換成了雙曲空間裡的"測地距離"（也就是曲面上兩點之間的最短路徑長度）。這種距離有一個歐幾里得空間沒有的奇妙特性：在雙曲空間裡，隨著層級深度的增加，距離以指數速度拉開，而不是線性增長。這意味著"餐廳"和"椅子"之間的距離，不僅僅因為它們是不同類型的東西而拉大，還會因為它們處於不同的層級而進一步拉開——這正是人類直覺里"場所比物品更宏觀"的數學體現。

研究團隊還特別注意了一個實際工程問題：雙曲函數（cosh、sinh）的值會隨著數值增大而急劇膨脹，很容易超出電腦能處理的數值範圍，產生數值溢出錯誤。為了解決這個問題，HSG在進行指數映射之前，會把輸入向量的大小限制在一個安全範圍內，確保整個計算過程的穩定性。

**三、讓AI真正"懂得"包含關係的法寶：蘊含錐損失函數**

贊助商廣告

僅僅把空間換成雙曲空間還不夠，因為AI在學習時不一定會自動"領會"雙曲空間的層級含義。北京大學團隊的一個重要創新是引入了一種叫做"蘊含錐損失函數"（Entailment Loss）的額外學習目標，主動地把"場所包含物體"這個常識強制編碼進AI的學習過程里。

這個機制的原理可以用一個燈塔和它的照射範圍來理解。在雙曲空間裡，每個"場所"概念（比如"廚房"）都會定義一個從它出發的錐形區域，就像燈塔發出的錐形光束。這個錐形區域被稱為"蘊含錐"，凡是屬於這個場所的物體（比如"灶台"、"冰箱"），它們在雙曲空間裡的位置都應該落在這個錐形區域之內。

更巧妙的是，錐形區域的"張開角度"（專業術語叫"半開角"）並不是固定不變的：越靠近原點的場所，它的錐形張角就越大（覆蓋更廣泛的可能性）；越遠離原點的概念，錐形張角就越小（只覆蓋非常具體的內容）。這完全符合我們的直覺——"整棟建築"可以包含各種各樣的東西，而"某一個具體的書架"只能包含有限的幾種物品。

HSG的蘊含錐損失函數會計算每一個"物體"概念與其對應的"場所"概念之間的"外角"（外角可以理解為物體相對於場所的偏離程度），然後判斷這個外角是否落在場所的蘊含錐範圍之內。如果落在裡面，損失為零（AI已經學對了）；如果跑出了錐形區域，損失就會等於"超出的角度量"，迫使AI調整，把物體的位置"拽"回錐形區域裡來。

研究團隊還引入了一個"開口係數η"來靈活調節蘊含錐的鬆緊程度——η越大，蘊含錐越寬鬆（更容易包含），η越小，要求越嚴格。實驗表明，這個係數的取值對最終結果影響不大，說明HSG對這個參數非常魯棒，不需要花大量時間調參。

最終，HSG的總學習目標由三部分組成：場所級別的對比學習損失、物體級別的對比學習損失，以及蘊含錐損失，三者加權相加，權重比例為1:1:20（蘊含錐損失被賦予了更大的權重，說明層級約束在整個學習過程中占有舉足輕重的地位）。

贊助商廣告

**四、HSG如何把場景圖從圖片裡"拼"出來**

理解了HSG的數學基礎之後，來看看它在實際場景中是怎麼運作的。

假設你手裡有幾十張從不同角度拍攝的同一個公寓的照片，但這些照片沒有任何標註，甚至不知道拍攝順序。HSG的任務是從這些"散亂的照片"里，重建出一張結構化的"場景圖"——裡面記錄了這個公寓裡有哪些地點（客廳、臥室、廚房），每個地點裡有哪些物體（沙發、書架、冰箱），以及哪些照片其實拍的是同一個地點或同一個物體。

整個流程分成幾個步驟。首先，每張輸入照片會同時經過兩條處理通道：圖像編碼器提取整張照片的全局視覺特徵（用來表示"場所"），以及物體檢測器識別出照片裡出現的每一個具體物體。這裡使用的物體檢測器基於DETR（一種用Transformer架構設計的端到端目標檢測模型），通過可學習的"物體查詢"向量和交叉注意力機制，從圖像特徵中提取出每個物體的視覺表示。

然後，這些來自不同照片的場所特徵和物體特徵分別經過HSG的雙曲映射，被送入雙曲空間裡。利用雙曲距離（測地距離），AI判斷哪些照片拍的是同一個地點（場所匹配），哪些檢測到的物體其實是同一個現實中的物體（物體匹配）——就像把散亂的拼圖碎片根據它們在雙曲空間裡的位置關係拼在一起。

對於被判定為同一個物體的多個觀測（來自不同角度的照片），系統會通過"融合"操作把它們的特徵合併成一個統一的全局表示。融合方式可以是簡單的平均，也可以是更複雜的基於注意力機制的加權融合，讓系統更側重於從更清晰、資訊更豐富的視角獲取的特徵。

跨視角的物體匹配藉助了一個額外的指標：廣義交並比（GIoU）。它衡量兩張照片裡檢測到的物體邊界框有多大程度的重疊，配合視覺特徵相似度，共同決定兩個檢測結果是否對應同一個現實物體。最終，通過最優匹配算法（類似於婚戀配對中的穩定婚姻算法），每個預測物體都會被指派給最匹配的真實物體，從而讓場景圖的評估有了公平、可量化的基礎。

贊助商廣告

訓練數據來自ARKitScenes數據集——蘋果公司發布的一個大規模室內場景數據集，包含用iPhone拍攝的大量室內RGB-D（帶深度資訊的彩色）影片。研究團隊從中提取了4492個訓練場景和200個測試場景，兩者沒有任何重疊，保證了評估的公正性。

**五、實驗結果：數字背後的真實故事**

研究團隊設計了一套完整的評估體系，用來量化場景圖的質量。核心評估指標包括三個維度：場所與場所之間連接關係的準確性（PP IoU）、場所與物體之間歸屬關係的準確性（PO IoU），以及整張場景圖綜合質量的圖級交並比（Graph IoU）。這裡的"交並比"可以這樣理解：把預測的場景圖和真實的場景圖各自畫出來，看看它們重疊的部分占總面積的比例——重疊越多，說明預測越準確。

對比的基線模型包括多個版本的MSG變體：SepMSG-Direct（直接用編碼器輸出作為特徵）、SepMSG-Linear（加一層線性變換）、SepMSG-MLP（加一個小型神經網路）、以及不同層數的AoMSG（1層、2層、4層的Transformer解碼器版本）。

結果相當引人注目。在場所檢索的準確性（Recall@1）上，HSG達到了98.39%，與最強基線AoMSG-B-4的98.61%基本持平——這說明HSG在不犧牲基礎檢索能力的前提下，大幅提升了層級結構的表示質量。

最顯著的提升發生在圖結構相關的指標上。HSG的PP IoU達到33.17，Graph IoU達到33.51，而最強的AoMSG基線（AoMSG-1）在這兩個指標上的成績分別為24.87和25.37。換句話說，HSG在場景圖的整體結構質量上比最強競爭對手高出了8個多百分點。在機器學習領域，這樣的提升幅度是非常實質性的進步——研究團隊將其歸功於雙曲空間在編碼層級關係方面的天然優勢。

一個有趣的對照來自SepMSG-Direct：這個基線雖然PP IoU（33.19）和Graph IoU（33.67）與HSG相近，但它的PO IoU（48.58）明顯低於SepMSG-Linear的55.67，而HSG的PO IoU為45.52。這說明不同的方法在不同維度上各有側重，而HSG在各個維度上保持了較為均衡的高水準——場所級別表現優異，整體結構準確，沒有出現"顧此失彼"的情況。

贊助商廣告

曲率參數的選擇對性能有顯著影響。研究團隊發現，曲率初始值在30到250之間時，系統表現比較穩定，最優點出現在80附近。曲率太小（小於等於20），雙曲空間接近於普通平直空間，失去了層級表示的能力；曲率太大（大於等於300），數值計算變得極不穩定，梯度消失，性能驟降。最終選用curv_init = 80作為默認值，並讓這個參數在訓練中可以自動微調。

**六、"裝備檢查"：每個設計選擇有沒有真正起到作用**

在科學研究里，一個好的設計必須經得起"逐一拆解"的考驗——去掉某個組件之後，性能是否真的下滑？北京大學團隊為此進行了一系列消融實驗（也就是"每次去掉一個零件看車還能不能跑"的測試），結果相當清晰。

當把雙曲空間的對比學習目標換回普通的歐幾里得InfoNCE損失函數時，PP IoU從33.2暴跌到21.5（DINOv2-Base作為編碼器時），Graph IoU也大幅下滑。Recall@1雖然仍然較高（96.4%），但圖結構質量慘不忍睹。這說明即使AI在檢索上依然能找到正確的照片，它對場景層級結構的理解卻幾乎蕩然無存——歐幾里得空間真的裝不下層級關係。

當保留雙曲空間但去掉蘊含錐損失函數時，性能下降的幅度相對溫和但依然一致：PO IoU輕微下滑，說明蘊含錐損失在精細化場所與物體的歸屬關係上確實有貢獻，但幅度比替換整個學習框架要小得多。研究團隊由此得出結論：雙曲空間的幾何本身提供了主要的層級結構優勢，而蘊含錐損失則進一步精煉了這種優勢。

將曲率固定為c=1（一個較小的值）而不讓其自由學習時，蘊含錐損失直接"崩潰"為零——因為在如此小的曲率下，蘊含錐的角度計算會退化，層級約束完全失效。PP IoU隨之大幅下降，而Recall@1依然保持較高水平，再次印證了"檢索能力"和"層級結構理解"是兩件需要分別關注的事情。

投影頭的維度（即把編碼器輸出映射到雙曲空間所用向量的長度）也經過了系統測試。512維時，HSG的PP IoU為32.0；1024維時達到峰值33.2；2048維時反而下滑到29.5。相比之下，歐幾里得基線模型（AoMSG-4和SepMSG-Linear）對維度的變化幾乎不敏感，在512到2048之間的變化幾乎微乎其微。這個差異揭示了一個規律：雙曲空間對"容量"的選擇更加敏感，太小會欠擬合，太大會引入冗餘和優化困難，而歐幾里得空間則更為"寬容"。

贊助商廣告

編碼器的選擇同樣接受了全面對比。研究團隊測試了ConvNeXt-Tiny、ConvNeXt-Base、ViT-Base、ResNet-18、DINOv2-Small、DINOv2-Large和DINOv2-Base共七種編碼器。結果顯示，DINOv2-Base（Meta開發的基於自監督學習的視覺Transformer模型）在綜合性能上最強，PP IoU為33.17，Graph IoU為33.51。值得注意的是，DINOv2-Small的Recall@1高達98.08%，卻在圖結構指標上只有16.04的PP IoU——再次證明了單看檢索準確率是不夠的，層級結構的質量才是更難、也更有價值的考驗。總體趨勢是：基於Transformer的現代大模型（DINOv2系列）比CNN架構（ConvNeXt、ResNet）在雙曲場景圖任務上表現更好，大規模自監督預訓練的特徵表示與雙曲空間的層級幾何之間似乎存在更好的配合。

溫度參數τ的影響也經過了細緻測試。τ從0.5下降到0.1時，性能持續提升；在0.1時達到最優；進一步降低到0.01時性能略有下滑。在0.05到0.12的範圍內，HSG表現相當穩定，說明這個參數的調節空間比較寬裕，不需要過於精細的調參工作。

**七、用眼睛驗證：AI的"內心世界"是否真的有層次感**

數字上的提升固然重要，但更直觀的證據來自可視化分析。研究團隊通過兩種方式展示了HSG在層級結構上的真實表現。

第一種方式是繪製"根節點距離分布圖"。對於HSG，根節點就是雙曲空間的原點；對於歐幾里得基線模型，研究團隊用所有訓練嵌入的平均值近似作為"根節點"。然後分別計算所有場所概念和物體概念與根節點的距離，畫出分布直方圖。

在HSG的分布圖裡，場所的距離（均值約0.0584）明顯小於物體的距離（均值約0.0610）——兩個峰值清晰地分開，場所確實更靠近原點。這正是研究設計所期望的：場所作為更抽象的概念，應當離根更近。相比之下，AoMSG和SepMSG的分布圖裡，場所和物體的距離幾乎完全混疊在一起，看不出任何有意義的層級分離——用普通歐幾里得空間學出來的表示，對"誰比誰更宏觀"這個問題毫無感知。

贊助商廣告

第二種可視化方式是追蹤訓練過程中嵌入在龐加萊圓盤（雙曲空間的另一種等價表示，可以畫在二維平面上）上的演化。在訓練初期，場所和物體的點混雜地分布在圓盤中心附近；隨著訓練的推進，場所的點逐漸向圓盤中心靠攏，物體的點則逐漸漂移到更外圍的位置；到訓練結束時，兩類點的分布區域出現了明顯的層次分離。這個視覺上的變化過程清晰地展示了HSG是如何"學會"把層級關係編碼進空間結構里的——不是靠外力強行壓迫，而是在雙曲幾何的引導下自然形成的。

研究團隊還用不同編碼器骨幹重複了這個可視化實驗。使用DINOv2-Base時，分離效果清晰但不極端；使用ConvNeXt-Base時，分離方向甚至出現了反轉（物體比場所更靠近中心），說明編碼器的特徵質量對雙曲空間是否能正確形成層級結構有著關鍵影響；使用ViT-Base時，兩類點的分布高度重疊，幾乎沒有層級感。這從側面解釋了為什麼不同編碼器在最終的定量指標上會出現這麼大的差距。

此外，研究團隊還通過定性實驗展示了HSG在真實影片上的表現：用一個預訓練的Grounding DINO檢測器處理一段真實辦公室環境的影片，HSG成功地將不同角度拍到的同一台顯示器、同一張辦公桌識別為同一個物體，並將它們合理地歸屬到對應的場所節點下，構建出一張連貫的場景圖。這表明HSG不僅在訓練數據集上表現優異，在訓練集以外的真實世界場景里也能產生有意義的輸出。

**八、這項研究還差什麼，未來能走多遠**

北京大學團隊在論文裡相當坦誠地列出了當前方法的局限性，以及他們認為最有價值的改進方向。

首先是曲率的處理方式。當前HSG雖然允許曲率在訓練中自動調整，但整個系統只使用單一的均勻曲率。現實世界的場景結構並非完全均勻——不同區域的層級深度和複雜程度可能差異很大。多階段或自適應曲率優化可能讓系統更靈活地適應這種不均勻性。

贊助商廣告

其次是編碼器和檢測器的能力上限。HSG的最終表現與底層視覺編碼器的質量高度綁定。隨著更強的基礎模型（比如DINOv3或更新的視覺-語言預訓練模型）的出現，以及更準確的開放詞彙檢測器的集成，HSG的天花板有望進一步提升。

第三個方向是與下游任務的聯合優化。目前HSG的場景圖表示是獨立訓練的，尚未與機器人導航、視覺問答等具體下游任務做端到端的聯合優化。如果把場景圖的構建質量直接與機器人能否正確找到目標房間掛鉤，可能會激發出更強的性能。

歸根結底，這項研究做了一件很有意義的事情：它證明了幾何空間的選擇本身就是一種重要的"歸納偏置"——不同的空間形狀天然地支持或阻礙不同類型的知識結構。當我們把AI理解場景的"工作空間"從平坦的歐幾里得平原換成彎曲的雙曲空間，AI就自動獲得了一種"看層級"的視角，而這種視角在普通空間裡需要消耗大量額外資源才能勉強模擬。

對普通人來說，這意味著：未來幫你在家裡找鑰匙的家用機器人、在醫院裡引導病人去正確診室的導航系統、在博物館裡為你講解展品的AR眼鏡，或許都會因為這種"換個空間來理解世界"的思路而變得更聰明、更可靠。當AI的"心智地圖"終於有了和人類直覺相匹配的層級感，它理解世界的方式才會真正接近我們自己的認知方式。

---

Q&A

Q1：雙曲場景圖（HSG）和普通場景圖有什麼區別？

A：普通場景圖（比如MSG框架）把場所和物體都放在平直的歐幾里得空間裡表示，這個空間不能天然地區分"誰比誰更宏觀"。HSG把場所和物體的表示搬到雙曲空間裡，這種空間越往外越寬廣，越靠中心越"抽象"，使得場所（更宏觀）自然靠近中心，物體（更具體）遠離中心，層級關係被空間幾何本身編碼，不需要額外的標註資訊。

Q2：蘊含錐損失函數解決了什麼問題？

A：蘊含錐損失函數解決了"AI怎麼學會場所包含物體"這個問題。它在雙曲空間裡為每個場所定義一個錐形區域，要求屬於這個場所的物體必須落在錐形區域內，否則就產生學習懲罰。越抽象的場所錐形越寬（包容更多），越具體的概念錐形越窄，這與人類對"宏觀概念包含微觀概念"的直覺完全一致。

贊助商廣告

Q3：HSG在實際應用中對普通人有什麼影響？

A：HSG改善的是AI對三維場景層級結構的理解能力，這對機器人導航、家用智能助手、醫院導引系統、增強現實等應用都有直接影響。當AI能正確理解"這個冰箱屬於廚房、廚房在一樓左側"這類層級關係時，它才能更可靠地執行"幫我去廚房拿冰箱裡的蘋果"這類指令。