想像一下,你站在一座熟悉的建築物前,無論是教堂、雕像還是廣場,即使你未曾從所有角度觀察過它,你也能輕易想像它從不同角度的面貌。這是人類獨有的「空間理解」能力,我們能基於以往經驗填補細節、推斷未知。然而,對於機器而言,這項任務卻異常艱巨。即使是當今最先進的AI模型,也難以想像場景的缺失部分或重新角度觀測。
但這種情況即將改變。空間智能,將是AI模型的下一個「frontier」(新領域)。
Niantic,作為AR領域的先驅,正致力於構建「大型地理空間模型 (LGM)」。LGM將利用大規模機器學習來理解場景,並將其與全球數百萬個場景連接起來,賦予機器如同人類般的空間理解能力。
Niantic是一家美國軟體開發公司,以其開發的增強現實 (AR) 遊戲聞名,最知名的作品是《Pokémon GO》和《Ingress》。
Niantic成立於2010年,最初是Google內部的創業公司,後來獨立出來。公司的使命是「利用科技增進人們與世界、彼此之間的互動」。Niantic相信AR技術有潛力創造更有趣、更具互動性的體驗,鼓勵人們探索周邊世界並與他人創建連接。
除了遊戲開發,Niantic也致力於構建AR技術的基礎設施,例如其開發的Lightship平台,讓開發者能更輕鬆地創造AR體驗。Niantic的願景是打造一個「真實世界元宇宙」,將數字世界與現實世界融合,創造更豐富、更具互動性的生活體驗。
近年來,大型語言模型 (LLM) 的發展對我們的生活和各個產業產生了不可否認的影響。LLM通過學習大量的文本數據,展現出驚人的語言理解和生成能力,挑戰了我們對「智能」的認知。
而LGM的目標,則是幫助電腦以同樣先進的方式感知、理解和導航現實世界。如同LLM學習文本數據,LGM則學習大量的地理空間數據:數十億張錨點於精確地理位置的真實世界圖像,這些數據經過模型的萃取和學習,最終形成對空間、結構和物理互動的深度理解。
從基於文本的模型到基於3D數據的模型,反映了近年來AI發展更廣泛的發展軌跡:從理解和生成語言,到解讀和創造靜態和動態圖像(2D視覺模型),再到如今方興未艾的3D物體建模(3D視覺模型)。
LGM比3D視覺模型更進一步,它捕捉的是根植於特定地理位置、具有真實比例的3D實體。與生成無比例3D資產的3D生成模型不同,LGM與真實世界的比例尺度綁定,能確保精確的尺寸估計。因此,LGM所代表的是新一代的地圖,而非任意的3D資產。
3D視覺模型或許能夠創造和理解3D場景,但LGM卻能理解該場景與全球數百萬個場景的地理關係。LGM賦予機器「地理空間智能」,使其能夠從先前的觀察中學習,並將知識遷移到新的位置,即使這些位置只有部分被觀察到。
雖然搭載3D圖形的AR眼鏡距離大規模普及尚需數年,但LGM仍有機會與純音頻或2D顯示眼鏡集成。LGM可以引導用戶探索世界、回答問題、提供個性化推薦、輔助導航,並增強現實世界的互動。
此外,LGM與LLM的集成,將使空間理解和語言理解相結合,讓人們更深入地了解周邊環境,並與其互動。LGM所帶來的地理空間智能,還能生成、完善或操控3D世界模型,進一步推動AR體驗的發展。
除了遊戲領域,LGM還將廣泛應用於空間規劃與設計、物流、群眾參與和遠程協作等領域。
過去五年,Niantic一直致力於構建「視覺定位系統 (VPS)」。VPS利用手機拍攝的單張圖像,通過由用戶掃描的3D地圖,精確判斷手機的位置和方向。
藉助VPS,用戶可以厘米級的精度將自己定位於真實世界中,並查看與物理環境精確疊合的數字內容。這些內容是永久存在的,即使你離開後,它們仍會留在原地,並可與他人分享。例如,Niantic最近在Pokémon GO中推出了一項名為「Pokémon Playgrounds」的實驗性功能,用戶可以在特定位放置置Pokémon,其他玩家也能看到並與之互動。
Niantic的VPS創建在用戶掃描的基礎上,這些掃描來自不同的視角、不同的時間,甚至跨越數年,並附帶精確的定位資訊,構成了對世界的高度精細理解。這些數據的獨特之處在於,它們來自行人的視角,涵蓋了汽車無法到達的地方。
目前,Niantic在全球擁有1000萬個掃描地點,其中超過100萬個已激活,可供VPS服務使用。每周,Niantic都會收到約100萬份新的掃描數據,每份數據包含數百張獨立圖像。
在VPS的研發過程中,Niantic不僅使用傳統的3D視覺技術(如運動恢復結構),還為每個地點構建了一種新型的「神經地圖」。這些基於Niantic研究論文ACE (2023) 和ACE Zero (2024) 的神經模型,不再使用傳統的3D數據結構來表示位置,而是將其隱式編碼在神經網路的可學習參數中。這些網路可以將數千張地圖圖像快速壓縮成精簡的神經表示,並根據新的查詢圖像,提供厘米級精度的位置定位。
迄今為止,Niantic已經訓練了超過5000萬個神經網路,其中多個網路可以共同作用於同一個位置。所有這些網路加起來,包含超過150兆個參數,並通過機器學習進行優化。
Niantic目前的神經地圖,作為VPS的一部分,已經是一個可行的地理空間模型。它規模龐大,且已投入實際應用。然而,Niantic對「大型地理空間模型」的願景,遠不止於目前的獨立局部地圖系統。
完全局部的模型,可能缺乏對其所在位置的完整覆蓋。無論在全球範圍內有多少數據,局部數據往往是稀疏的。局部模型的主要缺陷,是無法推斷超出其觀察範圍的資訊。因此,局部模型只能定位與訓練數據相似的視角。
想像你站在一座教堂後面。假設最近的局部模型只見過教堂的正面入口,那麼它就無法判斷你的位置,因為它從未見過教堂的背面。但在全球範圍內,Niantic已經見過成千上萬座教堂,它們都被各自的局部模型捕捉下來。儘管每座教堂都不同,但它們仍有許多共同特徵。LGM正是為了利用這些分布式知識而生。
LGM將共同資訊提煉到一個全球大型模型中,實現局部模型之間的資訊共享。LGM能夠內化「教堂」的概念,以及這些建築的常見結構。即使在特定位置,VPS只搭建了教堂的入口,LGM也能根據其先前對數千座教堂的觀察,智能地推測教堂背面的面貌。因此,即使在VPS從未見過的視角和角度,LGM也能實現前所未有的定位穩健性。
這種全球模型,基於地理空間和視覺數據,構建了對世界的集中式理解。LGM通過在全球範圍內插值,實現局部推斷。
上述過程,與人類感知和想像世界的方式非常相似。人類天生就能識別先前見過的物體,即使從不同的角度。例如,我們可以輕易地在歐洲古城的蜿蜒街道中找到來時的路,即使我們只見過一次,且方向相反。這需要對物理世界和文化空間的深刻理解,對人類來說輕而易舉,但對傳統的機器視覺技術而言卻極具挑戰性。
這需要掌握一些基本的自然規律:世界由具有實體的物體組成,因此有正面和背面;外觀會隨著時間和季節變化。同時,這也需要大量的文化知識:許多人造物體的形狀遵循特定的對稱規則或其他通用布局,而這些規則通常與地理區域相關。
早期的電腦視覺研究,試圖破譯這些規則,並將其嵌入到人工設計的系統中。但現在,人們普遍認為,只有通過大規模機器學習,才能實現我們渴望的高度理解。這正是Niantic構建LGM的目標。
在Niantic最近的研究論文MicKey (2024)中,我們已經看到了這種令人印象深刻的相機定位能力。MicKey是一個神經網路,即使在視角劇烈變化的情況下,也能夠定位兩個相機視圖的相對位置。
即使是人類也需要花費一些精力才能判斷的相反視角,MicKey也能輕鬆應對。MicKey只使用了Niantic數據的一小部分進行訓練,且該數據已向學術界公開,以鼓勵這方面的研究。儘管MicKey僅限於雙視圖輸入,且訓練數據相對較少,但它仍然證明了LGM的潛力。
顯然,要實現本文所述的地理空間智能,需要大量的地理空間數據,而這類數據並非所有機構都能獲取。Niantic每周都會收到超過100萬份用戶貢獻的真實世界地點掃描數據,這使得Niantic在引領LGM發展方面處於獨特地位。
LGM的用途,不僅僅是定位。為了準確地解決定位問題,LGM必須將豐富的幾何、外觀和文化資訊編碼到場景級特徵中。這些特徵將帶來場景表示、操控和創造的新方法。像LGM這樣用途廣泛的大型AI模型,通常被稱為「基礎模型」。
不同類型的基礎模型將互為補充。LLM將與多模態模型互動,而多模態模型又將與LGM進行通信。這些系統協同工作,將以任何單一模型都無法實現的方式理解世界。這種互聯,正是空間運算的未來——能夠感知、理解和作用於物理世界的智慧系統。
隨著模型的可擴展性不斷提高,Niantic的目標仍然是引領大型地理空間模型的發展,並在任何地方為用戶提供新穎、有趣且豐富的體驗。如前所述,除了遊戲領域,LGM還將廣泛應用於空間規劃與設計、物流、群眾參與和遠程協作等領域。
從LLM到LGM,是AI進化的又一步。隨著AR眼鏡等可穿戴設備的普及,未來的世界作業系統,將依賴於物理現實和數字現實的融合,創造一個以人為中心的空間運算系統。