對於AR/VR來講,實時、準確的深度感知有助於實現穩定、良好的混合現實效果,將虛擬內容更好地與物理空間融合。在移動AR場景,我們可以通過手機的ToF、LiDAR傳感器對周圍環境進行3D測距,而AR/VR設備也開始在探索此類傳感器的應用。本文中,Karl Guttag對基於新型3D傳感技術Switching Pixels的VoxelSensor進行了解析,發現此方案快速、準確,甚至技術比現有3D傳感方案還好。
據了解,Switching Pixels由晶圓半導體公司VoxelSensors開發,這是一種3D感知和掃描框架,原理基於LBS雷射掃描,特點是省電(檢測到光才會生成事件)、低延遲、3D傳感效果穩定、適合各種照明條件、可追蹤活動光源或圖案。Switching Pixels的掃描頻率可達100MHz,號稱比其他3D掃描速度快100倍。
Karl認為,Switching Pixels保持對雷射非常敏感的同時,又能排除其它光線。另外,雖然該方案也是在識別到事件後才觸發掃描,但其運行方式不同於常見的「事件相機」。簡單來講,Switching Pixels的區別是專注於識別雷射事件,性能比普通事件相機更好,但也可以使用事件相機的算法。
原理和細節
最開始,Switching Pixels以Lissajous模式快速掃描整個區域,並生成空間圖像。如果空間在掃描過程靜止不動,那麼該方案便會不斷提升解析度。因此可以認為,Switching Pixels的高解析度建立在一系列最新的稀疏掃描數據之上。
據了解,Switching Pixels在不到1毫秒時間內,就能生成掃描範圍內的完整稀疏圖像。相比之下,典型LiDAR方案通常需要16毫秒或更久的掃描時間,再加上數據處理時間,會有一定延遲。因此相比於典型的dToF/LiDAR傳感器,VoxelSensors的方案速度快10倍以上,而且在任何時間捕捉到的圖像解析度都更高。為什麼呢?因為Switching Pixels的測距準確性不像LiDAR那樣受限於光速,也不依賴於大量的光速校準。
如果將兩個Switching Pixels模組結合,便可通過三角測量法來識別精確的3D形狀、位置、輪廓和運動(每納秒生成一個新的立體像素),不需要複雜的圖像處理過程。
只需要不到1毫秒,就可以捕捉到可定位的深度資訊(耗電大約只有幾十毫瓦),幾毫秒後,便可生成密集的深度資訊,用於空間測繪和人機交互。
不過,該方案還在早期演示階段,硬體重量和體積大,還很難與AR/VR頭顯集成。VoxelSensors預計,隨著Switching Pixels體積不斷縮小,未來計劃在AR/VR中集成兩個這樣的模組,來實現3D掃描。
結合OQmented技術
去年12月,VoxelSensors曾宣布與LBS和3D傳感方案商OQmented合作,開發可集成AR/VR系統的3D雷射掃描傳感器。該傳感器將結合OQmented的Lissajous模式的MEMS掃描鏡,與每幀逐行工作的光柵掃描相比,Lissajous軌跡掃描速度更快,並且能耗很低,它可以更快地捕獲完整的場景和快速移動,並且需要更少的數據處理,可滿足AR/VR對於低延遲、高效率的需求。
多年來,OQmented也一直在嘗試利用Lissajous掃描工藝來製造LBS顯示模組,不過Guttag認為,基於Lissajous顯示模組意義不大,也沒有競爭力。反而是3D傳感器方案可能會帶來更大價值。因此他建議,OQmented應該專注於研發感知技術,而不是顯示技術。
對比常見的AR/VR 3D傳感方案
Guttag指出,3D傳感的基本目標是生成由XYZ三個維度立體像素組成的點雲,並在其中定位現實世界中的物理對象。在AR/VR領域,有以下集中常見的3D感知技術:
1,光學定位(基於可見光或IR)
利用一個或多個攝影機捕捉圖像,並輸入到圖像處理和結構預測算法中,來推算2D/3D定位。如果使用多個相機、捕捉多幀圖像,便可以梳理出深度資訊。
這是最常見的、且成本最低的3D傳感方式,但只具有一定程度的3D感知能力,尤其是深度感知的解析度和精度很低,需要大量處理過程。
此外,還受到攝影機刷新率、圖像處理延遲的限制,因此監測深度速度慢,通常需要多幀圖像才能捕捉深度。
2,結構光
該方案會投射一個或多個光圖案(常常為紅外光),然後再使用一個或多個相機(或紅外相機)捕捉。通過處理結構光圖案的變形程度,來提取3D資訊。
微軟Kinect就是基於結構光方案,其基於PrimeSense開發的3D感知技術(該公司在2013年已經被蘋果收購),iPhone、iPad上的Face ID功能也是基於該技術。
通常,結構光可以很好的識別深度,而且資訊處理時間短。不過在掃描過程中,單結構光模組(例如iPhone X)可能需要移動,才能獲得準確的結構。
3,掃描型LiDAR
簡單來講,該方案的原理是發射一束IR光線,通常是雷射(或高度聚光的lED),然後檢測這束光返回傳感器(一個或多個)所需的時間,並根據光速來計算距離。在具體應用中,它需要在X和Y方向發射一個或多個脈衝光束,以在X和Y軸上定位,而Z軸,也就是深度,則是通過計算光返回的時間來測量。
也就是說,該方案通常會搭配光束掃描模組,比如由電機驅動的旋轉雷射陣列、MEMS掃描鏡、震動衍射光柵等等,
缺點是掃描過程比較緩慢,多數超過1/60秒。深度測量上受到如發光、傳感和測量光速(大約每納秒30厘米)的整套系統準確性而存在影響。
由於雷射的輸出強度與人眼安全息息相關,因此該傳感方案需要在掃描距離、速度、解析度、靈敏度、降噪等方面需要作出權衡。比如Intel RealSense L515就是基於LiDAR方案,掃描頻率約1/30秒,解析度根據掃描距離而變化。值得注意的是,初代Quest Pro發布前,曾計劃採用Intel RealSense傳感器。
4,固態、ToF、LiDAR組合
對比基於狹窄雷射束的掃描方案,這個組合方案結合了衍射光柵等技術,使用單個寬光束,或是細光束陣列來掃描整個場景。
此外,該方案配備了測量X、Y距離的微型ToF傳感器,常用於手機、AR/VR等設備中。
在實際應用中,固態LiDAR的解析度取決於ToF相機的解析度(結合運動資訊後,可逐漸提高解析度)。值得注意的是,單個傳感器通常需要捕捉更多光子,才能實現傳感,因此需要更長時間。也就是說,該系統檢測的物體距離越遠,幀速率就越慢,尤其是在AR/VR場景中。比如,HoloLens 2可能需要1秒鐘才能識別到較遠的距離。
對比VoxelSensors和其他主動傳感技術
結論
對比上述典型的3D傳感方案,VoxelSensors主要優勢如下:
◎ 初始運動檢測更快,約1毫秒(其他方案大約要16-33毫秒);
◎ 對比簡單的三角測量、光速測量、大規模立體圖像處理方式,VoxelSensors在深度計算的精度、速度、功率等方面具有優勢;
◎ Switching Pixels靈敏度高,可實現更高的幀速率、更遠的掃描距離、對人眼也更安全。
儘管如此,VoxelSensors當前劣勢也很明顯,就是體積非常大。
接下來還需要進一步縮小硬體體積,降低成本,才能比現有的ToF傳感方案更有競爭力。參考:VoxelSensor、KG