眾所周知,Meta下一個目標就是AR眼鏡,儘管開發AR比VR面臨更多複雜的難題,因此可能還要過一段時間才能看到Meta的AR眼鏡。目前,該公司已推出了第一代Ray-Ban Stories智能眼鏡,特點是搭載的雙攝影機不僅可以拍照,更重要的意圖在於捕捉具有雙目視差的3D數據,進行第一視角的分析和利用,從而推動貼近日常生活的AI應用。
通過Stories,Meta可以了解到穿戴式設備在實際應用中會出現的問題,比如攝影機、傳感器被遮擋,性能下降,捕捉到的3D數據不完整等等。
在最新的論文中,Meta進一步揭秘了Stories採用的3D深度傳感方案,其中包含一種新穎的實時校正算法,一種單目和雙目視差網格協同設計,以及從單目數據導出3D數據集的方式。同時,該方案結合配對手機的GPU來處理3D數據,比如圖像預處理、立體校正和深度估計。
據了解,該方案的重點主要是優化3D深度傳感的性能,同時為了確保準確性,系統還會識別校正數據的可靠程度,不可靠時會退回至單目深度預測模式。另一方面,Meta科研人員希望讓這種3D視圖生成管道適用於更廣泛的設備,包括比較舊的手機型號。
Meta指出,即便使用6年前發布的Galaxy S8手機,CPU計算3D視圖的時間也能低至1秒,而且模型泛化能力比較好。
技術挑戰
科研人員指出,立體視差預測是電腦視覺的基本問題之一,這項技術在多種領域都有廣泛應用,比如AR/VR、計算攝影、機器人和自動駕駛等等。
然而,在端到端深度傳感系統中合成立體圖像面臨許多挑戰,對於移動設備來講,算力是最大的局限。因此,Meta根據手機上有限的算力,設計了這種比較實用的3D圖像處理管道。這也意味著,管道中的步驟需要協同工作,在出現故障或數據不理想時更好的進行調整,校準因不可預見因素對性能的影響(比如高溫、戶外)。
Meta表示:我們希望智能眼鏡足夠通用,因此需要讓更多類型的手機與之匹配,而不能依賴於特定的硬體或機器學習加速模型。而這項研究的主要目標,則是為3D計算攝影帶來最佳的用戶體驗。
解決方案
為了確保3D捕捉的穩定性,Meta研發了一套實時的校正系統,其優勢包括:
- 端到端3D數據處理系統,可動態調整數據處理模式;
- 包含快速、穩定的線上校正算法;
- 3D深度系統和單目深度系統輸出格式相似;
- 在有限的算力下,依然能達到足夠準確。

細節方面,該方案的運算流程如下:將智能眼鏡輸出的3D數據進行出廠校正、去畸變、降採樣(降低兩倍)、HDR包圍曝光,然後在線上校正,校正質量達標後,會輸入到立體CNN網路中,然後進入渲染管道,生成塗層、紋理修復、網格等等。如果校正質量未達標,則退回到單目模式,輸入到單目CNN網路中處理,然後再進入渲染管道,生成新的視角。
當然,在線校準不一定保證可靠性,當一側攝影機被遮擋時,或者攝影機捕捉的特徵數據不足時,便只能退而求其次,通過單目深度網路來預測。不管是雙目深度預測還是單目深度預測,都使用相同的下游處理管道,好處是可以輸出準確性高的相對視差,可以很好的滿足3D捕捉和建模的目的。
另外,在生成深度視差圖後,系統會裁剪最大有效區域,並保持原始的縱橫比,這樣做可以進一步優化3D建模的整體質量。最後一步,則是結合右側相機預測的視差,和相應的彩色圖像,渲染出三維效果。
而在新穎視圖合成部分,Meta使用了基於LDI(分層深度圖像)的方案來創建立體訓練數據集,以創建3D合成效果。參考:Meta