當前,由於手部遮擋的複雜性和手部運動的多樣性,機器在精準理解手部與物體間交互行為方面仍面臨顯著挑戰。
為了攻克這一難題,Meta Reality Labs 的研究團隊推出了名為 HOT3D(「Hands and Objects Tracking in 3D」的縮寫)的開創性數據集,旨在賦能研究人員構建更為先進的視覺系統,深化對手部與物體交互機制的理解,並推動這一技術在新興應用領域的廣泛集成。
在發布的論文中,研究人員詳細闡述了 HOT3D 數據集的潛力與應用前景:「藉助此數據集,我們設想的系統能夠跨越界限,實現手動技能的即時傳授。系統首先捕捉並記錄專家用戶執行複雜手部與物體交互任務的全過程,如組裝家具或發球等,隨後利用這些捕獲的精準資訊,通過 AR 眼鏡等媒介,為經驗尚淺的用戶提供直觀指導。」
研究人員繼續說道:「更進一步,這些寶貴技能還可實現從人類到機器人的無縫遷移,賦予自主機器人即時學習與模仿人類操作的能力。此外,該系統還能顯著提升人工智慧助手的用戶行為理解能力,同時為 AR/VR 用戶解鎖前所未有的交互體驗,比如將任意物理表面轉化為虛擬鍵盤,或將普通鉛筆轉變為多功能控制手柄。」
HOT3D 數據集匯聚了超過 800 分鐘的自我中心視角影片資料,全面覆蓋了與 33 種日常物品的豐富互動場景。除了基本的拿起、查看、放下等動作外,數據集還精心收錄了廚房、辦公室及客廳等典型生活環境中複雜多變的交互動作,確保數據的廣泛性和深度。
為實現這一數據集的採集,Meta 採用了兩款前沿設備——Project Aria 智能眼鏡與 Quest 3 VR 頭顯,確保了影片數據的高質量與精確度。
鑑於 Meta 在 AI/AR/VR 領域的深厚積累,HOT3D 數據集預計將在訓練和優化 Meta 現有及未來 AI 系統、AR/VR 眼鏡及頭顯的交互體驗方面發揮關鍵作用,推動技術邊界的不斷拓展與革新。