當前主流AR智能眼鏡普遍存在交互滯後問題,設備僅能被動識別用戶視線動作,始終處於「被動跟隨」狀態,影響沉浸式使用體驗。針對這一行業痛點,美國喬治亞理工學院交互計算學院團隊推出全新研究成果,依託3D空間視線預測技術,讓AR設備主動預判用戶視覺動向,實現無縫流暢的人機交互。
據了解,過往視線預測研究大多依託2D靜態圖像開展,難以適配真實複雜的三維動態場景。而本次研究突破性搭建專屬3D技術框架,貼合人類身處立體空間、視角動態變換的真實行為邏輯,聚焦追蹤用戶在三維環境中的注意力路徑,徹底擺脫2D預測的技術局限,更貼合現實交互場景。

研究團隊創新搭建全新任務模型,以佩戴者所處3D環境為基準構建坐標系,實現多視角下穩定一致的視線目標預測。同時結合過往影片畫面、頭部姿態數據與視線觀測資訊作為輸入,依託自研Transformer架構,精準捕捉第一人稱視角的動態變化與視線連續特徵。
實測數據顯示,這套創新方案可穩定預測用戶未來3秒內的視線軌跡,極限場景下預測時長可達10秒。充足的預判時間,能夠支撐AR系統提前完成場景渲染、資源加載,無需被動響應用戶操作,從根源上解決畫面延遲、交互卡頓等問題。






