近期,一項聚焦於 Apple Vision Pro 的新專利引發關注,該專利致力於讓設備能夠精準識別用戶的嘴部運動,進而實現僅通過唇讀就能接收指令或完成聽寫功能。
目前,AirPods Pro 已具備一些便捷的交互操作。用戶只需搖頭就能掛斷通話,點頭便可接聽來電。在那些不便開口說話的場景里,搖頭這個動作能清晰傳達拒絕的意圖;而當雙手忙碌卻可以說話時,點頭又能快速完成接聽操作。
而蘋果此次公布的名為「具有聽寫結構的電子設備」的專利申請,將交互的可能性進一步拓展。它設想讓用戶在無法發聲的情況下,依然能夠順利進行聽寫。專利文件明確指出:「當用戶身處公共場所,或是其他需要保持謹慎、注重隱私、維持安靜的環境時,語音聽寫往往會帶來諸多不便。」
同時,這份專利聲明也關注到了嘈雜環境對交互的影響。「某些環境中的背景噪音,會嚴重影響頭戴式設備準確、可靠地識別用戶的語音輸入。」基於此,蘋果認為有必要研發一種能讓用戶輕鬆向其口述內容的頭戴式設備,以解決這一現實難題。
該專利提案涵蓋了多種可能的技術組合方案,旨在全方位、精準地捕捉用戶的意圖。
其中一種方案是在顯示屏框架上安裝朝外向下的視覺傳感器,其專門用途是「檢測嘴部運動」。通過這個傳感器,設備能夠實時捕捉用戶嘴部的細微動作,為唇讀功能提供關鍵數據。
除了視覺傳感器,還可能配備「附加傳感器,用於檢測面部振動或面部變形中的至少一項」。面部振動和變形能夠反映用戶說話時的肌肉運動情況,與嘴部運動數據相互補充,進一步提高識別的準確性。
Apple Vision Pro 還可藉助「內置攝影機,根據眼球注視來判斷輸入選擇」。眼球注視方向往往能夠體現用戶的關注點和意圖,將其與嘴部運動、面部振動等數據相結合,能讓設備更準確地理解用戶的操作需求。
若上述三種方案的冗餘度仍未達到理想要求,還可添加「包括外部攝影機在內的另一傳感器,用於檢測表示確認輸入選擇的手勢」。外部攝影機可以捕捉用戶更廣泛的手部動作,通過識別特定手勢來確認輸入選擇,進一步增強交互的靈活性和準確性。
值得一提的是,專利中提到的最後一部分功能頗具實用性。佩戴者可通過手勢示意自己想要開始口述或停止口述,而在這些手勢之間的任何嘴部動作,都將被設備識別為口述內容。這一設計充分考慮了用戶操作的連貫性和便捷性,讓交互過程更加自然流暢。
然而,這項新技術也帶來了一些潛在問題。目前尚未明確該頭顯是否同時支持常規聽寫功能。這就意味著,即便在沒有信號的情況下,設備可能也會持續處於監聽狀態。即便用戶只是低聲嘟囔,也可能被設備識別,這可能會引發用戶對隱私泄露的擔憂。
但蘋果也提出了一系列應對策略。在語音識別方面,將利用音頻數據來訓練 Apple Vision Pro 識別用戶的語音模式。「訓練功能可包含錄音(例如,說話音量在 40-70 分貝之間的音頻片段,耳語音量在 20-50 分貝之間的音頻片段等)。」通過大量的音頻數據訓練,設備能夠更好地適應不同音量和發音方式的語音輸入,提高識別的準確性。
在視覺數據方面,專利文件補充道:「[或者] 視覺數據可涵蓋包含用戶嘴巴的視野在不同方向或角度下的畫面(例如,從面向用戶的設備獲取的側面視圖,能完整呈現用戶的嘴巴;從下頜處攝影機獲得的向下角度視圖,可部分展示用戶的嘴巴等)。」多角度的視覺數據採集能夠更全面地捕捉嘴部運動資訊,進一步提升唇讀功能的可靠性。