蘋果Vision Pro新專利：未來或將支持讀取唇語

近期，一項聚焦於 Apple Vision Pro 的新專利引發關注，該專利致力於讓設備能夠精準識別用戶的嘴部運動，進而實現僅通過唇讀就能接收指令或完成聽寫功能。

贊助商廣告

目前，AirPods Pro 已具備一些便捷的交互操作。用戶只需搖頭就能掛斷通話，點頭便可接聽來電。在那些不便開口說話的場景里，搖頭這個動作能清晰傳達拒絕的意圖；而當雙手忙碌卻可以說話時，點頭又能快速完成接聽操作。

而蘋果此次公布的名為「具有聽寫結構的電子設備」的專利申請，將交互的可能性進一步拓展。它設想讓用戶在無法發聲的情況下，依然能夠順利進行聽寫。專利文件明確指出：「當用戶身處公共場所，或是其他需要保持謹慎、注重隱私、維持安靜的環境時，語音聽寫往往會帶來諸多不便。」

同時，這份專利聲明也關注到了嘈雜環境對交互的影響。「某些環境中的背景噪音，會嚴重影響頭戴式設備準確、可靠地識別用戶的語音輸入。」基於此，蘋果認為有必要研發一種能讓用戶輕鬆向其口述內容的頭戴式設備，以解決這一現實難題。

該專利提案涵蓋了多種可能的技術組合方案，旨在全方位、精準地捕捉用戶的意圖。
其中一種方案是在顯示屏框架上安裝朝外向下的視覺傳感器，其專門用途是「檢測嘴部運動」。通過這個傳感器，設備能夠實時捕捉用戶嘴部的細微動作，為唇讀功能提供關鍵數據。

除了視覺傳感器，還可能配備「附加傳感器，用於檢測面部振動或面部變形中的至少一項」。面部振動和變形能夠反映用戶說話時的肌肉運動情況，與嘴部運動數據相互補充，進一步提高識別的準確性。

Apple Vision Pro 還可藉助「內置攝影機，根據眼球注視來判斷輸入選擇」。眼球注視方向往往能夠體現用戶的關注點和意圖，將其與嘴部運動、面部振動等數據相結合，能讓設備更準確地理解用戶的操作需求。

贊助商廣告

若上述三種方案的冗餘度仍未達到理想要求，還可添加「包括外部攝影機在內的另一傳感器，用於檢測表示確認輸入選擇的手勢」。外部攝影機可以捕捉用戶更廣泛的手部動作，通過識別特定手勢來確認輸入選擇，進一步增強交互的靈活性和準確性。

值得一提的是，專利中提到的最後一部分功能頗具實用性。佩戴者可通過手勢示意自己想要開始口述或停止口述，而在這些手勢之間的任何嘴部動作，都將被設備識別為口述內容。這一設計充分考慮了用戶操作的連貫性和便捷性，讓交互過程更加自然流暢。

然而，這項新技術也帶來了一些潛在問題。目前尚未明確該頭顯是否同時支持常規聽寫功能。這就意味著，即便在沒有信號的情況下，設備可能也會持續處於監聽狀態。即便用戶只是低聲嘟囔，也可能被設備識別，這可能會引發用戶對隱私泄露的擔憂。

但蘋果也提出了一系列應對策略。在語音識別方面，將利用音頻數據來訓練 Apple Vision Pro 識別用戶的語音模式。「訓練功能可包含錄音（例如，說話音量在 40-70 分貝之間的音頻片段，耳語音量在 20-50 分貝之間的音頻片段等）。」通過大量的音頻數據訓練，設備能夠更好地適應不同音量和發音方式的語音輸入，提高識別的準確性。

在視覺數據方面，專利文件補充道：「[或者] 視覺數據可涵蓋包含用戶嘴巴的視野在不同方向或角度下的畫面（例如，從面向用戶的設備獲取的側面視圖，能完整呈現用戶的嘴巴；從下頜處攝影機獲得的向下角度視圖，可部分展示用戶的嘴巴等）。」多角度的視覺數據採集能夠更全面地捕捉嘴部運動資訊，進一步提升唇讀功能的可靠性。