Meta推出「音頻到表情」SDK，可更好地驅動Avatar的面部表情

Meta 近期為其 Quest 頭顯 v71 系統引入了一項名為「音頻到表情」（Audio to Expression）的新 SDK。這一 AI 模型通過分析用戶的語言和聲音細節，能夠更精準地驅動 Avatar 的面部表情，為用戶帶來更加豐富的虛擬社交體驗。

贊助商廣告

在此之前，Meta Avatar 聲音驅動主要依賴於 Lipsync SDK。然而，Lipsync SDK 的功能相對有限，主要只能實現 Avatar 嘴唇的同步運動，整體表現較為一般。相比之下，「音頻到表情」SDK 則能夠進一步模擬還原說話、大笑、咳嗽等多種表情動作，從而大大增強了 Avatar 的感染力和真實感。

值得一提的是，「音頻到表情」方案並不需要接入面部追蹤系統，因此在硬體開銷方面相較於 Lipsync SDK 也更少。它只需要消耗一小部分 CPU 算力和記憶體資源，即可實現出色的面部表情驅動效果。然而，目前該方案仍無法描繪眼球運動，因此後續 Meta 仍需要引入眼動追蹤技術來進一步完善 Avatar 的表現力。

據悉，「音頻到表情」SDK 可以廣泛應用於 Horizon Worlds、VRChat 等 VR 社交應用中，為用戶帶來更加真實、生動的虛擬社交體驗。