我們知道,Meta為了給AR眼鏡打造智能助手,專門開發了第一人稱視覺模型和數據集。與此同時,該公司也在探索一種將視覺和語音融合的AI感知方案。相比於單純的語音助手,同時結合視覺和聲音數據來感知環境,可進一步增強智能助手的能力,比如模擬人類感知世界的方式,來理解聲音在空間的傳播方式。
Meta表示:在元宇宙社交、AR觀影等多種場景中,聲音都扮演了重要的角色。為了滿足沉浸式AR/VR場景的需求,Meta決定採用AI來實現高保真的音質,並與沉浸的空間逼真匹配。
為此,Meta AI科研人員和Reality Labs音頻專家、德克薩斯大學奧斯汀分校科研人員合作,開發了三個專為AR/VR打造的聲音合成AI模型:Visual Acoustic Matching Model(視聽匹配模型)、Visually-Informed Dereverberation(基於視覺資訊的抗混響模型)、VisualVoice(利用視聽提示將對話和背景音區分)。它們特點是可對影片中人類對話和聲音進行視聽理解,並與3D空間定位進行匹配,實現沉浸的空間音頻效果。
簡單來講,這種AI模型根據外觀和聲音來理解物理環境。我們知道,聲音在不同的物理空間中聽起來也會有不同,比如在山洞裡你會聽到自己說話的回聲,而在音樂廳和客廳兩種不同規模的空間中,聲音傳播效果也不相同。這是因為,聲音傳播路徑受到空間結構、材料和表面紋理、距離等因素影響,因此聽起來會有所不同。
一,Visual Acoustic Matching Model(視聽匹配模型)
在這個模型中輸入在任何場景錄製的音頻片段,以及一張目標場景的圖像,便可以將錄音片段與目標場景融合,音頻聽起來就像是在目標場景中錄製的那樣。比如,可以將洞穴中錄製的音頻與餐廳圖像融合,輸出的語音聽起來就會像在餐廳中錄製的那樣。
通常在看一段影片時,如果影片的聲音和視覺不匹配(不符合傳統認知),會造成不自然的體驗,人可以輕易發現這種差異,並認為影片聲音為後期配音。
利用聲音模型,科研人員可模擬聲音在房間中傳播產生的脈衝,來重現空間的聲學效果。但這種方式需要結合空間3D網格,來測定空間的幾何結構、材料屬性。在大多數情況下,這些資訊並不是已知的,因此聲學模型難以實現。
科研人員指出,也可以根據在特定空間中捕捉的音頻,通過聲音在目標空間中產生的混響,來預測聲學特性,但缺點是智能獲得有限的聲音資訊,因此模擬效果通常不夠好。
為了解決上述問題,Meta科研人員創建了一個名為AViTAR的自監督視聽匹配模型,特點是可通過調整音頻,來與目標圖像中的空間匹配。AViTAR是一個交叉感知模式轉化模型,它可以通過複合模式推理,將輸入的視聽數據轉化成視覺和聽覺匹配的高保真數據。此外,AViTAR模型可利用任意網路影片,來進行自我監督訓練,練習匹配聲音和圖像。
Meta為AViTAR創建了兩個數據集,其中一個建立在開源AI視聽平台SoundSpaces基礎上,另一個數據集包含了29萬個公開可用的英語對話影片(3到10秒片段)。據悉,SoundSpaces是Meta在2020年開源的AI平台,其特點是建立在虛擬仿真平台AI Habitat之上,可模擬高保真、逼真的聲源,並插入到Replica、Matterport3D等開源的真實場景掃描環境中。
這兩個數據集主要包含了室內場景中的對話,目的是為了探索未來AI語音和視覺助手在室內的應用場景。細節方案,數據集中的影片拍攝也有要求,麥克風和攝影機在同一個位置,並且遠離聲源。
為了訓練AI模型識別聲音和場景不匹配,Meta科研人員還製作了一系列音畫不匹配的隨機合成影片,並加入噪聲。
利用這些數據,科研人員驗證了視聽匹配模型的效果,結果發現該模型可成功將對話與目標圖像場景融合,效果比傳統的純音頻聲學匹配方案更好。
二,Visually-Informed Dereverberation(基於視覺資訊的抗混響模型)
和上一個模型相反,Visually-Informed Dereverberation(VIDA)專注於消除混響,比如去除聲音在洞穴中傳播產生的回聲。該模型根據視聽提示,來優化、篩選音頻中的混響。在熱鬧的火車站場景中,該模型可以提取小提琴演奏的聲音,並去除小提琴聲與火車站場景交互而產生的迴響,好處是可以讓小提琴聲音聽起來更純粹。
在AR場景重現時,更沉浸、純粹的聲音可以讓第一人稱觀看體驗更加保真。
我們知道,回聲指的是聲源發出聲波併到達場景中各表面後反射的現象。將回聲、環境音、原聲等聲音混合併依次進入人耳的過程,則被視為混響。混響、回聲通常會降低音頻質量,降低人耳感知和分辨聲音的能力。比如當你在大課堂給老師錄音時,通常也會將同學產生的噪音收錄進去。這種混響也會影響語音識別的準確性。
去除混響後,便可以增強聲音的重點,幫助自然語言模型更好的識別對話,並生成更準確的字幕。
此前,人們通常直接處理音頻來消除混響,但這並沒有考慮到環境的完整聲學特性。為了提升消混響的效果、更自然增強音頻,Meta科研人員提出了搭配視覺分析的方案:VIDA,也就是說利用視覺數據來輔助混響消除。
VIDA模型基於視聽數據來訓練,可通過識別空間結構、材質和揚聲器等線索,來消除混響。
三,VisualVoice(利用視聽提示將對話和背景音區分)
VisualVoice模型利用視聽提示,來區分對話和背景音,其好處是可以幫助人和AI更好的聽清對話,從而提升多人VR社交的溝通效率、實時字幕效果等等。
Meta設想了一個未來場景,即人們通過AR眼鏡以第一人稱視角,重溫沉浸的全息回憶,並獲得保真的視覺和聲音體驗。或是在VR遊戲中,空間音頻可進一步增強沉浸感。
這個模型同時通過視聽數據來分析對話,Meta認為,這項技術是改善人機感知的重要因素。
Meta指出,在複雜環境中,人類可以比AI更好的理解對話,這是因為人不止會用耳朵聽,也會用眼睛輔助。舉個例子,當你周圍有人說話時,你可以用耳朵聽到他的聲音和聲音來源,同時也可以用眼睛來定位這個說話人的具體位置。
因此,Meta AI決定開發一個同時模擬視覺和聽覺感知的多模式對話模型,幫助AI更好的分析視覺和語音之間的細微關聯。即使使用未標記的影片,也能訓練VisualVoice模型提取對話中的視聽資訊。
未來應用場景
Meta表示:利用這些智能的AI語音分割模型,未來虛擬助手可以隨時隨地聽到你的指令,不管是在音樂會、熱鬧的聚會還是其他環境音量大的場景。
接下來,若想要為AR/VR構建更加沉浸的體驗,將需要這種多模式的AI模型,才能模擬人類感知的方式,通過音頻、影片、文本等信號來更好的理解周圍環境。
為了繼續優化AViTAR、VITA等模型,Meta未來將使用影片來訓練AI捕捉空間聲學特性。參考:fb