6月17日,Meta介紹了一種「突破性」的生成式語音系統,它可以合成六種語言的語音,執行噪聲消除、內容編輯、轉換音頻風格等。
Meta稱之為最通用的語音生成AI。Meta表示,Voicebox是第一個沒有經過專門針對語音生成的訓練,卻可以泛化到語音生成任務的模型。與圖像和文本的生成一樣,Voicebox可以創建多種樣式的語音輸出,包括從頭開始創建輸出和修改給定的樣本。Voicebox 可以合成六種語言的語音,以及執行噪聲去除、內容編輯、風格轉換和多樣化樣本生成。
Meta表示,Voicebox作為首個能成功執行任務泛化的高效的多功能模型,將開創一個語音生成式AI的新時代。
但Meta也沒有否認這項技術可能被誤用乃至被惡意使用。為了應對這種可能性,降低潛在的風險,Meta 還構建了一種分類器,其宣稱可有效分辨真實語音和VoiceBox生成的音頻。