Meta 發布突破性生成式語音系統，一個通用模型解決多項任務

6月17日，Meta介紹了一種「突破性」的生成式語音系統，它可以合成六種語言的語音，執行噪聲消除、內容編輯、轉換音頻風格等。

贊助商廣告

Voice box: can synthesize multiple voices from text, clean up speech, can use a voice recording to synthesize the same voice in another language, etc. From Meta AI.

Meta稱之為最通用的語音生成AI。Meta表示，Voicebox是第一個沒有經過專門針對語音生成的訓練，卻可以泛化到語音生成任務的模型。與圖像和文本的生成一樣，Voicebox可以創建多種樣式的語音輸出，包括從頭開始創建輸出和修改給定的樣本。Voicebox 可以合成六種語言的語音，以及執行噪聲去除、內容編輯、風格轉換和多樣化樣本生成。

Meta表示，Voicebox作為首個能成功執行任務泛化的高效的多功能模型，將開創一個語音生成式AI的新時代。

但Meta也沒有否認這項技術可能被誤用乃至被惡意使用。為了應對這種可能性，降低潛在的風險，Meta 還構建了一種分類器，其宣稱可有效分辨真實語音和VoiceBox生成的音頻。