深入了解Fugatto
NVIDIA開發全新生成式AI模型「Fugatto」,以文本和音頻輸入來創造聲音、對話及音樂。
Fugatto(全名為Foundational Generative Audio Transformer Opus 1)運用文本和音頻文件,將提示描述轉換成聲音、對話及音樂的任意組合。可根據文本提示產生一段音樂,從現有歌曲獨立出人聲部分,改變說話的口音或語氣,甚至合成前所未有的聲音。
NVIDIA枚舉Fugatto的應用場景,例如音樂製作人可用Fugatto加速歌曲製作,嘗試不同風格、聲音及樂器,還能添加音效、提升現有歌曲整體音頻品質。
面對不同地區和市場的宣傳需求,廣告公司可用Fugatto產生不同口音或語氣的廣告配音。語言學習工具能夠個性化,使用用戶選擇的聲音來發音。還有電玩遊戲開發者也能用Fugatto修改預先錄製的聲音數據,對應玩家遊戲時不斷變化的動作,或者根據文本提示和可選音頻產生新的聲音資產。
「我們希望創建一個能夠像人類一樣理解和生成聲音的模型」,NVIDIA應用音頻研究經理Rafael Valle表示,他是開發Fugatto十多人團隊的成員之一,同時也是一位管弦樂作曲家與指揮家。「Fugatto是我們邁向未來的第一步,音頻合成和轉換中的無監督多任務學習將根據數據和模型規模而產生」,他說。
新模型Fugatto介紹和示範。
Fugatto創建在開發團隊先前在語音建模、音頻聲碼及音頻理解等領域的工作基礎上,宣稱以開源數據進行訓練。完整版本使用25億參數,並在一組包含32個NVIDIA H100 Tensor Core GPU的DGX系統訓練而成。
這項開發工作最困難的部分是產生一個混合數據集,包含數百萬個用於訓練的音頻樣本。開發團隊採用多面向策略來產生數據和指令,擴展該模型可執行的任務範圍,做到更準確的性能,同時無需額外數據就能完成新任務。
在推理過程中,Fugatto使用名為ComposableART的技術,以組合只在訓練期間單獨看到的指令,這方面具體應用如要求Fugatto用法國口音說出帶有悲傷情緒的文本。
值得一提的是,Fugatto由來自世界各地的成員合力研究,包括印度、巴西、中國、約旦及韓國,大家通力合作使Fugatto多語言和多口音能力變得更強。
雖然Fugatto尚未開放測試,NVIDIA深度學習應用研究副總裁Bryan Catanzaro則認為,生成式AI將為音樂、電玩遊戲及想要創造新事物的一般人帶來新能力。
(首圖來源:pixabay)