
位於帕洛阿爾托的 AI 初創公司 Zyphra 本周推出了一對開放的文本轉語音(TTS)模型,據稱只需五秒鐘的樣本音頻即可克隆你的聲音。在我們的測試中,我們用不到半分鐘的錄音生成了逼真的結果。
這家初創公司由 Danny Martinelli 和 Krithik Puthalath 於 2021 年創立,旨在構建一個名為 MaiaOS 的多模態代理系統。迄今為止,這些努力已經發布了其 Zamba 系列的小型語言模型、如樹注意力等優化,以及現在發布的 Zonos TTS 模型。
每個模型的參數規模為 16 億個,訓練數據超過 20 萬小時,包括有聲書敘述等中性語調的語音和「高度表現力」的語音。根據 Zonos 的發布說明,其大部分數據為英語,但也有「相當數量」的中文、日語、法語、西班牙語和德語。Zyphra 告訴 El Reg,這些數據是從網路上獲取的,並非從數據經紀人處獲得。
實際上,結果是兩個 Zonos 模型:一個完全基於 Transformer 架構,另一個是結合了 Transformer 和 Mamba 狀態空間模型(SSM)架構的混合模型。Zyphra 聲稱後者是第一個使用這種架構的 TTS 模型。雖然基於 Transformer 的模型無疑是當今生成式 AI 中最常用的,但像 Mamba 這樣的替代架構也在逐漸流行。
從實用的角度來看,這兩個模型的行為與其他文本轉語音模型類似。但與 ElevenLabs 和其他公司開發的模型不同,Zyphra 選擇在 Hugging Face 上以寬鬆的 Apache 2.0 許可證發布其模型權重。
進行測試
Zyphra 提供了一個演示環境,你可以在其網站上試用 Zonos 模型,並提供付費的 API 訪問和訂閱計劃。但如果你不願意將自己的聲音上傳到一個隨機初創公司的伺服器上,本地運行模型相對容易。
我們稍後會詳細介紹如何設置,但首先,讓我們看看它在實際應用中的表現。
為了測試,我們在一張 Nvidia RTX 6000 Ada Generation 顯卡上本地啟動了 Zyphra 的 Zonos 演示。然後,我們上傳了 20 到 30 秒的自己朗讀隨機文本片段的錄音,並將其輸入到 Zonos-v0.1 Transformer 和混合模型中,同時輸入大約 50 個單詞的文本提示,所有超參數保持默認。目標是讓訓練好的模型根據提供的樣本錄音和提示預測你的聲音,並將其輸出為音頻文件。
使用 24 秒的樣本片段,我們能夠實現一個足以欺騙親友的聲音克隆——至少在第一次聽時是這樣。在揭示該片段是 AI 生成的之後,他們確實指出語速和節奏感覺有些不對,並且他們相信如果是更長的片段,他們會發現音頻並不真實。
你可以自己聽聽,這裡有兩個片段。第一個樣本是一個真實的人類錄音,你謙遜的作者正在朗讀 H.G. Wells 的《時間機器》,而第二個是 AI 生成的克隆,朗讀 Jules Verne 的《海底兩萬里》。
人類樣本:
MP3 音頻
使用非混合模型生成的 AI 音頻:
MP3 音頻
語速和語音都是可以控制的參數,Zonos 支持音頻前綴,這允許更動態的範圍,如耳語。
在其文檔中,Zyphra 聲稱其混合 Transformer-Mamba 模型的性能比純 Transformer 模型快約 20%。這種加速在較短的提示中不太明顯,但我們可以說兩種模型的聲音確實有顯著差異。
至少在我們聽來,混合模型生成的音頻略顯精緻,這反而在某種程度上削弱了克隆聲音的真實性。然而,聽自己的聲音總是有些奇怪的體驗,所以我們讓你來判斷。
使用混合模型生成的 AI 音頻:
模型的性能也符合 Zyphra 的說法,即在 RTX 4090 上運行時,每秒運行時間生成約兩秒的音頻。RTX 6000 Ada 的計算能力與 RTX 4090 相差不大,需要 9 到 10 秒將大約 50 個單詞轉換為 18 到 20 秒的音頻片段。我們注意到,在第一次運行時,我們確實觀察到模型加載到 GPU 內存中時有大約一分鐘的預熱期,因此不會立即開始輸出。
自己試試
如果你想使用 Zonos 克隆自己的聲音,部署模型相對簡單,前提是你有兼容的 GPU 並對 Linux 和容器化有一定了解。
你需要準備:
一台配備至少 8 GB vRAM 的現代 Nvidia 顯卡的 Linux 機器。你可能可以在僅有 6 GB 的情況下運行,但效果可能會有所不同。對於作業系統,我們使用的是 Ubuntu 24.04 LTS。
本指南還假定你已安裝最新版本的 Docker Engine 和 Nvidia 的容器運行時的最新版本。有關設置的更多資訊,請查看我們關於 GPU 加速 Docker 容器的指南
這裡
。我們還假定你對 Linux 命令行很熟悉。
要開始,我們將使用 git 拉取 Zonos 倉庫:
git clone https://github.com/Zyphra/Zonos.git
從那裡,我們將進入文件夾並使用 Docker Compose 啟動容器:
cd Zonos docker compose up
注意:根據你的系統,你可能需要使用 sudo 或在某些情況下使用 doas 以提升權限運行此 docker 命令。
幾秒鐘後,你應該可以訪問 http://localhost:7860 訪問 Gradio web GUI,或者如果你遠程運行此服務,你需要將 localhost 替換為機器的 IP 地址或主機名。我們強烈建議你不要將此特定服務暴露給公共網際網路。
Zypher 的 Zonos 演示附帶一個易於使用的 Gradio 儀錶板 - 點擊放大
從那裡,你將看到一個 Gradio 儀錶板。在這裡,你需要選擇要使用的 Zonos 模型版本,上傳或錄製你的樣本音頻,並輸入你想轉換的文本。
在此下方,你會找到各種超參數,可以調整生成的各個方面,包括音調和語速。我們不會假裝完全理解所有這些參數,但在我們的測試中,我們基本上將這些設置保持為默認值。
一旦你將所有內容調整好,點擊生成音頻。根據你的硬體和輸入文本的長度,這可能需要幾秒鐘到幾分鐘。一旦完成,剪輯應該會自動開始播放。
AI 摘要將真實新聞變成無稽之談,BBC 發現
DeepSeek 還是 DeepFake?我們的作者圍繞中國最熱門的 AI
AI 代理?是的,讓我們自動化所有實際上不需要的事情
心理負擔:Scale AI,Outlier 被人類起訴,因為他們被支付以引導 AI 遠離我們最黑暗的深淵
更廣泛的影響
正如我們之前在圖像生成和其他 AI 技術中看到的那樣,Zonos 提供的語音克隆能力本質上是有爭議的,從訓練數據的來源到實際使用方式。
考慮到實現一個可接受的結果所需的樣本音頻量之少,很容易看出這種技術可能被濫用。像 Audible 這樣的公司正在探索文本轉語音 AI,以擴大有聲書的製作,讓敘述者可以創建自己的 AI 生成語音克隆。同時,圍繞 AI 語音克隆的法律挑戰已經開始影響類似的企業。
我們還可以看到這種技術被用來詐騙毫無戒心的受害者,讓他們相信親人有麻煩,並且他們只需要幾百美元的禮品卡就能擺脫困境。或者用它來毀掉某人的職業生涯,比如用他們的聲音給他們的老闆打一個辱罵電話。或者生成虛假的政治資訊,或者……例子不勝枚舉。
話雖如此,這些模型也有善意的用途。從可訪問性的角度來看,語音克隆和文本轉語音可以幫助那些聲帶受損或有影響語音的疾病的人找回他們的聲音。事實上,這是 Apple 在 2023 年底為 iOS 引入語音克隆技術的理由之一。
這種技術已經廣泛可用——無論是在 iDevices 上,還是通過付費服務,或作為開源模型——這就是為什麼我們甚至願意展示如何在本地部署和運行 Zonos 的原因。
話雖如此,如果你選擇採用 AI 文本轉語音功能,我們鼓勵你以最尊重和負責任的方式使用它。