今天,谷歌正式推出Gemini 3.1 Flash TTS——最新一代文本轉語音模型。該模型在可控性、表現力與生成質量上均有顯著提升,旨在幫助開發者、企業及普通用戶構建下一代AI語音應用。
即日起,Gemini 3.1 Flash TTS將分階段上線:
面向開發者:通過Gemini API及Google AI Studio以預覽版形式開放;
面向企業用戶:在Vertex AI上以預覽版形式提供;
面向Workspace用戶:通過Google Vids接入使用。
語音質量與可控性全面提升
谷歌對Gemini 3.1 Flash TTS的整體語音質量進行了深度優化,使其成為目前最自然、最富表現力的語音模型。在Artificial Analysis TTS排行榜(一項基於數千次盲測人類偏好的評測基準)上,該模型斬獲1211分的高ELO評分。
Artificial Analysis同時將Gemini 3.1 Flash TTS評定為"最優選象限"內的模型,認為其在高質量語音生成與低成本之間實現了理想平衡。該模型還具備以下核心優勢:原生支持多說話人對話、覆蓋70餘種語言,以及通過自然語言進行精細化創意控制。
全新音頻標籤,賦予語音更強表現力
Gemini 3.1 Flash TTS引入了音頻標籤功能,為用戶提供了一種直觀易用的方式,可靈活控制語音的風格、語速與表達方式。只需在文本輸入中直接嵌入自然語言指令,便可對AI語音輸出實現更精細的定向調控。
開發者可在Google AI Studio中體驗這些音頻標籤及其他開發體驗更新,平台提供多項可配置控制項,讓開發者化身"導演",全程掌控語音生成效果:
場景導演:通過定義場景環境並提供具體的對話指令來奠定整體基調。這種世界構建式的上下文設定,有助於角色在多輪對話中保持"角色一致性",並自然地相互呼應。
說話人級別精細設置:為每位角色分配專屬音頻檔案,並通過"導演註記"靈活調節語速、語氣與口音。藉助內聯標籤,說話人還可在句中實時切換表達方式,突破高層級設置的限制。
無縫導出:完成語音表現的調校後,可將所有參數一鍵導出為Gemini API代碼,確保在不同項目和平台之間保持一致、辨識度高的聲音風格。
憑藉上述全新配置能力,開發者可針對特定應用場景進行精準調優,打造令人印象深刻的角色形象與沉浸式音頻體驗。
如需親身體驗高保真語音生成效果,歡迎前往Google AI Studio Playground進行探索。
面向全球規模構建
Gemini 3.1 Flash TTS支持70餘種語言,在保障高保真語音輸出的同時,提供更為精準的控制能力。針對語音風格、語速及口音的深度優化,將惠及全球主要市場,助力開發者為世界各地的用戶打造本地化、富有表現力的語音體驗。
已率先參與測試的開發者和企業用戶對Gemini 3.1 Flash TTS給予了積極評價,尤其對其出色的可控性和表現力印象深刻。他們表示,音頻標籤帶來了前所未有的創意精準度,能夠將簡單的文本內容轉化為高保真的聲音演繹。
SynthID水印保障內容可信
Gemini 3.1 Flash TTS所生成的全部音頻均嵌入了SynthID水印。這一不可感知的水印直接編織於音頻輸出之中,可實現對AI生成內容的可靠檢測,從而有效防範虛假資訊的傳播。
Q&A
Q1:Gemini 3.1 Flash TTS支持哪些語言?
A:Gemini 3.1 Flash TTS支持70餘種語言,並針對語音風格、語速及口音進行了深度優化,覆蓋全球主要市場,可幫助開發者為不同地區的用戶提供本地化、富有表現力的語音體驗。
Q2:Gemini 3.1 Flash TTS的音頻標籤功能怎麼用?
A:音頻標籤是一種在文本輸入中直接嵌入自然語言指令的方式,可控制語音的風格、語速與表達。開發者可在Google AI Studio中體驗,支持場景導演、說話人級別精細設置和無縫導出等功能,讓語音生成更具表現力與創意精準度。
Q3:Gemini 3.1 Flash TTS生成的音頻如何防止被濫用?
A:所有由Gemini 3.1 Flash TTS生成的音頻都嵌入了SynthID水印。這是一種不可被人耳感知的隱形水印,直接編碼於音頻輸出中,可用於可靠地檢測AI生成內容,從而有效遏制虛假資訊的擴散。






