Gemini 3.1 Flash TTS：下一代富有表現力的AI語音合成模型

今天，谷歌正式推出Gemini 3.1 Flash TTS——最新一代文本轉語音模型。該模型在可控性、表現力與生成質量上均有顯著提升，旨在幫助開發者、企業及普通用戶構建下一代AI語音應用。

贊助商廣告

即日起，Gemini 3.1 Flash TTS將分階段上線：

面向開發者：通過Gemini API及Google AI Studio以預覽版形式開放；

面向企業用戶：在Vertex AI上以預覽版形式提供；

面向Workspace用戶：通過Google Vids接入使用。

語音質量與可控性全面提升

谷歌對Gemini 3.1 Flash TTS的整體語音質量進行了深度優化，使其成為目前最自然、最富表現力的語音模型。在Artificial Analysis TTS排行榜（一項基於數千次盲測人類偏好的評測基準）上，該模型斬獲1211分的高ELO評分。

Artificial Analysis同時將Gemini 3.1 Flash TTS評定為"最優選象限"內的模型，認為其在高質量語音生成與低成本之間實現了理想平衡。該模型還具備以下核心優勢：原生支持多說話人對話、覆蓋70餘種語言，以及通過自然語言進行精細化創意控制。

全新音頻標籤，賦予語音更強表現力

Gemini 3.1 Flash TTS引入了音頻標籤功能，為用戶提供了一種直觀易用的方式，可靈活控制語音的風格、語速與表達方式。只需在文本輸入中直接嵌入自然語言指令，便可對AI語音輸出實現更精細的定向調控。

開發者可在Google AI Studio中體驗這些音頻標籤及其他開發體驗更新，平台提供多項可配置控制項，讓開發者化身"導演"，全程掌控語音生成效果：

場景導演：通過定義場景環境並提供具體的對話指令來奠定整體基調。這種世界構建式的上下文設定，有助於角色在多輪對話中保持"角色一致性"，並自然地相互呼應。

說話人級別精細設置：為每位角色分配專屬音頻檔案，並通過"導演註記"靈活調節語速、語氣與口音。藉助內聯標籤，說話人還可在句中實時切換表達方式，突破高層級設置的限制。

無縫導出：完成語音表現的調校後，可將所有參數一鍵導出為Gemini API代碼，確保在不同項目和平台之間保持一致、辨識度高的聲音風格。

贊助商廣告

憑藉上述全新配置能力，開發者可針對特定應用場景進行精準調優，打造令人印象深刻的角色形象與沉浸式音頻體驗。

如需親身體驗高保真語音生成效果，歡迎前往Google AI Studio Playground進行探索。

面向全球規模構建

Gemini 3.1 Flash TTS支持70餘種語言，在保障高保真語音輸出的同時，提供更為精準的控制能力。針對語音風格、語速及口音的深度優化，將惠及全球主要市場，助力開發者為世界各地的用戶打造本地化、富有表現力的語音體驗。

已率先參與測試的開發者和企業用戶對Gemini 3.1 Flash TTS給予了積極評價，尤其對其出色的可控性和表現力印象深刻。他們表示，音頻標籤帶來了前所未有的創意精準度，能夠將簡單的文本內容轉化為高保真的聲音演繹。

SynthID水印保障內容可信

Gemini 3.1 Flash TTS所生成的全部音頻均嵌入了SynthID水印。這一不可感知的水印直接編織於音頻輸出之中，可實現對AI生成內容的可靠檢測，從而有效防範虛假資訊的傳播。

Q&A

Q1：Gemini 3.1 Flash TTS支持哪些語言？

A：Gemini 3.1 Flash TTS支持70餘種語言，並針對語音風格、語速及口音進行了深度優化，覆蓋全球主要市場，可幫助開發者為不同地區的用戶提供本地化、富有表現力的語音體驗。

Q2：Gemini 3.1 Flash TTS的音頻標籤功能怎麼用？

A：音頻標籤是一種在文本輸入中直接嵌入自然語言指令的方式，可控制語音的風格、語速與表達。開發者可在Google AI Studio中體驗，支持場景導演、說話人級別精細設置和無縫導出等功能，讓語音生成更具表現力與創意精準度。

Q3：Gemini 3.1 Flash TTS生成的音頻如何防止被濫用？

A：所有由Gemini 3.1 Flash TTS生成的音頻都嵌入了SynthID水印。這是一種不可被人耳感知的隱形水印，直接編碼於音頻輸出中，可用於可靠地檢測AI生成內容，從而有效遏制虛假資訊的擴散。