谷歌Gemini 3.1 Flash TTS模型：帶來對AI語音前所未有的精細控制

谷歌旗下DeepMind人工智慧部門近日正式推出了一款全新的文本轉語音模型——Gemini 3.1 Flash TTS。

贊助商廣告

與以往機械生硬的同類產品不同，該模型允許用戶通過文字指令來控制語音風格、表達方式以及語速節奏。谷歌在其官方部落格中介紹，X平台上發布的示範影片清晰展示了Gemini 3.1 Flash TTS在語音控制方面的強大能力，用戶可以靈活調整模型的語氣和音調。可供選擇的風格選項包括"熱情洋溢"、"驚喜愉悅"以及"資訊傳遞"等多種模式。

除此之外，該模型還支持多種主流語言的地區口音選擇。僅英語一項便提供了豐富的方言版本，涵蓋美式"加州谷"口音、"南方"口音，以及多種英式變體，如"布里克斯頓"口音和"標準英式"發音，此外還有"跨大西洋"口音等更多選擇。

Gemini 3.1 Flash TTS還配備了導演級別的精細控制功能，允許用戶對模型的說話風格和語速進行深度調整。與此同時，該模型還內置了多種格式模板，包括播客對話、有聲書旁白、語言教學輔導、語音助手、健康養生指導、新聞播報以及客服支持等場景風格。谷歌表示，用戶可以通過定義使用環境並提供具體的對話指令來"設置舞台"，並且支持將這些配置導出為API代碼，方便開發者進行集成與二次開發。

Q&A

Q1：Gemini 3.1 Flash TTS和普通語音模型有什麼區別？

A：Gemini 3.1 Flash TTS最大的不同在於它提供了極為精細的語音控制能力。用戶可以通過文字指令直接調整語音的風格、表達方式和語速，還能選擇"熱情洋溢""驚喜愉悅"等具體情緒風格，而傳統語音模型大多只能輸出單一、機械的聲音，靈活性遠不及此。

Q2：Gemini 3.1 Flash TTS支持哪些語言和口音？

A：目前該模型支持多種主流語言的地區口音選擇。以英語為例，可選口音非常豐富，包括美式"加州谷"口音、"南方"口音，以及英式"布里克斯頓"口音、"標準英式"發音，還有"跨大西洋"口音等多種變體，充分滿足不同場景的語音需求。

贊助商廣告

Q3：Gemini 3.1 Flash TTS有哪些實際應用場景？

A：該模型內置了多種實用場景模板，包括播客對話、有聲書旁白、語言教學輔導、語音助手、健康養生指導、新聞播報和客服支持等。用戶可以直接套用模板，也可以自定義環境設置和對話指令，並將配置導出為API代碼，適合開發者進行應用集成。