谷歌旗下DeepMind人工智慧部門近日正式推出了一款全新的文本轉語音模型——Gemini 3.1 Flash TTS。
與以往機械生硬的同類產品不同,該模型允許用戶通過文字指令來控制語音風格、表達方式以及語速節奏。谷歌在其官方部落格中介紹,X平台上發布的演示影片清晰展示了Gemini 3.1 Flash TTS在語音控制方面的強大能力,用戶可以靈活調整模型的語氣和音調。可供選擇的風格選項包括"熱情洋溢"、"驚喜愉悅"以及"資訊傳遞"等多種模式。
除此之外,該模型還支持多種主流語言的地區口音選擇。僅英語一項便提供了豐富的方言版本,涵蓋美式"加州谷"口音、"南方"口音,以及多種英式變體,如"布里克斯頓"口音和"標準英式"發音,此外還有"跨大西洋"口音等更多選擇。
Gemini 3.1 Flash TTS還配備了導演級別的精細控制功能,允許用戶對模型的說話風格和語速進行深度調整。與此同時,該模型還內置了多種格式模板,包括播客對話、有聲書旁白、語言教學輔導、語音助手、健康養生指導、新聞播報以及客服支持等場景風格。谷歌表示,用戶可以通過定義使用環境並提供具體的對話指令來"設置舞台",並且支持將這些配置導出為API代碼,方便開發者進行集成與二次開發。
Q&A
Q1:Gemini 3.1 Flash TTS和普通語音模型有什麼區別?
A:Gemini 3.1 Flash TTS最大的不同在於它提供了極為精細的語音控制能力。用戶可以通過文字指令直接調整語音的風格、表達方式和語速,還能選擇"熱情洋溢""驚喜愉悅"等具體情緒風格,而傳統語音模型大多只能輸出單一、機械的聲音,靈活性遠不及此。
Q2:Gemini 3.1 Flash TTS支持哪些語言和口音?
A:目前該模型支持多種主流語言的地區口音選擇。以英語為例,可選口音非常豐富,包括美式"加州谷"口音、"南方"口音,以及英式"布里克斯頓"口音、"標準英式"發音,還有"跨大西洋"口音等多種變體,充分滿足不同場景的語音需求。
Q3:Gemini 3.1 Flash TTS有哪些實際應用場景?
A:該模型內置了多種實用場景模板,包括播客對話、有聲書旁白、語言教學輔導、語音助手、健康養生指導、新聞播報和客服支持等。用戶可以直接套用模板,也可以自定義環境設置和對話指令,並將配置導出為API代碼,適合開發者進行應用集成。






