宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

谷歌Gemini 3.1 Flash TTS模型:帶來對AI語音前所未有的精細控制

2026年04月16日 首頁 » 熱門科技

谷歌旗下DeepMind人工智慧部門近日正式推出了一款全新的文本轉語音模型——Gemini 3.1 Flash TTS。

與以往機械生硬的同類產品不同,該模型允許用戶通過文字指令來控制語音風格、表達方式以及語速節奏。谷歌在其官方部落格中介紹,X平台上發布的演示影片清晰展示了Gemini 3.1 Flash TTS在語音控制方面的強大能力,用戶可以靈活調整模型的語氣和音調。可供選擇的風格選項包括"熱情洋溢"、"驚喜愉悅"以及"資訊傳遞"等多種模式。

除此之外,該模型還支持多種主流語言的地區口音選擇。僅英語一項便提供了豐富的方言版本,涵蓋美式"加州谷"口音、"南方"口音,以及多種英式變體,如"布里克斯頓"口音和"標準英式"發音,此外還有"跨大西洋"口音等更多選擇。

Gemini 3.1 Flash TTS還配備了導演級別的精細控制功能,允許用戶對模型的說話風格和語速進行深度調整。與此同時,該模型還內置了多種格式模板,包括播客對話、有聲書旁白、語言教學輔導、語音助手、健康養生指導、新聞播報以及客服支持等場景風格。谷歌表示,用戶可以通過定義使用環境並提供具體的對話指令來"設置舞台",並且支持將這些配置導出為API代碼,方便開發者進行集成與二次開發。

Q&A

Q1:Gemini 3.1 Flash TTS和普通語音模型有什麼區別?

A:Gemini 3.1 Flash TTS最大的不同在於它提供了極為精細的語音控制能力。用戶可以通過文字指令直接調整語音的風格、表達方式和語速,還能選擇"熱情洋溢""驚喜愉悅"等具體情緒風格,而傳統語音模型大多只能輸出單一、機械的聲音,靈活性遠不及此。

Q2:Gemini 3.1 Flash TTS支持哪些語言和口音?

A:目前該模型支持多種主流語言的地區口音選擇。以英語為例,可選口音非常豐富,包括美式"加州谷"口音、"南方"口音,以及英式"布里克斯頓"口音、"標準英式"發音,還有"跨大西洋"口音等多種變體,充分滿足不同場景的語音需求。

Q3:Gemini 3.1 Flash TTS有哪些實際應用場景?

A:該模型內置了多種實用場景模板,包括播客對話、有聲書旁白、語言教學輔導、語音助手、健康養生指導、新聞播報和客服支持等。用戶可以直接套用模板,也可以自定義環境設置和對話指令,並將配置導出為API代碼,適合開發者進行應用集成。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新