谷歌 Gemini 3.5 實時翻譯：以接近自然對話的速度實現語言溝通

谷歌發布的最新人工智慧工具有望為所有智慧型手機用戶帶來實時翻譯能力，讓不同語言的使用者之間的交流變得更加自然流暢。

贊助商廣告

谷歌官方部落格今日正式宣布推出 Gemini 3.5 實時翻譯功能。據介紹，這是谷歌迄今發布的最先進的語音到語音翻譯音頻模型。傳統翻譯工具因需逐段處理和轉譯語音而顯得笨拙遲緩，而 Gemini 3.5 實時翻譯則大幅提升了翻譯速度。谷歌表示，該模型能夠在用戶說話的同時持續監聽，將內容實時翻譯後以對方的母語進行播報。

這意味著，即便是只會單一語言的用戶，也能實現近乎自然的對話體驗——翻譯延遲僅有幾秒鐘，感覺有些類似於早年旋轉撥號電話時代的長途通話。

谷歌產品經理 Anuda Weerasinghe 和高級首席軟體工程師 Tony Lu 在聯合撰寫的部落格文章中提到，Gemini 3.5 實時翻譯可以自動識別說話者所使用的語言，無需提前進行任何設置。該功能上線時即支持超過 70 種語言，意味著它能夠覆蓋"數千"種不同的語言組合。

谷歌正將該功能面向開發者和企業開放，預計不久後將與第三方通信平台實現集成。與此同時，該功能也已直接向所有用戶在 Google 翻譯應用中推出。

這並非谷歌首次嘗試實時翻譯，但此前的努力始終依賴特定硬體，例如谷歌自家的智慧型手機和耳機。Gemini 3.5 實時翻譯的不同之處在於，它可以在任意智慧型手機上運行。此外，該功能基於全新架構，從底層改變了翻譯的工作方式。

該功能採用"連續流式翻譯"技術，無需等待一方說完整句話再開始生成翻譯，而是邊聽邊譯，從而實現更為流暢的翻譯對話體驗。

Weerasinghe 和 Lu 表示，Gemini 3.5 實時翻譯在設計上充分考慮了現實環境的複雜性，能夠在嘈雜環境中正常運作，並處理聲音重疊和非正式口語等情況。因此，該功能適用於多種實際場景，包括客戶支持通話、課堂教學、導覽服務、網約車出行以及直播節目等。

贊助商廣告

他們還著重強調了該模型語音質量的提升。不同於標準谷歌翻譯應用中機械化的合成語音，Gemini 3.5 實時翻譯致力於還原說話者的自然表達，通過匹配說話節奏、語調和情感色彩，讓翻譯後的語音聽起來更加真實自然，從而有效提升對話的流暢度。

谷歌推出 Gemini 3.5 實時翻譯的長遠目標，是讓全球任何人都能跨越語言障礙自由交流，無論對方使用何種語言。從目前來看，該功能在幫助旅行者和尋求跨國商業合作的人士方面具有相當大的潛力。

Q&A

Q1：Gemini 3.5 實時翻譯支持哪些語言？

A：Gemini 3.5 實時翻譯在上線時即支持超過 70 種語言，並且能夠覆蓋數千種不同的語言組合。用戶無需手動設置語言，系統可以自動識別說話者正在使用的語言，直接進行實時翻譯，使用門檻非常低。

Q2：Gemini 3.5 實時翻譯和之前的谷歌翻譯有什麼區別？

A：主要區別體現在三個方面：一是無需特定硬體，可在任意智慧型手機上運行；二是採用"連續流式翻譯"架構，無需等待整句說完即可實時翻譯，延遲更低；三是翻譯語音更自然，能夠匹配說話者的節奏、語調和情感色彩，而非傳統的機械合成語音。

Q3：Gemini 3.5 實時翻譯適合在哪些場景使用？

A：該功能適用於多種實際場景，包括客戶支持通話、課堂教學、導覽講解、網約車出行、直播節目等。由於支持嘈雜環境和口語表達，日常對話、商務交流以及跨語言旅行等場景均可使用。