宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

突破傳統語音對話限制:OpenMOSS團隊推出真正的「語音到語音」AI模型MOSS-Speech

2025年11月04日 首頁 » 熱門科技

如果你用過Siri或小愛同學,應該對語音助手的工作原理有所了解:你說話,它先把語音轉成文字,再理解文字內容,接著生成文字回復,最後把文字轉成語音播放給你。這個過程雖然看似自然,卻存在一個根本問題——在轉換過程中,你聲音里的情感、語氣、猶豫、笑聲等豐富資訊都被丟掉了,AI只能生成機械化的標準回復。

這項由上海創新研究院、復旦大學和MOSI聯合開展的研究發表於2025年10月的arXiv預印本平台(論文編號:arXiv:2510.00499v2),研究團隊開發出名為MOSS-Speech的革命性語音AI模型。這個模型最大的突破在於,它能夠直接理解和生成語音,完全跳過了傳統的文字轉換環節,就像人與人對話一樣自然流暢。

傳統語音助手就像一個需要翻譯的對話場景:你用中文說話,助手先翻譯成英文理解,再用英文思考答案,最後翻譯回中文告訴你。而MOSS-Speech則像一個真正會說中文的朋友,可以直接用中文與你對話,保留你聲音中的所有細微情感和表達方式。

這種創新的意義遠超技術本身。在日常生活中,我們的語音交流充滿了豐富的副語言資訊——一個嘆氣可能表達挫折,一聲輕笑可能暗示玩笑,說話時的停頓可能透露思考或緊張。傳統語音助手就像一個情感盲人,只能看到對話的字面意思,卻無法感受到這些微妙的情感色彩。MOSS-Speech的出現,讓AI第一次具備了這種"聽懂弦外之音"的能力。

一、模型架構的巧妙設計

研究團隊面臨的第一個挑戰是如何讓AI既能處理語音,又不丟失原有的文本理解能力。這就像要培養一個既會畫畫又會寫字的藝術家,而不是讓他學會畫畫後就忘記了寫字。

他們的解決方案採用了一種叫做"模態層分離"的設計。可以把這想像成一個多功能的工作檯,前面的部分是公共區域,大家都可以使用,而後面分成兩個專用區域,一個專門用來處理語音工作,另一個專門處理文字工作。具體來說,他們使用了一個36層的大型神經網路模型,前32層是所有任務的共享部分,最後4層則分成兩個並行分支:一個專門負責生成文本,另一個專門負責生成語音。

這種設計的巧妙之處在於,它讓模型能夠在共享的前32層中學習語音和文本之間的深層對應關係,就像學習不同語言中相同概念的表達方式。研究團隊通過實驗發現了一個有趣現象:在模型的前25層中,語音和文本的內部表示越來越相似,就像兩種不同的語言在表達相同含義時逐漸趨於一致。但在最後幾層中,這種相似性開始下降,表示模型開始為不同的輸出形式做準備。

為了深入理解這個現象,研究團隊做了一個類似"解剖"的實驗。他們選取了同一句話的語音版本和文字版本,追蹤它們在模型各層中的內部表示,發現相似度在第10層左右達到峰值,然後保持穩定,直到第25層開始分化。這個發現為他們在第32層進行分離提供了科學依據。

二、語音編碼技術的創新

在語音處理方面,研究團隊開發了一套全新的語音編碼系統,這套系統需要同時滿足四個看似矛盾的要求:足夠簡單以便AI理解、足夠高效以便實時處理、足夠完整以保留語音細節、足夠智能以理解語音含義。

這就像設計一套速記系統,既要簡單到可以快速書寫,又要完整到不丟失重要資訊,還要智能到能夠傳達說話者的情感和語氣。傳統的語音編碼系統往往只關注語音的聲學特徵(比如音調高低、音量大小),而忽視了語音的語義內容。MOSS-Speech的編碼系統則優先考慮語義資訊,確保AI能夠真正"理解"語音內容,而不僅僅是"聽到"聲音。

他們的編碼器採用了一種基於語音識別的訓練方法,這意味著編碼器在學習如何壓縮語音的同時,也在學習如何理解語音的含義。這種方法產生的編碼不僅包含了語音的聲學特徵,還包含了豐富的語義資訊,為後續的AI理解和生成奠定了基礎。

在解碼方面,他們採用了流匹配技術,這是一種相對較新的生成方法,能夠產生更自然、更流暢的語音輸出。與傳統的語音合成技術相比,流匹配技術能夠更好地保持語音的自然度和表現力,同時支持實時流式處理,滿足對話系統對低延遲的要求。

三、訓練策略的精心設計

訓練MOSS-Speech模型是一個極其複雜的過程,就像培養一個既懂音樂又懂文學的全才。研究團隊採用了一種"冷凍預訓練"的策略,這個名字聽起來很技術化,但其實原理很簡單:就像學習新技能時不要忘記已有技能一樣。

他們從一個名為Qwen3-8B的預訓練文本模型開始,這個模型已經具備了強大的文本理解和生成能力。接下來的挑戰是如何在不破壞這些已有能力的前提下,為模型增加語音處理能力。

訓練過程分為兩個階段。第一階段是"語音對齊"階段,研究團隊將原始文本模型的參數"凍結"起來,只訓練新增加的語音相關組件。這就像在一個已經建好的房子裡增加新房間,而不改動原有的結構。在這個階段,模型學習如何將語音資訊映射到已有的知識框架中,建立語音和文本之間的對應關係。

第二階段是"聯合訓練"階段,研究團隊解凍部分參數,讓語音和文本組件能夠更好地協調工作。為了防止新技能學習過程中忘記原有能力,他們在訓練數據中混合了大量高質量的文本數據,就像在學習新課程的同時定期複習舊知識。

訓練數據的規模令人印象深刻:研究團隊收集了約900萬小時的真實語音數據,相當於一個人連續說話1000多年。這些數據來源廣泛,包括播客、影片內容等各種真實場景,確保模型能夠理解各種不同的說話風格和語音環境。

為了進一步豐富訓練數據,他們還使用了先進的文本到語音系統生成了大量合成語音數據。這就像用模擬器訓練飛行員一樣,雖然不是真實飛行,但能夠提供大量練習機會。最終的訓練數據集包含英文交替數據69萬小時、中文交替數據95.2萬小時,以及230.3萬小時的無監督語音數據。

四、實驗結果的全面驗證

研究團隊對MOSS-Speech進行了全方位的測試,就像新藥上市前需要經過各種臨床試驗一樣。測試結果顯示,這個模型在多個維度都取得了突破性進展。

在語音理解能力測試中,MOSS-Speech在StoryCloze基準測試中表現優異。這個測試要求模型理解一段語音故事,然後選擇最合適的結尾。MOSS-Speech在文本輸入的版本中獲得了84.87分,在語音輸入版本中獲得了63.17分,這個成績超過了包括GLM-4-Voice和SpiritLM在內的所有對比模型。

更令人驚喜的是,MOSS-Speech在中文測試中的表現更加出色,在中文文本StoryCloze測試中獲得了90.32分,在中文語音版本中獲得了71.94分。這表明該模型不僅在英文環境中表現優秀,在中文環境中同樣具備強大的理解和生成能力。

在保持原有能力方面,MOSS-Speech也交出了滿意的答卷。在MMLU這個測試大型語言模型綜合能力的標準基準上,MOSS-Speech獲得了67.19分,而對比模型SpiritLM只有36.9分。這個巨大的差距表明,MOSS-Speech成功解決了傳統多模態模型的一個重要問題:在學習新能力時不會大幅損失原有能力。

在實際對話質量測試中,研究團隊使用了多個問答數據集進行評估,包括LlamaQA、TriviaQA和WebQA。結果顯示,在不使用文本指導的純語音到語音模式下,MOSS-Speech在LlamaQA上達到了77.33分,在TriviaQA上達到了45.20分,在WebQA上達到了45.9分。這些成績都達到或接近了使用文本指導的對比系統的水平,證明了"真正的語音到語音"對話的可行性。

五、技術創新的深層價值

MOSS-Speech的技術創新不僅僅體現在性能數字上,更重要的是它解決了語音AI領域的一些根本性問題。

傳統的語音對話系統面臨著一個被稱為"表達力瓶頸"的問題。由於需要通過文字作為中介,系統只能表達那些可以用文字準確描述的內容。比如,當你想表達猶豫時,可能會說"嗯..."或"這個.....",但這些在轉換成文字時往往被過濾掉了。MOSS-Speech則能夠直接處理和生成這些非言語表達,使得AI的回覆更加自然和人性化。

另一個重要突破是延遲的大幅降低。傳統系統需要經過"語音轉文字-理解-生成-文字轉語音"四個步驟,每個步驟都會增加延遲。而MOSS-Speech可以直接從語音到語音,減少了兩個轉換環節,使得對話更加流暢自然。

在訓練效率方面,MOSS-Speech的創新也值得關注。由於採用了"冷凍預訓練"策略,該模型能夠充分利用現有的文本大語言模型的知識和能力,而不需要從零開始訓練一個全新的語音理解系統。這不僅節省了大量的計算資源,也使得模型能夠繼承文本模型的推理能力和世界知識。

六、面臨的挑戰與解決思路

儘管取得了顯著進展,MOSS-Speech仍然面臨一些挑戰。最主要的挑戰是語音生成質量的進一步提升。雖然在語義理解方面已經達到了很高的水平,但在語音的自然度、情感表達的豐富性等方面仍有改進空間。

研究團隊通過消融實驗深入分析了不同設計選擇的影響。他們發現,模態層分離和冷凍預訓練這兩個核心創新都對最終性能有重要貢獻。沒有模態層分離的版本在語音任務上的表現明顯下降,而沒有採用冷凍預訓練策略的版本則在文本任務上出現了較大的性能倒退。

另一個挑戰是如何處理更複雜的對話場景。目前的測試主要集中在相對簡單的問答任務上,而真實世界的對話往往涉及多輪交互、話題轉換、背景知識推理等更複雜的情況。研究團隊正在擴展訓練數據和改進模型架構,以應對這些更高層次的挑戰。

在多語言支持方面,雖然MOSS-Speech在中英文上都表現良好,但擴展到更多語言仍需要大量工作。不同語言的語音特徵、表達習慣、文化背景都有所不同,需要針對性的優化和調整。

七、實際應用的廣闊前景

MOSS-Speech的成功為語音AI的實際應用開闢了新的可能性。在智能客服領域,這項技術能夠讓AI客服真正理解用戶的情緒狀態,提供更貼心的服務。當用戶因為問題沒有得到解決而感到沮喪時,AI能夠從語音中察覺到這種情緒,並調整自己的回應方式。

在教育領域,MOSS-Speech能夠開發出更智能的語言學習工具。傳統的語言學習軟體只能糾正發音錯誤,而基於MOSS-Speech的系統則能夠理解學習者的語音表達,提供更個性化的指導和反饋。

在無障礙技術方面,這項技術為視覺障礙者提供了更自然的人機交互體驗。他們可以通過自然的語音對話獲取資訊、控制設備,而不需要學習複雜的語音命令格式。

在創意產業中,MOSS-Speech為音頻內容製作提供了新工具。播客製作者、有聲讀物製作方等可以利用這項技術快速生成高質量的音頻內容,同時保持內容的表達力和感染力。

研究團隊還展示了MOSS-Speech在實時對話中的潛力。與傳統系統相比,該模型能夠在保持對話質量的同時顯著降低響應延遲,使得語音交互體驗更加流暢自然。這為開發下一代智能語音助手奠定了基礎。

歸根結底,MOSS-Speech代表了語音AI技術的一次重要突破。它不僅在技術上實現了"真正的語音到語音"對話,更重要的是為人工智慧與人類的自然交流搭建了一座新的橋樑。當AI能夠真正理解我們語音中的情感和細節,並用同樣豐富的語音回應我們時,人機交互將變得更加自然和親切。

這項研究的意義遠超技術本身,它預示著一個更加智能、更加人性化的AI時代即將到來。隨著技術的進一步發展和完善,我們有理由相信,未來的AI助手將不再是冷冰冰的機器,而是能夠真正理解和回應人類情感的智能夥伴。對於想要深入了解這項研究的讀者,可以通過論文編號arXiv:2510.00499v2在arXiv平台上查閱完整的技術論文。

Q&A

Q1:MOSS-Speech與傳統語音助手有什麼根本區別?

A:MOSS-Speech最大的區別是能夠直接處理語音,不需要先轉成文字再理解。傳統助手像翻譯官,需要把你的話先翻譯成文字,再翻譯回語音回覆你,過程中會丟失情感、語氣等資訊。而MOSS-Speech就像直接對話,能保留你聲音中的所有細節和情感。

Q2:MOSS-Speech的語音編碼技術有什麼特殊之處?

A:MOSS-Speech的語音編碼系統同時關注語音的含義和聲學特徵,不像傳統系統只關注聲音本身。它採用基於語音識別的訓練方法,讓編碼器在壓縮語音的同時學會理解語音含義,產生的編碼既包含聲學資訊也包含語義資訊,為AI理解奠定基礎。

Q3:為什麼MOSS-Speech能同時保持文本和語音處理能力?

A:研究團隊採用了"冷凍預訓練"策略和"模態層分離"設計。就像在已建好的房子裡加新房間而不改動原結構,他們先凍結原有的文本處理能力,只訓練語音組件,然後在模型最後4層分成文本和語音兩個專用分支,前32層共享使用,這樣既學會了語音處理又保留了原有能力。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新