宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

浙江大學聯手阿里巴巴:讓AI語音助手既「聰明」又「有感情」,他們是怎麼做到的?

2026年05月01日 首頁 » 熱門科技

這項由浙江大學、阿里巴巴集團通義音頻團隊及北京工業大學聯合開展的研究,以預印本形式發布於2026年4月,論文編號為arXiv:2604.14932,有興趣深入了解的讀者可通過該編號查詢完整原文。

當你和語音助手對話時,你是否曾有過這樣的感受:它給出的答案要麼乾巴巴缺乏溫度,要麼語氣生硬得像一台機器?或者反過來,當它嘗試表現得更"有感情"時,說出來的內容卻開始出錯、答非所問?這個矛盾幾乎是所有語音對話AI系統長期以來的痛點,也正是這篇論文試圖破解的核心謎題。

研究團隊把這個問題比作一道兩難的烹飪難題:你想讓一道菜既入味又保持食材的鮮嫩,但用大火猛炒固然入味快,卻往往把食材炒老;小火慢燉雖然保鮮嫩,卻又難以充分入味。過去,工程師們要麼專注於讓AI"說得准",要麼專注於讓AI"說得好聽",魚與熊掌很難兼得。這支來自頂尖高校和科技公司的聯合團隊,給出了一套名為WavAlign的全新烹飪方案——用動態調火的方式,在同一口鍋里同時實現入味和保鮮嫩。

一、為什麼"教"AI說好話這麼難

在正式介紹這套方案之前,有必要先搞清楚這道烹飪難題的本質究竟在哪裡。

目前主流的語音對話AI大致分為兩類。一類是"級聯繫統",把語音識別、語言理解、語言生成、語音合成等多個環節串聯起來,就像一條流水線——原料先經過一個工位處理,再傳到下一個工位,最終產出成品。這種方式穩定可控,但每個環節都有資訊損失,就像傳話遊戲,傳到最後難免走樣,而且各環節之間很難做到真正的協同。另一類是"端到端系統",也是這篇論文重點研究的對象,它把所有處理統一在一個模型里完成,就像一位全能廚師,從備料到擺盤全部由一雙手完成。理論上這種方式有更大的潛力,可以讓語義理解和聲音表達緊密結合,但在實踐中,目前開源的端到端系統往往表現差強人意。

研究團隊發現,一個很自然的改進思路是借鑑"強化學習"技術——這是一種在遊戲AI、文本大模型中大獲成功的訓練方法。簡單說,就是讓AI自己嘗試、獲得反饋、根據反饋調整,就像一個孩子通過不斷試錯來學習騎自行車。基於人類反饋或AI反饋的強化學習,已經讓文字大模型變得越來越聰明,那麼直接把同樣的方法套用到語音對話AI上,是否就能解決問題?

答案是:沒那麼簡單。研究團隊通過大量實驗發現,直接把強化學習用於端到端語音對話模型,往往陷入一個兩難困境:語義質量(也就是"說得準不準"、"答得好不好")確實有所提升,但聲音質量——包括語調、節奏、情感表達——卻開始走形,變得不自然甚至奇怪。反之,如果專門優化聲音表達,語義質量又可能受損。這就像你費盡心思調出了完美的調味汁,卻發現食材在這個過程中變老了。

這個現象背後有三個互相纏繞的原因,研究團隊稱之為"三重困境"。

第一重困境叫做"跨模態的拉鋸戰"。在端到端語音模型里,文字資訊和聲音資訊是共享同一套參數(可以理解為共享同一個大腦)的。當你試圖用偏好訓練來優化文字內容時,這個調整會同時影響到聲音部分,而這種影響往往是破壞性的。兩種目標——"說得准"和"說得好聽"——就像兩個人在同一張桌子上寫字,互相干擾,反而都寫不好。

第二重困境叫做"梯度能量嚴重失衡"。在電腦訓練中,"梯度"是模型更新方向的量化指標,可以理解為"這次經驗讓模型應該朝哪個方向改進、改進多少"。研究團隊測量發現,文字部分產生的梯度能量遠遠大於聲音部分。就好比訓練團隊裡有兩個教練,一個嗓門極大、說話很清晰,另一個聲音很小、說的內容模稜兩可。最終模型主要聽嗓門大的那個教練的,嗓門小的教練建議——也就是聲音質量的改進方向——反而被淹沒,甚至帶來噪音。

第三重困境叫做"獎勵信號的稀薄與失真"。強化學習依賴獎勵信號來告訴模型"這次做得好還是不好"。對於語義內容來說,判斷對錯相對容易——答案要麼對要麼錯,要麼符合指令要麼不符合。但對於聲音質量,情況就複雜多了。"這句話說得有沒有感情?"、"語調是否自然?"這些問題連人類也很難給出精確一致的評分。研究團隊測量了多個主流AI評判模型(包括Gemini系列和GPT-4o-Audio)與人類評估之間的一致性,結果發現:在語義維度上,AI評判和人類評判的相關性相當高;但在聲音維度上,一致性明顯更低且更不穩定。換句話說,聲音質量的"裁判"本身就不夠可靠,而且這個不可靠的裁判還要給長達幾百個聲音片段的序列進行"功勞分配",最終結果自然混亂。

二、四個關鍵發現,構成了解題的基礎

在提出解決方案之前,研究團隊做了一系列精心設計的診斷實驗,就像醫生在開藥方之前先做全面檢查一樣。這些實驗最終形成了四個關鍵觀察,每一個觀察都直接指向了最終方案的某個設計選擇。

第一個觀察關注的是不同訓練方式產生的"改變幅度"。研究團隊用同一段對話內容,分別觀察了標準監督微調(簡單說就是讓模型反覆學習正確示例,就像讓學生抄課文)和強化學習偏好優化(讓模型在對比中擇優,就像讓學生做選擇題)兩種訓練方式對模型輸出概率的影響。結果很清楚:監督微調會在整個輸出序列上造成大幅度、一致性強的概率變化,就像把整塊麵團均勻揉開;而強化學習由於內置的穩定性約束(防止模型改變太快),造成的變化要小得多,而且分散在局部位置。這個發現說明:如果你想讓模型在某個維度上實現可靠的大幅改變,監督微調更管用;強化學習更像是在已有基礎上做局部打磨。

第二個觀察驗證了之前關於獎勵信號可靠性的擔憂。研究團隊讓多個AI評判模型對同一批語音回答評分,同時收集人類評分,然後計算兩者的相關性。他們分別計算了語義維度和聲音維度的相關性,結果一目了然:語義維度上,AI評分和人類評分的皮爾遜相關係數普遍在0.6到0.76之間,相當不錯;但聲音維度上,相關係數普遍更低,部分評判模型甚至只有0.2到0.4。更重要的是,他們還計算了"組內斯皮爾曼相關係數"——這個指標衡量的是:對同一個問題,AI評判能否像人類一樣準確區分出哪個回答的聲音更好?結果同樣顯示語義維度遠優於聲音維度。這直接說明:用AI來判斷聲音好壞,並以此來訓練模型,誤差太大,容易讓模型學歪。

第三個觀察深入到了數學層面,揭示了為什麼直接對混合文字和聲音的序列做偏好優化會出問題。研究團隊計算了在不同訓練方式下,文字部分的梯度和聲音部分的梯度之間的餘弦相似度(可以理解為兩個更新方向的"一致程度")。結果是:兩者的餘弦相似度接近零,而且方差很大。這意味著文字更新方向和聲音更新方向幾乎完全無關,有時甚至相互對抗。當偏好優化把一個"序列級別"的好壞判斷平攤到所有聲音片段上時,大量的聲音片段實際上接受了無意義甚至有害的梯度信號,就像把一份針對整道菜的點評強行分攤到每一粒鹽、每一滴油上,結果所有調味品都被調得亂七八糟。

第四個觀察發現了不同訓練階段、不同模型的"辨別度"差異。研究團隊用重複採樣的方式,讓同一個模型在同一個問題上生成多個回答,然後觀察這些回答在語義維度和聲音維度上的分散程度。他們發現:聲音維度的分散程度(也就是"不同回答之間聲音質量的差異")普遍低於語義維度,尤其是在較弱的基礎模型上。這意味著:如果模型本身能力有限,它生成的多個回答在聲音質量上都差不多,沒有明顯好壞之分,這時候基於這些回答的偏好學習就變得無從下手,甚至會引入噪音。

三、動態混合訓練:同一口鍋里的精妙調火術

基於這四個關鍵觀察,研究團隊設計出了WavAlign的核心機制——一套單階段的動態混合訓練方案。

這套方案的基本邏輯可以用烹飪來理解:對於需要大幅改變、精確塑造的食材(聲音質量),用慢火燉煮(監督微調)來持續穩定地施加影響;對於需要精細調味、根據口感隨時調整的部分(語義質量),用隨時可以加減的調味(偏好優化)來進行精準修正;同時,還需要一個聰明的廚師,根據當下食材的狀態(每一輪訓練時模型生成的回答質量)來動態決定大火還是小火、多調味還是少調味。

具體來說,這套方案做了三個層面的設計。

第一個設計是"模態分離"的優化策略。研究團隊決定:監督微調的損失函數覆蓋所有文字和聲音片段;但偏好優化(強化學習)的損失函數隻作用於文字片段,聲音片段被隱藏在偏好優化的影響範圍之外。這個設計直接切斷了偏好優化對聲音分布的干擾,讓聲音質量完全由監督微調來負責維護,而語義質量則接受偏好優化的精煉。兩個目標各司其職,互不干涉,就像把調味和火候的控制權交給了不同的廚師。

第二個設計是動態權重門控機制。總損失函數是監督微調損失和偏好優化損失的加權組合,權重分別是(1-λ)和λ。關鍵在於,這個λ不是一個固定數值,而是根據每一步訓練時模型生成回答的質量動態計算的。具體計算方式涉及兩個"門":第一個是"方向門",檢查這一輪生成的回答里有沒有至少一個"還過得去"的答案——如果所有回答質量都很差,說明偏好信號不可靠,就壓低λ,讓監督微調多發揮作用;第二個是"資訊量門",檢查這一輪迴答在獎勵分數上的分散程度——如果所有回答獎勵差不多,說明沒有足夠的區分資訊,同樣壓低λ。兩個門相乘,再乘以一個最大值係數(設定為0.8,這樣即使條件最好,監督微調也始終保留至少20%的權重,作為聲音質量的安全錨點),得到原始權重。

第三個設計是指數移動平均(EMA)平滑。由於每一步訓練的隨機性,原始權重會有較大的抖動,就像一個焦慮的廚師不停調溫度,導致菜始終無法穩定。研究團隊引入了一個平滑係數α=0.9,讓當前權重等於90%的上一步權重加上10%的當前原始權重,相當於給火候控制加了一個慣性緩衝,讓調整更加平穩漸進。實驗表明,這個平滑操作對最終性能有相當關鍵的影響。

值得一提的是,整個訓練流程是單階段的——監督微調和偏好優化在同一個循環里同時進行,而不是先做完監督微調再做偏好優化的兩階段方式。研究團隊也測試了兩階段方案,發現效果反而更差,這說明兩種目標的協同對於最終效果至關重要。

四、在兩種完全不同的AI架構上驗證效果

為了證明這套方案不是針對某一種特定架構的"專屬優化",研究團隊在兩種結構截然不同的端到端語音對話模型上進行了實驗。

第一種是VITA-Audio,它的輸出方式是把文字片段和聲音片段交替穿插在同一個流里,就像把字母和符號混在一行輸出。第二種是KimiAudio,它採用並行設計,文字流和聲音流是同步但獨立的兩條軌道,類似於影片的畫面軌和音頻軌。

訓練數據方面,研究團隊精心準備了總計13510條音頻指令樣本,覆蓋了多個不同的能力維度。這些數據來自多個公開數據集,包括常識問答(SciQ)、數學推理(GSM8K)、多輪對話(UltraChat)、指令遵循(Alpaca)、科學問答(ScienceQA)、安全對齊(PKUSafe)等,以及團隊自行構建的情感對話、音量控制、語速控制、邏輯推理等數據。對於偏好學習,團隊通過讓模型對同一問題重複採樣8次,再用AI評判模型評分,按效用函數選出最好和最差的一對,構建偏好對數據。

評估基準涵蓋了三個維度。第一個是VoiceBench,覆蓋指令遵循、安全問答、常識推理、格式控制等多個子任務,用GPT-4o-mini作為文字層面的評判模型。第二個是OpenAudioBench,專注於知識廣度和推理能力,包括通用問答、專業知識、邏輯推理等,用GPT-4o作為評判。第三個是VStyle,專門評估聲音表達能力,包括音調屬性控制、風格指令遵循、角色扮演、情感表達四個子維度,使用Gemini-2.5-Pro對實際生成的語音進行評分。

在智能質量方面,一個有些出人意料的發現是:標準的監督微調在這個任務上表現往往不如基礎模型——在VITA-Audio上,監督微調的OpenAudioBench綜合得分從55.0降到了50.7,在KimiAudio上也從69.1降到了64.9。研究團隊認為這是因為13500條數據覆蓋了太多不同領域,產生了梯度干擾,沖淡了模型原有的推理能力,這個現象在機器學習領域被稱為"對齊稅"。對全部片段做偏好優化的方案同樣問題明顯,Full-Token DPO在VITA-Audio上的OpenAudioBench得分直接跌到了35.1,比基礎模型低了近20分。而只對文字片段做偏好優化的Text-Token RL方案表現好了很多,得分回升到56.2。WavAlign的動態混合方案則在兩個架構上都取得了最高的智能質量得分:VITA-Audio上57.6,KimiAudio上70.8。

在聲音表達質量方面,差異同樣顯著。監督微調在風格控制方面表現相當不錯,尤其是音調屬性和風格指令,顯示出密集監督對於習得精細聲音行為的有效性。Full-Token DPO表現極差,在VITA-Audio上VStyle綜合得分僅1.22,在KimiAudio上也只有1.70,遠低於基礎模型的2.55和2.56,這完全符合研究團隊的預測——對聲音片段施加嘈雜的偏好梯度會嚴重破壞聲音分布。WavAlign方案則在VITA-Audio上達到2.91,在KimiAudio上達到2.90,超過所有基線方法,實現了智能質量和聲音質量的同步提升。

五、逐項拆解:每個設計選擇背後的數據支撐

研究團隊還進行了系統的消融實驗,逐一驗證每個設計選擇的貢獻,就像廚師在品鑑時逐一去掉某種調料來判斷它的作用。

關於"只對文字片段做偏好優化還是對所有片段做偏好優化"這個問題:在相同的0.5/0.5固定權重下,文字片段限制版的IQ和EQ綜合得分(52.60和2.60)明顯優於全片段版(48.70和2.48)。這直接驗證了"模態分離"設計的價值。

關於"固定權重還是動態權重"這個問題:研究團隊測試了0.5/0.5和0.7SFT/0.3RL兩種固定權重方案。結果顯示,偏向監督微調的方案(0.7/0.3)EQ更好(2.72),但IQ下降(49.94);偏向偏好優化的方案(0.5/0.5)IQ更好(52.60),但EQ相對差一些(2.60)。固定權重無法同時優化兩個維度,而動態權重方案達到了55.24和2.92,兩個指標都優於所有固定權重組合,證明了動態調整的必要性。

關於EMA平滑的作用:去掉EMA(即每步直接使用當前計算的原始權重)後,IQ從55.24降到53.15,EQ從2.92降到2.53,降幅相當明顯,說明平滑操作不僅僅是錦上添花,而是穩定訓練過程的關鍵組件。

研究團隊還測試了不同EMA係數α的影響。α=0.5時,平滑不足,訓練不穩定,得分55.24/2.92降至54.80/2.85。α=0.99時,過度平滑,權重調整太遲緩,錯過了偏好優化的最佳窗口,得分降至50.95/2.88。α=0.9是最優選擇。增大每步採樣數量(從G=4增加到G=8)對IQ有進一步提升(57.19 vs 55.24),但EQ改善不明顯(2.90 vs 2.92),且計算成本翻倍,性價比一般。

研究團隊還專門進行了人類主觀評估實驗。他們從VoiceBench和VStyle各抽取20個問題,共40個測試條目,由3位獨立評審人對WavAlign方案和原始基礎模型的輸出進行盲測對比,從"有用性"和"自然度"兩個維度分別評分。結果顯示,在有用性上,WavAlign獲得63.8%的勝率,基礎模型僅20.0%;在自然度上,勝率為66.2%對20.0%;整體勝率高達68.8%對17.5%,比例接近4:1。兩個維度的統計檢驗p值均小於0.001,說明這個差異不是偶然的。

說到底,WavAlign解決的問題比看上去要深刻得多。它不僅僅是改進了一個語音AI的性能,更重要的是,它揭示了一個長期被忽視的問題:當你試圖同時改進一個系統的兩種不同能力時,如果它們共享同一套參數,就需要非常謹慎地設計優化策略,否則兩個目標會互相干擾,得不償失。研究團隊用嚴格的實驗證明了三件事:聲音質量的獎勵信號確實比語義質量的獎勵信號更不可靠;對聲音片段施加偏好優化確實會破壞聲音分布;動態混合兩種訓練目標比任何單一目標或固定混合都更有效。

當然,這項研究也坦誠地指出了自身的局限。目前使用的是序列級別的獎勵信號,如果能有更精細的片段級或幀級反饋,聲音質量可能可以進一步提升。另外,用於判斷聲音質量的AI評判模型可靠性仍然有限,這是整個領域目前面臨的共同挑戰。隨著這類評判模型不斷改進,WavAlign框架的潛力可能還沒有被完全發揮出來。

對於普通用戶來說,這項研究意味著未來的語音AI助手有機會做到真正意義上的"又聰明又好聽":不僅能給出準確有用的答案,還能在適當的時候用恰當的語氣、節奏和情感來表達,而不是為了其中一個犧牲另一個。這距離真正自然的人機語音對話,又近了一步。有興趣深入了解技術細節的讀者,可以通過arXiv:2604.14932查閱完整論文。

Q&A

Q1:WavAlign方法和普通的強化學習訓練方法有什麼本質區別?

A:普通強化學習直接對語音模型輸出的全部片段(包括文字和聲音)進行偏好優化,導致聲音部分接受噪聲梯度信號,聲音質量惡化。WavAlign的核心區別在於三點:偏好優化只作用於文字片段,聲音部分專由監督微調負責;訓練權重根據每步回答質量動態調整,而非固定比例;通過指數移動平均平滑權重變化,防止訓練不穩定。這三個設計共同確保了語義和聲音質量同步提升。

Q2:WavAlign在實驗中選了哪兩種語音對話模型做測試,為什麼要選兩種?

A:研究團隊選擇了VITA-Audio(交錯流架構,文字和聲音片段交替穿插輸出)和KimiAudio(並行架構,文字流和聲音流同步獨立生成)兩種結構完全不同的模型。選擇兩種架構的目的是驗證WavAlign的通用性——如果方案只在某一種架構上有效,說明它依賴特定的架構特性;在兩種不同架構上都能穩定提升,才說明這是一套真正與架構無關的通用訓練方案。

Q3:WavAlign訓練用的13500條數據是怎麼來的,偏好數據對是怎麼構建的?

A:訓練數據來自多個公開數據集(如GSM8K數學推理、UltraChat多輪對話、Alpaca指令遵循等)以及團隊自行構建的情感對話、音量和語速控制等數據,總計13510條。偏好數據的構建方式是:對每個問題讓模型重複採樣8次生成8個回答,用AI評判模型分別打出語義分和聲音分,按0.5:0.5權重合併成效用分,選效用分最高的和最低的組成一對偏好數據,且只保留兩者效用分差距超過0.5的數據對,以減少噪聲信號的干擾。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新