浙江大學聯手阿里巴巴：讓AI語音助手既「聰明」又「有感情」，他們是怎麼做到的？

這項由浙江大學、阿里巴巴集團通義音頻團隊及北京工業大學聯合開展的研究，以預印本形式發布於2026年4月，論文編號為arXiv:2604.14932，有興趣深入了解的讀者可通過該編號查詢完整原文。

贊助商廣告

當你和語音助手對話時，你是否曾有過這樣的感受：它給出的答案要麼乾巴巴缺乏溫度，要麼語氣生硬得像一台機器？或者反過來，當它嘗試表現得更"有感情"時，說出來的內容卻開始出錯、答非所問？這個矛盾幾乎是所有語音對話AI系統長期以來的痛點，也正是這篇論文試圖破解的核心謎題。

研究團隊把這個問題比作一道兩難的烹飪難題：你想讓一道菜既入味又保持食材的鮮嫩，但用大火猛炒固然入味快，卻往往把食材炒老；小火慢燉雖然保鮮嫩，卻又難以充分入味。過去，工程師們要麼專注於讓AI"說得准"，要麼專注於讓AI"說得好聽"，魚與熊掌很難兼得。這支來自頂尖高校和科技公司的聯合團隊，給出了一套名為WavAlign的全新烹飪方案——用動態調火的方式，在同一口鍋里同時實現入味和保鮮嫩。

一、為什麼"教"AI說好話這麼難

在正式介紹這套方案之前，有必要先搞清楚這道烹飪難題的本質究竟在哪裡。

目前主流的語音對話AI大致分為兩類。一類是"級聯繫統"，把語音識別、語言理解、語言生成、語音合成等多個環節串聯起來，就像一條流水線——原料先經過一個工位處理，再傳到下一個工位，最終產出成品。這種方式穩定可控，但每個環節都有資訊損失，就像傳話遊戲，傳到最後難免走樣，而且各環節之間很難做到真正的協同。另一類是"端到端系統"，也是這篇論文重點研究的對象，它把所有處理統一在一個模型里完成，就像一位全能廚師，從備料到擺盤全部由一雙手完成。理論上這種方式有更大的潛力，可以讓語義理解和聲音表達緊密結合，但在實踐中，目前開源的端到端系統往往表現差強人意。

贊助商廣告

研究團隊發現，一個很自然的改進思路是借鑑"強化學習"技術——這是一種在遊戲AI、文本大模型中大獲成功的訓練方法。簡單說，就是讓AI自己嘗試、獲得反饋、根據反饋調整，就像一個孩子通過不斷試錯來學習騎自行車。基於人類反饋或AI反饋的強化學習，已經讓文字大模型變得越來越聰明，那麼直接把同樣的方法套用到語音對話AI上，是否就能解決問題？

答案是：沒那麼簡單。研究團隊通過大量實驗發現，直接把強化學習用於端到端語音對話模型，往往陷入一個兩難困境：語義質量（也就是"說得準不準"、"答得好不好"）確實有所提升，但聲音質量——包括語調、節奏、情感表達——卻開始走形，變得不自然甚至奇怪。反之，如果專門優化聲音表達，語義質量又可能受損。這就像你費盡心思調出了完美的調味汁，卻發現食材在這個過程中變老了。

這個現象背後有三個互相纏繞的原因，研究團隊稱之為"三重困境"。

第一重困境叫做"跨模態的拉鋸戰"。在端到端語音模型里，文字資訊和聲音資訊是共享同一套參數（可以理解為共享同一個大腦）的。當你試圖用偏好訓練來優化文字內容時，這個調整會同時影響到聲音部分，而這種影響往往是破壞性的。兩種目標——"說得准"和"說得好聽"——就像兩個人在同一張桌子上寫字，互相干擾，反而都寫不好。

第二重困境叫做"梯度能量嚴重失衡"。在電腦訓練中，"梯度"是模型更新方向的量化指標，可以理解為"這次經驗讓模型應該朝哪個方向改進、改進多少"。研究團隊測量發現，文字部分產生的梯度能量遠遠大於聲音部分。就好比訓練團隊裡有兩個教練，一個嗓門極大、說話很清晰，另一個聲音很小、說的內容模稜兩可。最終模型主要聽嗓門大的那個教練的，嗓門小的教練建議——也就是聲音質量的改進方向——反而被淹沒，甚至帶來噪音。

贊助商廣告

第三重困境叫做"獎勵信號的稀薄與失真"。強化學習依賴獎勵信號來告訴模型"這次做得好還是不好"。對於語義內容來說，判斷對錯相對容易——答案要麼對要麼錯，要麼符合指令要麼不符合。但對於聲音質量，情況就複雜多了。"這句話說得有沒有感情？"、"語調是否自然？"這些問題連人類也很難給出精確一致的評分。研究團隊測量了多個主流AI評判模型（包括Gemini系列和GPT-4o-Audio）與人類評估之間的一致性，結果發現：在語義維度上，AI評判和人類評判的相關性相當高；但在聲音維度上，一致性明顯更低且更不穩定。換句話說，聲音質量的"裁判"本身就不夠可靠，而且這個不可靠的裁判還要給長達幾百個聲音片段的序列進行"功勞分配"，最終結果自然混亂。

二、四個關鍵發現，構成了解題的基礎

在提出解決方案之前，研究團隊做了一系列精心設計的診斷實驗，就像醫生在開藥方之前先做全面檢查一樣。這些實驗最終形成了四個關鍵觀察，每一個觀察都直接指向了最終方案的某個設計選擇。

第一個觀察關注的是不同訓練方式產生的"改變幅度"。研究團隊用同一段對話內容，分別觀察了標準監督微調（簡單說就是讓模型反覆學習正確示例，就像讓學生抄課文）和強化學習偏好優化（讓模型在對比中擇優，就像讓學生做選擇題）兩種訓練方式對模型輸出概率的影響。結果很清楚：監督微調會在整個輸出序列上造成大幅度、一致性強的概率變化，就像把整塊麵團均勻揉開；而強化學習由於內置的穩定性約束（防止模型改變太快），造成的變化要小得多，而且分散在局部位置。這個發現說明：如果你想讓模型在某個維度上實現可靠的大幅改變，監督微調更管用；強化學習更像是在已有基礎上做局部打磨。

第二個觀察驗證了之前關於獎勵信號可靠性的擔憂。研究團隊讓多個AI評判模型對同一批語音回答評分，同時收集人類評分，然後計算兩者的相關性。他們分別計算了語義維度和聲音維度的相關性，結果一目了然：語義維度上，AI評分和人類評分的皮爾遜相關係數普遍在0.6到0.76之間，相當不錯；但聲音維度上，相關係數普遍更低，部分評判模型甚至只有0.2到0.4。更重要的是，他們還計算了"組內斯皮爾曼相關係數"——這個指標衡量的是：對同一個問題，AI評判能否像人類一樣準確區分出哪個回答的聲音更好？結果同樣顯示語義維度遠優於聲音維度。這直接說明：用AI來判斷聲音好壞，並以此來訓練模型，誤差太大，容易讓模型學歪。

贊助商廣告

第三個觀察深入到了數學層面，揭示了為什麼直接對混合文字和聲音的序列做偏好優化會出問題。研究團隊計算了在不同訓練方式下，文字部分的梯度和聲音部分的梯度之間的餘弦相似度（可以理解為兩個更新方向的"一致程度"）。結果是：兩者的餘弦相似度接近零，而且方差很大。這意味著文字更新方向和聲音更新方向幾乎完全無關，有時甚至相互對抗。當偏好優化把一個"序列級別"的好壞判斷平攤到所有聲音片段上時，大量的聲音片段實際上接受了無意義甚至有害的梯度信號，就像把一份針對整道菜的點評強行分攤到每一粒鹽、每一滴油上，結果所有調味品都被調得亂七八糟。

第四個觀察發現了不同訓練階段、不同模型的"辨別度"差異。研究團隊用重複採樣的方式，讓同一個模型在同一個問題上生成多個回答，然後觀察這些回答在語義維度和聲音維度上的分散程度。他們發現：聲音維度的分散程度（也就是"不同回答之間聲音質量的差異"）普遍低於語義維度，尤其是在較弱的基礎模型上。這意味著：如果模型本身能力有限，它生成的多個回答在聲音質量上都差不多，沒有明顯好壞之分，這時候基於這些回答的偏好學習就變得無從下手，甚至會引入噪音。

三、動態混合訓練：同一口鍋里的精妙調火術

基於這四個關鍵觀察，研究團隊設計出了WavAlign的核心機制——一套單階段的動態混合訓練方案。

這套方案的基本邏輯可以用烹飪來理解：對於需要大幅改變、精確塑造的食材（聲音質量），用慢火燉煮（監督微調）來持續穩定地施加影響；對於需要精細調味、根據口感隨時調整的部分（語義質量），用隨時可以加減的調味（偏好優化）來進行精準修正；同時，還需要一個聰明的廚師，根據當下食材的狀態（每一輪訓練時模型生成的回答質量）來動態決定大火還是小火、多調味還是少調味。

贊助商廣告

具體來說，這套方案做了三個層面的設計。

第一個設計是"模態分離"的優化策略。研究團隊決定：監督微調的損失函數覆蓋所有文字和聲音片段；但偏好優化（強化學習）的損失函數隻作用於文字片段，聲音片段被隱藏在偏好優化的影響範圍之外。這個設計直接切斷了偏好優化對聲音分布的干擾，讓聲音質量完全由監督微調來負責維護，而語義質量則接受偏好優化的精煉。兩個目標各司其職，互不干涉，就像把調味和火候的控制權交給了不同的廚師。

第二個設計是動態權重門控機制。總損失函數是監督微調損失和偏好優化損失的加權組合，權重分別是（1-λ）和λ。關鍵在於，這個λ不是一個固定數值，而是根據每一步訓練時模型生成回答的質量動態計算的。具體計算方式涉及兩個"門"：第一個是"方向門"，檢查這一輪生成的回答里有沒有至少一個"還過得去"的答案——如果所有回答質量都很差，說明偏好信號不可靠，就壓低λ，讓監督微調多發揮作用；第二個是"資訊量門"，檢查這一輪迴答在獎勵分數上的分散程度——如果所有回答獎勵差不多，說明沒有足夠的區分資訊，同樣壓低λ。兩個門相乘，再乘以一個最大值係數（設定為0.8，這樣即使條件最好，監督微調也始終保留至少20%的權重，作為聲音質量的安全錨點），得到原始權重。

第三個設計是指數移動平均（EMA）平滑。由於每一步訓練的隨機性，原始權重會有較大的抖動，就像一個焦慮的廚師不停調溫度，導致菜始終無法穩定。研究團隊引入了一個平滑係數α=0.9，讓當前權重等於90%的上一步權重加上10%的當前原始權重，相當於給火候控制加了一個慣性緩衝，讓調整更加平穩漸進。實驗表明，這個平滑操作對最終性能有相當關鍵的影響。

值得一提的是，整個訓練流程是單階段的——監督微調和偏好優化在同一個循環里同時進行，而不是先做完監督微調再做偏好優化的兩階段方式。研究團隊也測試了兩階段方案，發現效果反而更差，這說明兩種目標的協同對於最終效果至關重要。

贊助商廣告

四、在兩種完全不同的AI架構上驗證效果

為了證明這套方案不是針對某一種特定架構的"專屬優化"，研究團隊在兩種結構截然不同的端到端語音對話模型上進行了實驗。

第一種是VITA-Audio，它的輸出方式是把文字片段和聲音片段交替穿插在同一個流里，就像把字母和符號混在一行輸出。第二種是KimiAudio，它採用並行設計，文字流和聲音流是同步但獨立的兩條軌道，類似於影片的畫面軌和音頻軌。

訓練數據方面，研究團隊精心準備了總計13510條音頻指令樣本，覆蓋了多個不同的能力維度。這些數據來自多個公開數據集，包括常識問答（SciQ）、數學推理（GSM8K）、多輪對話（UltraChat）、指令遵循（Alpaca）、科學問答（ScienceQA）、安全對齊（PKUSafe）等，以及團隊自行構建的情感對話、音量控制、語速控制、邏輯推理等數據。對於偏好學習，團隊通過讓模型對同一問題重複採樣8次，再用AI評判模型評分，按效用函數選出最好和最差的一對，構建偏好對數據。

評估基準涵蓋了三個維度。第一個是VoiceBench，覆蓋指令遵循、安全問答、常識推理、格式控制等多個子任務，用GPT-4o-mini作為文字層面的評判模型。第二個是OpenAudioBench，專注於知識廣度和推理能力，包括通用問答、專業知識、邏輯推理等，用GPT-4o作為評判。第三個是VStyle，專門評估聲音表達能力，包括音調屬性控制、風格指令遵循、角色扮演、情感表達四個子維度，使用Gemini-2.5-Pro對實際生成的語音進行評分。

在智能質量方面，一個有些出人意料的發現是：標準的監督微調在這個任務上表現往往不如基礎模型——在VITA-Audio上，監督微調的OpenAudioBench綜合得分從55.0降到了50.7，在KimiAudio上也從69.1降到了64.9。研究團隊認為這是因為13500條數據覆蓋了太多不同領域，產生了梯度干擾，沖淡了模型原有的推理能力，這個現象在機器學習領域被稱為"對齊稅"。對全部片段做偏好優化的方案同樣問題明顯，Full-Token DPO在VITA-Audio上的OpenAudioBench得分直接跌到了35.1，比基礎模型低了近20分。而只對文字片段做偏好優化的Text-Token RL方案表現好了很多，得分回升到56.2。WavAlign的動態混合方案則在兩個架構上都取得了最高的智能質量得分：VITA-Audio上57.6，KimiAudio上70.8。

贊助商廣告

在聲音表達質量方面，差異同樣顯著。監督微調在風格控制方面表現相當不錯，尤其是音調屬性和風格指令，顯示出密集監督對於習得精細聲音行為的有效性。Full-Token DPO表現極差，在VITA-Audio上VStyle綜合得分僅1.22，在KimiAudio上也只有1.70，遠低於基礎模型的2.55和2.56，這完全符合研究團隊的預測——對聲音片段施加嘈雜的偏好梯度會嚴重破壞聲音分布。WavAlign方案則在VITA-Audio上達到2.91，在KimiAudio上達到2.90，超過所有基線方法，實現了智能質量和聲音質量的同步提升。

五、逐項拆解：每個設計選擇背後的數據支撐

研究團隊還進行了系統的消融實驗，逐一驗證每個設計選擇的貢獻，就像廚師在品鑑時逐一去掉某種調料來判斷它的作用。

關於"只對文字片段做偏好優化還是對所有片段做偏好優化"這個問題：在相同的0.5/0.5固定權重下，文字片段限制版的IQ和EQ綜合得分（52.60和2.60）明顯優於全片段版（48.70和2.48）。這直接驗證了"模態分離"設計的價值。

關於"固定權重還是動態權重"這個問題：研究團隊測試了0.5/0.5和0.7SFT/0.3RL兩種固定權重方案。結果顯示，偏向監督微調的方案（0.7/0.3）EQ更好（2.72），但IQ下降（49.94）；偏向偏好優化的方案（0.5/0.5）IQ更好（52.60），但EQ相對差一些（2.60）。固定權重無法同時優化兩個維度，而動態權重方案達到了55.24和2.92，兩個指標都優於所有固定權重組合，證明了動態調整的必要性。

關於EMA平滑的作用：去掉EMA（即每步直接使用當前計算的原始權重）後，IQ從55.24降到53.15，EQ從2.92降到2.53，降幅相當明顯，說明平滑操作不僅僅是錦上添花，而是穩定訓練過程的關鍵組件。

研究團隊還測試了不同EMA係數α的影響。α=0.5時，平滑不足，訓練不穩定，得分55.24/2.92降至54.80/2.85。α=0.99時，過度平滑，權重調整太遲緩，錯過了偏好優化的最佳窗口，得分降至50.95/2.88。α=0.9是最優選擇。增大每步採樣數量（從G=4增加到G=8）對IQ有進一步提升（57.19 vs 55.24），但EQ改善不明顯（2.90 vs 2.92），且計算成本翻倍，性價比一般。

贊助商廣告

研究團隊還專門進行了人類主觀評估實驗。他們從VoiceBench和VStyle各抽取20個問題，共40個測試條目，由3位獨立評審人對WavAlign方案和原始基礎模型的輸出進行盲測對比，從"有用性"和"自然度"兩個維度分別評分。結果顯示，在有用性上，WavAlign獲得63.8%的勝率，基礎模型僅20.0%；在自然度上，勝率為66.2%對20.0%；整體勝率高達68.8%對17.5%，比例接近4:1。兩個維度的統計檢驗p值均小於0.001，說明這個差異不是偶然的。

說到底，WavAlign解決的問題比看上去要深刻得多。它不僅僅是改進了一個語音AI的性能，更重要的是，它揭示了一個長期被忽視的問題：當你試圖同時改進一個系統的兩種不同能力時，如果它們共享同一套參數，就需要非常謹慎地設計優化策略，否則兩個目標會互相干擾，得不償失。研究團隊用嚴格的實驗證明了三件事：聲音質量的獎勵信號確實比語義質量的獎勵信號更不可靠；對聲音片段施加偏好優化確實會破壞聲音分布；動態混合兩種訓練目標比任何單一目標或固定混合都更有效。

當然，這項研究也坦誠地指出了自身的局限。目前使用的是序列級別的獎勵信號，如果能有更精細的片段級或幀級反饋，聲音質量可能可以進一步提升。另外，用於判斷聲音質量的AI評判模型可靠性仍然有限，這是整個領域目前面臨的共同挑戰。隨著這類評判模型不斷改進，WavAlign框架的潛力可能還沒有被完全發揮出來。

對於普通用戶來說，這項研究意味著未來的語音AI助手有機會做到真正意義上的"又聰明又好聽"：不僅能給出準確有用的答案，還能在適當的時候用恰當的語氣、節奏和情感來表達，而不是為了其中一個犧牲另一個。這距離真正自然的人機語音對話，又近了一步。有興趣深入了解技術細節的讀者，可以通過arXiv:2604.14932查閱完整論文。

Q&A

Q1：WavAlign方法和普通的強化學習訓練方法有什麼本質區別？

贊助商廣告

A：普通強化學習直接對語音模型輸出的全部片段（包括文字和聲音）進行偏好優化，導致聲音部分接受噪聲梯度信號，聲音質量惡化。WavAlign的核心區別在於三點：偏好優化只作用於文字片段，聲音部分專由監督微調負責；訓練權重根據每步回答質量動態調整，而非固定比例；通過指數移動平均平滑權重變化，防止訓練不穩定。這三個設計共同確保了語義和聲音質量同步提升。

Q2：WavAlign在實驗中選了哪兩種語音對話模型做測試，為什麼要選兩種？

A：研究團隊選擇了VITA-Audio（交錯流架構，文字和聲音片段交替穿插輸出）和KimiAudio（並行架構，文字流和聲音流同步獨立生成）兩種結構完全不同的模型。選擇兩種架構的目的是驗證WavAlign的通用性——如果方案只在某一種架構上有效，說明它依賴特定的架構特性；在兩種不同架構上都能穩定提升，才說明這是一套真正與架構無關的通用訓練方案。

Q3：WavAlign訓練用的13500條數據是怎麼來的，偏好數據對是怎麼構建的？

A：訓練數據來自多個公開數據集（如GSM8K數學推理、UltraChat多輪對話、Alpaca指令遵循等）以及團隊自行構建的情感對話、音量和語速控制等數據，總計13510條。偏好數據的構建方式是：對每個問題讓模型重複採樣8次生成8個回答，用AI評判模型分別打出語義分和聲音分，按0.5:0.5權重合併成效用分，選效用分最高的和最低的組成一對偏好數據，且只保留兩者效用分差距超過0.5的數據對，以減少噪聲信號的干擾。