港科大聯手騰訊，打造史上首個"全能音頻大腦"：一個模型，聽懂、創作、編輯三合一

這項由香港科技大學與騰訊微信視覺團隊聯合開展的研究，成果以預印本形式發布於2026年4月12日，論文編號為arXiv:2604.10708，感興趣的讀者可通過該編號查閱完整論文。

贊助商廣告

人類的耳朵每天要處理三種截然不同的聲音世界：自然界中汽車鳴笛、狗吠、雨聲等各種"通用音效"；樂器演奏出的音樂；以及人與人之間交流的語音。長久以來，AI領域處理這三類聲音的方式，就像一家餐廳聘請了三位不同的廚師，每位只會做一類菜餚——音效生成的模型管不了音樂，音樂生成的模型也處理不了語音，更別說同時"聽懂"聲音再去"加工"它了。

研究團隊把這個割裂的現狀比喻成一個困境：你要給一段影片配音，需要同時找三個專業工具，它們彼此不通氣，也無法聯動學習。而這個項目——Audio-Omni——就是要打破這堵牆，用一個統一的系統完成所有事情。

在正式進入技術細節之前，先說說這項研究的野心有多大。Audio-Omni要做到的事情包括：聽懂一段音頻並回答關於它的問題，根據文字描述憑空生成音效或音樂，根據影片畫面自動匹配音效，把文字讀成指定人聲，把一段吉他聲"變身"為薩克斯風，從一段嘈雜錄音里剝離出單獨的聲源，甚至能理解中文指令去生成英文音頻。所有這些，由同一個系統完成，不切換，不中斷。

---

一、為什麼以前沒人做成這件事

音頻世界之所以難以統一，有一個根本原因：這三類聲音在數學結構上差異極大，就像要求同一個演員既能演功夫片、又能演歌劇、還能演脫口秀——技能之間幾乎沒有重疊。

過去的一些嘗試確實試圖做整合，但都有明顯短板。有些系統把多個專門模型拼接在一起，通過中間人協調調度，結果就像一個樂隊裡每個人都戴著耳機聽自己的，最終演奏出來的東西不協調。另一些系統則只挑了其中一兩類聲音來做，比如專門處理語音的，或者只管音樂的，沒能真正覆蓋全局。而音頻"編輯"這個方向就更慘——因為根本沒有足夠的訓練數據，幾乎沒有模型能做好"按照文字指令修改一段音頻"這件事。

贊助商廣告

Audio-Omni的研究團隊發現，數據稀缺是阻礙音頻編輯領域發展的最大攔路虎。於是他們決定自己動手，先解決數據問題，再構建模型。

---

二、先造"食材"：一百萬條音頻編輯數據從哪來

研究團隊專門為這個項目構建了一個叫做AudioEdit的數據集，規模超過一百萬條樣本，覆蓋四種編輯任務：往音頻里"加"一個聲音、從音頻里"刪"一個聲音、從混合音頻里"提取"某個聲源，以及改變某段音頻的"風格"。

這個數據集的構建方式頗具匠心，分成兩條並行的流水線。一條叫"真實數據分支"，專門從現有的真實錄音資料庫（如VGGSound影片音頻數據集）里挖掘真實的編輯對。具體操作是這樣的：先用谷歌的Gemini 2.5 Pro大語言模型分析每段音頻里主要是什麼聲音在發聲，再用一個叫SAM-Audio的音頻分割模型把那個聲音從背景中剝離出來，得到"目標聲音"和"剩餘背景"兩條軌道，然後對這兩條軌道做嚴格的質量篩選。這個篩選過程非常苛刻：從最初的54萬條候選樣本出發，先通過語音活動檢測剔除沉默段，保留約34.7萬條；再通過CLAP（一種基於語言的音頻語義匹配工具）驗證分離結果是否符合語義，最終保留約5萬條高質量樣本，整體保留率約9.2%。研究團隊還專門邀請人工核驗了一批樣本，人工認可率約83%，證明這個篩選流程是可靠的。

風格遷移任務的數據構建更有創意：以篩選出的目標聲音為基礎，再次用Gemini生成"語義相近但風格不同"的關鍵詞——比如原來是吉他，就生成"薩克斯風"——然後用一個叫ZETA的工具把音頻變換到新風格，同時保持節奏和音高不變，最後再把變換後的音頻和剩餘背景重新混合。這樣就得到了真實感很強的"風格遷移前後對"，共約50萬條。

另一條流水線叫"合成數據分支"，用程序化的方式批量生成音景：從ESC-50環境聲數據集裡隨機選取前景音效，疊加到AudioCaps背景音頻上，同時隨機調整開始時間、信噪比、音高偏移和時間拉伸參數，得到大量標註精確的加減提取任務數據。

贊助商廣告

兩條流水線合併之後，AudioEdit共包含約110萬條訓練樣本，覆蓋四種任務，另配有2000條測試樣本。這個數據集本身就是一項獨立貢獻，將會公開發布供研究者使用。

---

三、模型架構：一個"大腦"指揮，一個"工坊"執行

Audio-Omni的核心設計思路，可以用一家專業製作公司來理解：公司里有一位資深總監，負責理解客戶需求、調動知識和判斷；還有一個技術工坊，負責實際產出音頻成品。總監和工坊之間有一套精心設計的溝通機制，確保資訊傳遞既不失真，又高效。

具體而言，"總監"的角色由一個叫Qwen2.5-Omni-3B的多模態大語言模型（可以理解文字、音頻、影片的綜合型AI）擔任，並且這個總監在訓練過程中始終保持"凍結"狀態——也就是說，它的知識和能力不會被改變，而是原封不動地保留下來，為整個系統提供知識基礎。這種設計背後有一個關鍵洞察：大語言模型積累的知識太寶貴了，如果為了音頻任務反覆微調它，很可能把它原有的理解能力"磨掉"。

"工坊"則是一個叫做擴散變換器（Diffusion Transformer，簡稱DiT）的生成網路，專門負責把各種條件信號轉化為最終的音頻波形。它共有36個處理層，隱藏維度2048，32個注意力頭，參數量約為7.9億，是整個系統里唯一在訓練中被更新權重的部分。

總監和工坊之間的溝通，由一套"雙通道信號體系"完成。第一條通道叫"高級語義通道"，負責傳遞"這段音頻應該是什麼"的指令性資訊——它把大語言模型倒數第二層的隱藏狀態（這一層被證明比最後一層更適合做生成任務，因為最後一層已經過於專門化地服務於文字預測了）和文字轉錄的字符級編碼拼接在一起，通過"交叉注意力"機制注入工坊，讓工坊在每一步生成過程中都能隨時"查閱"指令。第二條通道叫"低級信號通道"，負責傳遞"這段音頻在時間上應該怎麼對齊"的具體參考資訊——它把參考音頻的梅爾頻譜特徵（一種表示聲音頻率隨時間變化的圖像）和影片的同步特徵拼接後，直接與帶噪聲的音頻潛在表示"合併"成輸入，給工坊提供逐幀級別的精確引導。

贊助商廣告

選擇從大語言模型倒數第二層提取特徵，是一個經過消融實驗驗證的設計決策。研究團隊比較了最後一層、倒數第二層、以及兩種基於可學習查詢機制的變體，發現倒數第二層的原始特徵序列效果最好，說明音頻生成對資訊"純度"高度敏感——任何資訊壓縮或篩選都會損害生成質量。

整個模型的訓練使用的是一種叫做"整流流"（Rectified Flow）的框架，可以直觀理解為：系統學習如何把一團隨機噪聲沿著一條儘可能筆直的軌跡"推"向目標音頻，而不是像早期擴散模型那樣走彎彎曲曲的隨機路徑。這條直路不僅訓練更穩定，推理時也更快。

---

四、訓練細節：餵給它什麼，它就學會什麼

研究團隊用約4.3萬億字節量級的混合數據訓練了DiT工坊，涵蓋六大方向。文字轉音效方向用了約1400小時的數據，來源包括AudioCaps、WavCaps、AudioSetCaps和AudioTime等數據集。影片轉音效方向用了約700小時的VGGSound和AudioSet Strong數據。文字轉音樂方向規模最大，約1.7萬小時，融合了多個音樂描述數據集。影片轉音樂方向約1.6萬小時，來自V2M基準數據集。語音方向約6000小時，使用了Audio-FLAN的英語子集。音頻編輯方向約3000小時，正是前面介紹的AudioEdit數據集。

訓練時有一個針對語音任務的特殊策略：在輸入參考語音的梅爾頻譜時，隨機遮蓋20%到75%的內容，逼迫模型從不完整的片段里推斷出說話人的整體音色特徵，同時用完整的文字轉錄重建整段語音。這個"遮擋學習"策略是語音克隆和語音編輯能力的關鍵來源——模型因此學會了"從一小段聲音樣本推斷一個人的全部嗓音特徵"。

整個訓練過程約進行了8萬步，批量大小5120，使用AdamW優化器，學習率5e-5。推理時使用100步ODE數值求解器生成音頻潛變量，再由預訓練VAE解碼為最終波形，無分類器引導係數設為6.0。

---

五、測試結果：數字背後的實力對比

研究團隊在多個公開基準測試上評估了Audio-Omni，與專門模型和其他統一模型進行了全面對比。

贊助商廣告

在音頻理解方面，Audio-Omni在MMSU（覆蓋47項口語任務）和MMAU（覆蓋27項跨領域推理技能）兩個基準上的表現，超過了大多數統一型模型，並接近專門的理解模型水準。得分分別為56.83和63.30，與同樣基於Qwen2.5-Omni-3B底座的專用理解模型持平——這證明"凍結總監"的策略成功保留了原有的理解能力，沒有在訓練過程中退化。

在生成任務上，Audio-Omni使用FAD（頻譜音頻距離，數值越低越好）作為核心評估指標。文字轉音效任務上得分1.86，與業界頂級的專門模型AudioX持平；文字轉音樂任務上得分1.94，優於包括MusicGen和Stable-Audio-Open在內的多個專門模型；影片轉音效任務上得分1.71，優於MMAudio和VATT；影片轉音樂任務上得分1.58，優於VidMuse和AudioX；語音合成任務上的詞錯率達到1.77%，優於F5-TTS（1.83%）、MaskGCT（2.62%）和CosyVoice3（2.46%）等專門的語音合成系統。換句話說，這個統一系統在語音合成這一單項上，竟然比很多專門為此設計的模型更好，這一點是研究團隊也感到振奮的結果。

在音頻編輯任務上，Audio-Omni在平均FAD（3.27）和平均對數譜距離LSD（2.27，越低越好）上都優於ZETA、SDEdit和MMEDIT三個對比系統，CLAP語義相關性得分（0.32，越高越好）也排第一。從分項來看，四個任務（添加、刪除、提取、風格遷移）中，Audio-Omni在刪除和風格遷移上表現最為突出，添加和提取任務也有競爭力。

研究團隊還專門邀請了20位音頻專業人員做主觀評測，對"整體質量"和"與條件的相關性"兩個維度打分（滿分100分）。Audio-Omni在文字轉音樂（82.7/81.6）、影片轉音樂（80.3/81.0）和音頻編輯（79.8/81.5）三個方向上得分最高，在文字轉音效方向與AudioX非常接近，僅在影片轉音效方向略低於MMAudio，整體表現相當均衡。

---

六、"意外"能力：沒教過，但它學會了

這部分或許是整篇論文最有意思的發現。研究團隊在實驗過程中發現，Audio-Omni因為"總監"的知識被完整保留，自然繼承了一些從未被明確訓練過的能力。

贊助商廣告

第一項是"知識增強生成"。當你告訴系統"生成一段吉米·亨德里克斯演奏的樂器在歡樂氛圍下的音樂"時，系統需要先知道吉米·亨德里克斯是誰、他演奏什麼樂器（電吉他），才能生成對應的音頻。這是純粹的世界知識推理，普通的文字轉音頻模型無法完成，但Audio-Omni因為"總監"具備這種知識，自然做到了。

第二項是"上下文學習生成"。提供一段鋼琴錄音作為參考，再用文字描述"用同樣的樂器演奏一段緊張感遞進的和弦進行"，系統能夠從那段錄音里提取鋼琴的音色特徵，並把它應用到全新合成的音樂片段上。這種能力類似於大語言模型的"少樣本學習"——看一個例子就知道格式，再舉一反三。

第三項是"零樣本跨語言控制"。系統的訓練數據幾乎全是英文的，但在測試中，用中文、西班牙語、德語、法語、日語等多種語言給出指令，系統都能生成質量相近的音頻。以中文指令的表現最佳（FAD 2.26，接近英文的1.86），其他語言也保持在合理範圍內。這個能力完全來自"總監"對多語言的理解能力，無需任何額外訓練。

第四項是"零樣本語音克隆與編輯"。由於訓練時採用了遮擋策略，系統學會了從一小段語音樣本中提取音色，並在新的內容上重現這種音色；同時也能接受指令"把這段話中的'好'改成'差'"之類的局部編輯，精確修改內容的同時保持其餘部分不變。

這些能力都沒有被顯式訓練，卻自然地從架構設計中"浮現"出來，這正是"解耦架構"策略的核心價值：用一個擁有豐富知識的凍結大模型作為基礎，生成模組不僅獲得了基本的指令理解能力，還順便繼承了大模型積累的所有"額外技能"。

---

七、實驗驗證：怎麼知道設計是對的

研究團隊還做了一系列消融實驗，逐一驗證每個設計選擇的必要性。

在數據組合實驗中，對比了"僅用真實數據"、"僅用合成數據"、"兩者混合"三種方案。結果顯示混合方案在所有指標上均最優，而僅用合成數據的方案在LSD（對數譜距離）上遠高於其他方案（5.17對比約1.8），說明單靠程序化生成的數據，模型根本學不好對真實音頻的處理方式。這一發現從側面證明了構建真實數據分支的必要性。

贊助商廣告

在條件注入方式實驗中，比較了四種不同的特徵分配方案：把所有特徵都只用交叉注意力注入、把所有特徵都只用拼接注入、以及各種分拆方式。結果非常一致地指向同一個最優方案：高級特徵（語言模型特徵和文字轉錄特徵）用交叉注意力，低級特徵（同步特徵和梅爾頻譜特徵）用拼接。這個設計背後的邏輯是：交叉注意力適合傳遞全局的、抽象的指令，讓模型在生成每一幀時都能自由"查詢"整體語義；而拼接則適合傳遞逐幀對齊的具體信號，強制模型在對應時刻對應上正確的內容。

在底座模型對比實驗中，研究團隊對比了用大語言模型特徵、T5文本編碼器、CLAP音頻編碼器三種方案做文字轉音效，以及用大語言模型特徵、CLIP視覺編碼器、VideoMAE影片編碼器三種方案做影片轉音效。大語言模型在兩項任務中均勝出，說明多模態統一編碼器帶來的跨模態理解能力，是單一模態專門編碼器無法替代的。

---

歸根結底，Audio-Omni做的事情，是把一個原本需要七八個專門工具才能完成的工作流，壓縮進了一個端到端的系統。這不僅僅是工程上的整合，更是一種架構哲學的驗證：把"理解"和"創作"兩種能力分開培養，再通過精心設計的接口連接起來，創作模組可以在不破壞理解能力的前提下，免費獲得理解模組積累的所有知識。

對普通用戶而言，這意味著一個未來的可能：你把一段嘈雜的戶外錄音發給AI，告訴它"把風聲去掉，把背景音樂換成爵士風格，再把朋友的聲音克隆到標準普通話"，而這一切可以在一個對話里完成，無需在多個工具之間來回切換。當然，從論文裡的研究成果到真正好用的產品還有距離，但方向已經清晰——統一才是正途。

有一個值得繼續關注的問題：當一個系統能夠修改聲音、克隆聲音，如何防止它被用來製造虛假錄音或冒充他人？研究團隊在論文末尾也明確提出了這一倫理風險，並承諾在發布時要求用戶遵守使用條款，建議社區同步推進音頻水印和檢測技術。這個問題沒有簡單答案，但提出來本身就是負責任研究的一部分。

贊助商廣告

完整的論文和代碼、數據集將在香港科技大學和騰訊團隊的聯合主頁上發布，有興趣深入了解技術細節的讀者，可通過論文編號arXiv:2604.10708查閱原文。

---

Q&A

Q1：Audio-Omni和之前的音頻AI模型最大的區別是什麼？

A：之前的音頻AI通常是專才，一個模型只能做語音合成，另一個只能做音效生成，再另一個才能做音樂創作，彼此不互通。Audio-Omni是第一個把"聽懂聲音""生成聲音""編輯聲音"三件事合併在一個系統里完成的框架，而且覆蓋通用音效、音樂和語音三大領域，不需要在不同工具之間切換。

Q2：AudioEdit數據集是怎麼造出來的，為什麼要自己造？

A：因為市面上幾乎沒有"按指令編輯音頻"的大規模數據集，是制約這個方向發展的根本瓶頸。研究團隊用兩種方式造數據：一是從VGGSound真實錄音里用AI分離聲源，經嚴格篩選得到約5萬條真實編輯對；二是用程序自動混合音效生成大量標註精準的合成數據。兩者合併，最終得到超過110萬條樣本，覆蓋添加、刪除、提取、風格遷移四種任務。

Q3：Audio-Omni為什麼能理解中文指令但生成出正確的英文音頻？

A：因為系統里負責"理解指令"的那部分（Qwen2.5-Omni-3B大語言模型）本身就是多語言模型，能理解中文、西班牙語、日語等多種語言。這個模型在訓練中被完整保留、不做改動，它的多語言理解能力就自然傳遞給了整個系統。Audio-Omni的訓練數據雖然幾乎全是英文，但"理解"是多語言的，"生成"只需對應到正確的音頻特徵，語言之間的鴻溝就這樣被架橋了。