宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

港科大聯手騰訊,打造史上首個"全能音頻大腦":一個模型,聽懂、創作、編輯三合一

2026年04月22日 首頁 » 熱門科技

這項由香港科技大學與騰訊微信視覺團隊聯合開展的研究,成果以預印本形式發布於2026年4月12日,論文編號為arXiv:2604.10708,感興趣的讀者可通過該編號查閱完整論文。

人類的耳朵每天要處理三種截然不同的聲音世界:自然界中汽車鳴笛、狗吠、雨聲等各種"通用音效";樂器演奏出的音樂;以及人與人之間交流的語音。長久以來,AI領域處理這三類聲音的方式,就像一家餐廳聘請了三位不同的廚師,每位只會做一類菜餚——音效生成的模型管不了音樂,音樂生成的模型也處理不了語音,更別說同時"聽懂"聲音再去"加工"它了。

研究團隊把這個割裂的現狀比喻成一個困境:你要給一段影片配音,需要同時找三個專業工具,它們彼此不通氣,也無法聯動學習。而這個項目——Audio-Omni——就是要打破這堵牆,用一個統一的系統完成所有事情。

在正式進入技術細節之前,先說說這項研究的野心有多大。Audio-Omni要做到的事情包括:聽懂一段音頻並回答關於它的問題,根據文字描述憑空生成音效或音樂,根據影片畫面自動匹配音效,把文字讀成指定人聲,把一段吉他聲"變身"為薩克斯風,從一段嘈雜錄音里剝離出單獨的聲源,甚至能理解中文指令去生成英文音頻。所有這些,由同一個系統完成,不切換,不中斷。

---

一、為什麼以前沒人做成這件事

音頻世界之所以難以統一,有一個根本原因:這三類聲音在數學結構上差異極大,就像要求同一個演員既能演功夫片、又能演歌劇、還能演脫口秀——技能之間幾乎沒有重疊。

過去的一些嘗試確實試圖做整合,但都有明顯短板。有些系統把多個專門模型拼接在一起,通過中間人協調調度,結果就像一個樂隊裡每個人都戴著耳機聽自己的,最終演奏出來的東西不協調。另一些系統則只挑了其中一兩類聲音來做,比如專門處理語音的,或者只管音樂的,沒能真正覆蓋全局。而音頻"編輯"這個方向就更慘——因為根本沒有足夠的訓練數據,幾乎沒有模型能做好"按照文字指令修改一段音頻"這件事。

Audio-Omni的研究團隊發現,數據稀缺是阻礙音頻編輯領域發展的最大攔路虎。於是他們決定自己動手,先解決數據問題,再構建模型。

---

二、先造"食材":一百萬條音頻編輯數據從哪來

研究團隊專門為這個項目構建了一個叫做AudioEdit的數據集,規模超過一百萬條樣本,覆蓋四種編輯任務:往音頻里"加"一個聲音、從音頻里"刪"一個聲音、從混合音頻里"提取"某個聲源,以及改變某段音頻的"風格"。

這個數據集的構建方式頗具匠心,分成兩條並行的流水線。一條叫"真實數據分支",專門從現有的真實錄音資料庫(如VGGSound影片音頻數據集)里挖掘真實的編輯對。具體操作是這樣的:先用谷歌的Gemini 2.5 Pro大語言模型分析每段音頻里主要是什麼聲音在發聲,再用一個叫SAM-Audio的音頻分割模型把那個聲音從背景中剝離出來,得到"目標聲音"和"剩餘背景"兩條軌道,然後對這兩條軌道做嚴格的質量篩選。這個篩選過程非常苛刻:從最初的54萬條候選樣本出發,先通過語音活動檢測剔除沉默段,保留約34.7萬條;再通過CLAP(一種基於語言的音頻語義匹配工具)驗證分離結果是否符合語義,最終保留約5萬條高質量樣本,整體保留率約9.2%。研究團隊還專門邀請人工核驗了一批樣本,人工認可率約83%,證明這個篩選流程是可靠的。

風格遷移任務的數據構建更有創意:以篩選出的目標聲音為基礎,再次用Gemini生成"語義相近但風格不同"的關鍵詞——比如原來是吉他,就生成"薩克斯風"——然後用一個叫ZETA的工具把音頻變換到新風格,同時保持節奏和音高不變,最後再把變換後的音頻和剩餘背景重新混合。這樣就得到了真實感很強的"風格遷移前後對",共約50萬條。

另一條流水線叫"合成數據分支",用程序化的方式批量生成音景:從ESC-50環境聲數據集裡隨機選取前景音效,疊加到AudioCaps背景音頻上,同時隨機調整開始時間、信噪比、音高偏移和時間拉伸參數,得到大量標註精確的加減提取任務數據。

兩條流水線合併之後,AudioEdit共包含約110萬條訓練樣本,覆蓋四種任務,另配有2000條測試樣本。這個數據集本身就是一項獨立貢獻,將會公開發布供研究者使用。

---

三、模型架構:一個"大腦"指揮,一個"工坊"執行

Audio-Omni的核心設計思路,可以用一家專業製作公司來理解:公司里有一位資深總監,負責理解客戶需求、調動知識和判斷;還有一個技術工坊,負責實際產出音頻成品。總監和工坊之間有一套精心設計的溝通機制,確保資訊傳遞既不失真,又高效。

具體而言,"總監"的角色由一個叫Qwen2.5-Omni-3B的多模態大語言模型(可以理解文字、音頻、影片的綜合型AI)擔任,並且這個總監在訓練過程中始終保持"凍結"狀態——也就是說,它的知識和能力不會被改變,而是原封不動地保留下來,為整個系統提供知識基礎。這種設計背後有一個關鍵洞察:大語言模型積累的知識太寶貴了,如果為了音頻任務反覆微調它,很可能把它原有的理解能力"磨掉"。

"工坊"則是一個叫做擴散變換器(Diffusion Transformer,簡稱DiT)的生成網路,專門負責把各種條件信號轉化為最終的音頻波形。它共有36個處理層,隱藏維度2048,32個注意力頭,參數量約為7.9億,是整個系統里唯一在訓練中被更新權重的部分。

總監和工坊之間的溝通,由一套"雙通道信號體系"完成。第一條通道叫"高級語義通道",負責傳遞"這段音頻應該是什麼"的指令性資訊——它把大語言模型倒數第二層的隱藏狀態(這一層被證明比最後一層更適合做生成任務,因為最後一層已經過於專門化地服務於文字預測了)和文字轉錄的字符級編碼拼接在一起,通過"交叉注意力"機制注入工坊,讓工坊在每一步生成過程中都能隨時"查閱"指令。第二條通道叫"低級信號通道",負責傳遞"這段音頻在時間上應該怎麼對齊"的具體參考資訊——它把參考音頻的梅爾頻譜特徵(一種表示聲音頻率隨時間變化的圖像)和影片的同步特徵拼接後,直接與帶噪聲的音頻潛在表示"合併"成輸入,給工坊提供逐幀級別的精確引導。

選擇從大語言模型倒數第二層提取特徵,是一個經過消融實驗驗證的設計決策。研究團隊比較了最後一層、倒數第二層、以及兩種基於可學習查詢機制的變體,發現倒數第二層的原始特徵序列效果最好,說明音頻生成對資訊"純度"高度敏感——任何資訊壓縮或篩選都會損害生成質量。

整個模型的訓練使用的是一種叫做"整流流"(Rectified Flow)的框架,可以直觀理解為:系統學習如何把一團隨機噪聲沿著一條儘可能筆直的軌跡"推"向目標音頻,而不是像早期擴散模型那樣走彎彎曲曲的隨機路徑。這條直路不僅訓練更穩定,推理時也更快。

---

四、訓練細節:餵給它什麼,它就學會什麼

研究團隊用約4.3萬億字節量級的混合數據訓練了DiT工坊,涵蓋六大方向。文字轉音效方向用了約1400小時的數據,來源包括AudioCaps、WavCaps、AudioSetCaps和AudioTime等數據集。影片轉音效方向用了約700小時的VGGSound和AudioSet Strong數據。文字轉音樂方向規模最大,約1.7萬小時,融合了多個音樂描述數據集。影片轉音樂方向約1.6萬小時,來自V2M基準數據集。語音方向約6000小時,使用了Audio-FLAN的英語子集。音頻編輯方向約3000小時,正是前面介紹的AudioEdit數據集。

訓練時有一個針對語音任務的特殊策略:在輸入參考語音的梅爾頻譜時,隨機遮蓋20%到75%的內容,逼迫模型從不完整的片段里推斷出說話人的整體音色特徵,同時用完整的文字轉錄重建整段語音。這個"遮擋學習"策略是語音克隆和語音編輯能力的關鍵來源——模型因此學會了"從一小段聲音樣本推斷一個人的全部嗓音特徵"。

整個訓練過程約進行了8萬步,批量大小5120,使用AdamW優化器,學習率5e-5。推理時使用100步ODE數值求解器生成音頻潛變量,再由預訓練VAE解碼為最終波形,無分類器引導係數設為6.0。

---

五、測試結果:數字背後的實力對比

研究團隊在多個公開基準測試上評估了Audio-Omni,與專門模型和其他統一模型進行了全面對比。

在音頻理解方面,Audio-Omni在MMSU(覆蓋47項口語任務)和MMAU(覆蓋27項跨領域推理技能)兩個基準上的表現,超過了大多數統一型模型,並接近專門的理解模型水準。得分分別為56.83和63.30,與同樣基於Qwen2.5-Omni-3B底座的專用理解模型持平——這證明"凍結總監"的策略成功保留了原有的理解能力,沒有在訓練過程中退化。

在生成任務上,Audio-Omni使用FAD(頻譜音頻距離,數值越低越好)作為核心評估指標。文字轉音效任務上得分1.86,與業界頂級的專門模型AudioX持平;文字轉音樂任務上得分1.94,優於包括MusicGen和Stable-Audio-Open在內的多個專門模型;影片轉音效任務上得分1.71,優於MMAudio和VATT;影片轉音樂任務上得分1.58,優於VidMuse和AudioX;語音合成任務上的詞錯率達到1.77%,優於F5-TTS(1.83%)、MaskGCT(2.62%)和CosyVoice3(2.46%)等專門的語音合成系統。換句話說,這個統一系統在語音合成這一單項上,竟然比很多專門為此設計的模型更好,這一點是研究團隊也感到振奮的結果。

在音頻編輯任務上,Audio-Omni在平均FAD(3.27)和平均對數譜距離LSD(2.27,越低越好)上都優於ZETA、SDEdit和MMEDIT三個對比系統,CLAP語義相關性得分(0.32,越高越好)也排第一。從分項來看,四個任務(添加、刪除、提取、風格遷移)中,Audio-Omni在刪除和風格遷移上表現最為突出,添加和提取任務也有競爭力。

研究團隊還專門邀請了20位音頻專業人員做主觀評測,對"整體質量"和"與條件的相關性"兩個維度打分(滿分100分)。Audio-Omni在文字轉音樂(82.7/81.6)、影片轉音樂(80.3/81.0)和音頻編輯(79.8/81.5)三個方向上得分最高,在文字轉音效方向與AudioX非常接近,僅在影片轉音效方向略低於MMAudio,整體表現相當均衡。

---

六、"意外"能力:沒教過,但它學會了

這部分或許是整篇論文最有意思的發現。研究團隊在實驗過程中發現,Audio-Omni因為"總監"的知識被完整保留,自然繼承了一些從未被明確訓練過的能力。

第一項是"知識增強生成"。當你告訴系統"生成一段吉米·亨德里克斯演奏的樂器在歡樂氛圍下的音樂"時,系統需要先知道吉米·亨德里克斯是誰、他演奏什麼樂器(電吉他),才能生成對應的音頻。這是純粹的世界知識推理,普通的文字轉音頻模型無法完成,但Audio-Omni因為"總監"具備這種知識,自然做到了。

第二項是"上下文學習生成"。提供一段鋼琴錄音作為參考,再用文字描述"用同樣的樂器演奏一段緊張感遞進的和弦進行",系統能夠從那段錄音里提取鋼琴的音色特徵,並把它應用到全新合成的音樂片段上。這種能力類似於大語言模型的"少樣本學習"——看一個例子就知道格式,再舉一反三。

第三項是"零樣本跨語言控制"。系統的訓練數據幾乎全是英文的,但在測試中,用中文、西班牙語、德語、法語、日語等多種語言給出指令,系統都能生成質量相近的音頻。以中文指令的表現最佳(FAD 2.26,接近英文的1.86),其他語言也保持在合理範圍內。這個能力完全來自"總監"對多語言的理解能力,無需任何額外訓練。

第四項是"零樣本語音克隆與編輯"。由於訓練時採用了遮擋策略,系統學會了從一小段語音樣本中提取音色,並在新的內容上重現這種音色;同時也能接受指令"把這段話中的'好'改成'差'"之類的局部編輯,精確修改內容的同時保持其餘部分不變。

這些能力都沒有被顯式訓練,卻自然地從架構設計中"浮現"出來,這正是"解耦架構"策略的核心價值:用一個擁有豐富知識的凍結大模型作為基礎,生成模組不僅獲得了基本的指令理解能力,還順便繼承了大模型積累的所有"額外技能"。

---

七、實驗驗證:怎麼知道設計是對的

研究團隊還做了一系列消融實驗,逐一驗證每個設計選擇的必要性。

在數據組合實驗中,對比了"僅用真實數據"、"僅用合成數據"、"兩者混合"三種方案。結果顯示混合方案在所有指標上均最優,而僅用合成數據的方案在LSD(對數譜距離)上遠高於其他方案(5.17對比約1.8),說明單靠程序化生成的數據,模型根本學不好對真實音頻的處理方式。這一發現從側面證明了構建真實數據分支的必要性。

在條件注入方式實驗中,比較了四種不同的特徵分配方案:把所有特徵都只用交叉注意力注入、把所有特徵都只用拼接注入、以及各種分拆方式。結果非常一致地指向同一個最優方案:高級特徵(語言模型特徵和文字轉錄特徵)用交叉注意力,低級特徵(同步特徵和梅爾頻譜特徵)用拼接。這個設計背後的邏輯是:交叉注意力適合傳遞全局的、抽象的指令,讓模型在生成每一幀時都能自由"查詢"整體語義;而拼接則適合傳遞逐幀對齊的具體信號,強制模型在對應時刻對應上正確的內容。

在底座模型對比實驗中,研究團隊對比了用大語言模型特徵、T5文本編碼器、CLAP音頻編碼器三種方案做文字轉音效,以及用大語言模型特徵、CLIP視覺編碼器、VideoMAE影片編碼器三種方案做影片轉音效。大語言模型在兩項任務中均勝出,說明多模態統一編碼器帶來的跨模態理解能力,是單一模態專門編碼器無法替代的。

---

歸根結底,Audio-Omni做的事情,是把一個原本需要七八個專門工具才能完成的工作流,壓縮進了一個端到端的系統。這不僅僅是工程上的整合,更是一種架構哲學的驗證:把"理解"和"創作"兩種能力分開培養,再通過精心設計的接口連接起來,創作模組可以在不破壞理解能力的前提下,免費獲得理解模組積累的所有知識。

對普通用戶而言,這意味著一個未來的可能:你把一段嘈雜的戶外錄音發給AI,告訴它"把風聲去掉,把背景音樂換成爵士風格,再把朋友的聲音克隆到標準普通話",而這一切可以在一個對話里完成,無需在多個工具之間來回切換。當然,從論文裡的研究成果到真正好用的產品還有距離,但方向已經清晰——統一才是正途。

有一個值得繼續關注的問題:當一個系統能夠修改聲音、克隆聲音,如何防止它被用來製造虛假錄音或冒充他人?研究團隊在論文末尾也明確提出了這一倫理風險,並承諾在發布時要求用戶遵守使用條款,建議社區同步推進音頻水印和檢測技術。這個問題沒有簡單答案,但提出來本身就是負責任研究的一部分。

完整的論文和代碼、數據集將在香港科技大學和騰訊團隊的聯合主頁上發布,有興趣深入了解技術細節的讀者,可通過論文編號arXiv:2604.10708查閱原文。

---

Q&A

Q1:Audio-Omni和之前的音頻AI模型最大的區別是什麼?

A:之前的音頻AI通常是專才,一個模型只能做語音合成,另一個只能做音效生成,再另一個才能做音樂創作,彼此不互通。Audio-Omni是第一個把"聽懂聲音""生成聲音""編輯聲音"三件事合併在一個系統里完成的框架,而且覆蓋通用音效、音樂和語音三大領域,不需要在不同工具之間切換。

Q2:AudioEdit數據集是怎麼造出來的,為什麼要自己造?

A:因為市面上幾乎沒有"按指令編輯音頻"的大規模數據集,是制約這個方向發展的根本瓶頸。研究團隊用兩種方式造數據:一是從VGGSound真實錄音里用AI分離聲源,經嚴格篩選得到約5萬條真實編輯對;二是用程序自動混合音效生成大量標註精準的合成數據。兩者合併,最終得到超過110萬條樣本,覆蓋添加、刪除、提取、風格遷移四種任務。

Q3:Audio-Omni為什麼能理解中文指令但生成出正確的英文音頻?

A:因為系統里負責"理解指令"的那部分(Qwen2.5-Omni-3B大語言模型)本身就是多語言模型,能理解中文、西班牙語、日語等多種語言。這個模型在訓練中被完整保留、不做改動,它的多語言理解能力就自然傳遞給了整個系統。Audio-Omni的訓練數據雖然幾乎全是英文,但"理解"是多語言的,"生成"只需對應到正確的音頻特徵,語言之間的鴻溝就這樣被架橋了。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新