宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

NVIDIA與馬里蘭大學聯手打造「全能耳朵」:一個能聽懂30分鐘長音頻、會推理、還開源的AI模型

2026年04月21日 首頁 » 熱門科技

這項由NVIDIA研究院與美國馬里蘭大學聯合完成的研究,於2026年4月13日以預印本形式發布,論文編號為arXiv:2604.10905v1,研究方向歸屬於電腦科學中的聲音與音頻處理領域(cs.SD)。有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。

**一、為什麼人類花了這麼久,才讓AI真正"聽懂"聲音?**

人耳是一件奇妙的儀器。坐在咖啡館裡,你能同時分辨出背景音樂的旋律、鄰桌的對話內容,以及窗外偶爾傳來的救護車鳴笛——而且你不只是"聽到"了這些聲音,你還能理解它們、推斷它們的含義,甚至判斷出那首背景音樂是爵士還是流行。這種"聽懂"的能力,對人類來說不過是日常,但對AI來說,卻是一道極高的門檻。

過去很長一段時間裡,AI處理聲音的方式就像把一個複雜的交響樂團拆散——語音識別是一個專門的小模型,音樂分類是另一個,環境聲音理解又是第三個。這些模型各司其職,但彼此之間毫無溝通,就像一個樂團里的成員各自練習、從不合奏。隨著大型語言模型(可以理解為"超級聰明的文字理解機器")的崛起,研究者們開始嘗試訓練一種能把所有聲音類型都"聽懂"的統一模型,這類系統被稱為大型音頻語言模型(Large Audio Language Model,簡稱LALM)。

然而,與視覺AI相比,音頻AI的開放程度明顯滯後。很多強大的音頻模型要麼是商業閉源的,要麼訓練數據和方法不透明,研究社區難以在此基礎上繼續發展。正是在這一背景下,NVIDIA與馬里蘭大學的研究團隊推出了Audio Flamingo Next,簡稱AF-Next——一個旨在徹底打破這一局面的全能型開源音頻理解模型。

**二、AF-Next的"前輩"們幹了什麼,又在哪裡留下了遺憾?**

AF-Next並非憑空而來,它的背後有一整個"家族譜系"。Audio Flamingo系列從第一代開始,逐步進化,到第三代(AF3)已經能處理相當複雜的音頻理解任務,但研究團隊在仔細分析AF3的表現後,發現了幾類明顯的短板。

第一類問題是技能上的盲點,比如在數數(比如"這段音頻里出現了幾次鼓聲?")以及說話人分辨(即判斷某句話是誰說的)等任務上,模型表現欠佳。第二類是數據分布的局限性,模型接觸過的訓練數據主要來自學術數據集,這類數據通常是精心錄製的、乾淨整潔的音頻,而現實世界的錄音往往嘈雜、多人交疊、背景複雜。第三類是長音頻的挑戰:AF3能處理的音頻長度相對有限,但現實中的播客、會議錄音、電影片段動輒幾十分鐘,過去的模型面對這些長音頻時,就像一個人試圖在一口氣不換氣的情況下理解一部電影,很快就會力不從心。

正是帶著這些清晰認識,團隊著手構建了AF-Next,目標是在保持完全開源透明的前提下,打造一個真正能在現實世界中可靠運轉的音頻理解系統。

**三、AF-Next長什麼樣?一台精密儀器的內部構造**

AF-Next的整體結構可以用一條聲音加工流水線來理解。原始音頻進入系統後,首先經過一個名為AF-Whisper的音頻編碼器——可以把它理解為一雙精密的"耳朵",負責把聲音波形轉化為機器能處理的數字特徵。這個編碼器基於OpenAI的Whisper架構改造而來,並在更大規模、更多樣化的語料上進行了額外訓練,包括多語言語音和多說話人對話數據,使其對複雜聲音場景的感知能力大幅提升。

音頻進入時,系統先將其重採樣至16kHz單聲道格式,然後轉化為一種叫做"對數梅爾頻譜圖"的視覺化聲音表示——可以理解為把聲音的頻率變化繪製成一幅隨時間變化的熱力圖。這幅圖隨後被送入AF-Whisper,以每30秒為一個不重疊的滑動窗口進行處理,每秒提取50個時間點的特徵,再經過一個壓縮步驟將特徵密度減半,最終形成維度為1280的特徵向量序列。

這些音頻特徵接下來需要被"翻譯"成語言模型能理解的格式,這個翻譯工作由一個兩層的神經網路完成,研究者稱之為音頻適配器(Audio Adaptor)。適配器的作用就像一名同聲傳譯員,把"聲音語言"即時轉換成"文字語言"的表達方式,再送入主幹大語言模型。

主幹大語言模型採用的是阿里巴巴開源的Qwen-2.5-7B,一個擁有70億參數、36層Transformer結構的解碼器型語言模型。研究團隊在此基礎上進行了重要改造:一是將模型的上下文窗口從原來的32K個詞元(token)擴展到128K,使其能處理更長的輸入序列;二是將常規的旋轉位置編碼(RoPE,一種幫助模型理解詞序的技術)替換為"旋轉時間編碼"(RoTE)。

RoTE的改變看似微小,實則意義重大。普通位置編碼告訴模型的是"這是第幾個詞",而RoTE告訴模型的是"這個詞出現在音頻的第幾秒"。這就好比一本書的頁碼和一部電影的時間碼的區別——對於需要追蹤事件在時間軸上發生順序的任務來說,知道"這是第200頁"遠不如知道"這發生在電影的第43分17秒"來得有用。這一改動為AF-Next後續的時間推理能力奠定了基礎。

此外,AF-Next還集成了一個流式文字轉語音(TTS)模組,使模型具備語音輸出能力,支持真正的"語音對語音"交互——用戶說話,模型不只是給出文字回答,而是直接以語音形式回應。

**四、數據是這一切的地基:超過100萬小時的聲音世界**

一個模型的能力上限,在很大程度上取決於它見過什麼、學過什麼。AF-Next的訓練數據集規模達到約1.08億條樣本、約100萬小時的音頻,這是一個令人咋舌的數字。為了達到這個規模,同時確保數據質量,研究團隊從多個維度精心構建了訓練集。

在音樂理解方面,團隊沿用了此前Music Flamingo項目中的音樂理解和問答數據,並特別擴充了非英語歌曲的歌詞數據,以增強模型對多元文化音樂的理解能力。

在多說話人語音理解方面,研究團隊專門收集了多人對話的語音識別和問答數據,訓練模型追蹤說話人輪換、處理交疊發言,並理解對話結構。圍繞這類數據,團隊設計了三個具體的技能訓練目標:其一是說話人識別,給定一段發言,模型要判斷是哪位說話人(按首次出現順序排序)說的;其二是打斷識別,模型要找出對話中被打斷的時刻;其三是目標說話人語音識別,模型要在多人混講的環境中,準確轉錄指定說話人的內容。為此,訓練集新增了約4.5萬條相關樣本。

長音頻的處理是AF-Next最具野心的部分之一。過去的工作中,長音頻數據要麼來自把短片段拼接起來,要麼僅在後期微調階段少量使用。AF-Next則把長音頻理解作為訓練的核心模組,從網際網路上收集了超過20萬個時長5至30分鐘的長影片。對於每個影片,團隊以10秒為單位切片,為每段生成四種形式的標註:影片內容描述、音頻內容描述、語音轉錄文字,以及說話方式的副語言學描述(比如"語氣急促"、"帶有輕笑"等)。隨後,用一個大語言模型將這些片段級標註整合為整個音頻的連貫描述,並基於此生成多種問答數據——包括"大海撈針"式問答(在長音頻中找到一個特定細節)、時間理解問答(事件先後順序判斷),以及"子場景"問答(描述兩個事件之間發生了什麼)。

與此同時,團隊還系統擴充了現有技能數據集的覆蓋範圍。原本的技能數據主要來自AudioSet等學術數據集,這類數據的錄音條件相對理想,不夠貼近現實。研究者從前述長音頻中截取了大量10至30秒的片段,按資訊量排序(包含更多不同聲音事件的片段優先級更高),為這些片段生成覆蓋現有技能集全部類別的問答數據,產生了超過200萬條新樣本。

為支持多音頻理解(即同時處理多段音頻並進行比較推理),團隊整合併擴展了現有的多音頻數據集,最終積累約100萬條訓練樣本。多輪對話數據方面,團隊額外收集了約3萬條需要綜合音頻理解、資訊提取和世界知識的多輪多音頻對話樣本。

在安全性和指令遵循方面,團隊填補了此前音頻語言模型領域普遍忽視的空白:從真實數據中識別出不安全內容,生成對應的問答對和拒絕式回應,教會模型在適當情況下拒絕回答或給出安全引導,共計約38.6萬條樣本。

多語言語音識別和語音翻譯方面,訓練數據覆蓋了包括中文、日語、阿拉伯語、德語等多種語言,來源包括Emilia、CoVoST、MUST、Amazon-SIFT、ALI Meeting等多個公開數據集。為防止模型在大量音頻數據訓練後喪失原有的文字推理能力,團隊還混入了一批純文本的科學、數學、指令遵循和常識知識數據。

而最具創新性的數據類型,是專門為時間推理設計的AF-Think-Time數據集。這個數據集從電影預告片、劇情回顧、懸疑故事、長篇多方對話等具有挑戰性的音頻源中收集了約4.3萬個樣本,每個樣本包含一組"問題—答案—推理鏈"的三元組,且推理鏈中明確錨定了時間戳。這是為後續訓練模型進行有時間依據的逐步推理所專門準備的"教材"。

**五、四段式"練功"路線:從認路到精通**

如果說數據是原材料,那麼訓練課程就是把原材料加工成成品的工藝流程。AF-Next採用了一套四階段遞進式訓練方案,每個階段解鎖不同層次的能力,就像一個音樂學生從學認譜到即興演奏的成長路徑。

第一階段是預訓練,分兩個步驟。第一步先"凍結"AF-Whisper和大語言模型,只訓練音頻適配器,目標是建立音頻特徵和語言表示之間的對應關係,讓"翻譯官"學會基本的翻譯規則。第二步解凍音頻編碼器和適配器(語言模型仍保持凍結),繼續在分類、描述生成、語音識別等基礎任務上學習。這一階段處理的音頻最長30秒到1分鐘,上下文窗口限制在8K詞元以內。

第二階段是中期訓練,同樣分兩步。第一步對整個模型進行全面微調,引入新收集的數據以及AudioSkills-XL技能集,音頻處理長度擴展到10分鐘,上下文窗口擴大到24K詞元。第二步進一步擴充長音頻描述和問答數據,將之前數據的採樣權重壓縮至一半,把所有長音頻數據集的採樣權重設為1,使模型集中學習長音頻處理。這一步的最大音頻長度擴展到30分鐘,上下文窗口增至128K詞元。這一階段訓練完成後得到的模型被命名為AF-Next-Captioner。

值得一提的是,為了高效處理如此之長的序列,團隊專門設計了一套"序列並行"(Sequence Parallelism,SP)計算框架。自注意力機制的計算量隨序列長度平方級增長,處理128K長度的序列在單張GPU上是不現實的。團隊採用了一種叫做混合序列並行的方法,將注意力計算分散到多張GPU上。具體來說,在節點內部使用"Ulysses注意力",通過全互聯通信將序列的不同頭部分配到不同GPU;跨節點則使用"Ring注意力",通過環形拓撲傳遞KV緩存塊。這兩種方式結合,既利用了節點內高帶寬互連的優勢,又解決了跨節點時的通信效率問題。

第三階段是後訓練,從中期訓練得到的模型出發,使用基於GRPO的強化學習(一種讓模型通過"對錯反饋"自我優化的訓練方式)進行進一步調優,重點在多輪對話、安全性、指令遵循,以及部分技能集上模型表現相對薄弱的領域。這一階段產生的模型稱為AF-Next-Instruct。

第四階段是鏈式推理訓練,以AF-Next-Instruct為基礎,先用AF-Think-Time數據集做監督微調,再用後訓練階段的數據混合進行GRPO強化學習訓練。這一階段的最終產物稱為AF-Next-Think。

三個開源版本分別面向不同使用場景:AF-Next-Instruct適合一般問答需求,AF-Next-Think專為需要深度推理的任務設計,AF-Next-Captioner則在生成詳細音頻描述方面表現最佳。

**六、時間錨定的推理鏈:讓AI不僅會聽,還會"按圖索驥"**

現有的音頻推理模型在處理短片段時表現尚可,但一旦面對長音頻,往往出現兩類典型問題:第一,推理鏈過長、堆砌廢話,比如在MMAU這個基準測試上,某些模型的推理過程超過16000個詞元,絕大部分是無效內容;第二,推理缺乏時間錨定,模型雖然給出了推理步驟,但這些步驟漂浮在時間軸之外,無法讓人知道"這個結論是基於音頻第幾秒到第幾秒的內容得出的"。

對於長音頻來說,這個問題尤為突出。一段30分鐘的錄音中,關鍵證據可能散布在第3分鐘、第17分鐘和第28分鐘,模型如果不能在推理時明確指向這些時間點,推理就變成了無據可查的"主觀判斷",難以驗證也難以信任。

AF-Next為此引入了一種全新的推理範式,稱為Temporal Audio Chain-of-Thought(時間音頻推理鏈)。核心思想是:在推理過程中的每一個關鍵步驟,明確標註該步驟依據的時間區間。比如,回答"這段對話中,說話人情緒在哪個時間段發生了明顯轉變"時,模型不只是給出"在中段"這樣模糊的描述,而是輸出類似"在第8.3秒到第14.2秒之間,說話人的語速加快,出現停頓,語氣由平穩轉為急促,據此判斷情緒在這一階段發生了轉變"這樣有時間依據的推理鏈。

這種做法的直接好處有兩個:其一,幫助模型在長音頻中按時間線索"導航",減少因遺漏關鍵證據而導致的錯誤;其二,讓推理過程對用戶透明可查,提升模型輸出的可信度。

為訓練這一能力,研究團隊構建了AF-Think-Time數據集,從電影預告片、懸疑故事、長篇對話等需要跨時間段理解的音頻中提煉出約4.3萬個樣本,每條樣本的推理鏈平均包含446個單詞,且每個關鍵推理步驟都與音頻中的具體時間段掛鉤。

**七、跑分時間:AF-Next在20多個測試中表現如何?**

研究團隊將AF-Next與業內幾乎所有主要的音頻語言模型進行了系統對比,包括GAMA、Audio Flamingo系列、Qwen-Audio系列、Qwen2.5-Omni、Qwen3-Omni、R1-AQA、Pengi、Phi-4-mm、Baichuan Audio、Step-Audio,以及谷歌的Gemini系列(2.0 Flash、1.5 Pro、2.5 Flash和2.5 Pro)和OpenAI的GPT-4o-audio。所有基準測試均由團隊重新運行,確保結果可復現。

在MMAU(一個綜合音頻理解和推理的大型基準測試)的最新版本(v05.15.25)上,AF-Next-Instruct取得了74.20的平均準確率,超越了AF3的72.42。AF-Next-Think進一步提升至75.01,而AF-Next-Captioner則達到75.76,在聲音(79.87)、音樂(75.3)和語音(72.13)三個子類上全面領先。

在MMAR(一個專注於語音、音頻、音樂深度推理的測試)上,AF-Next-Instruct以59.7超過AF3的58.5,AF-Next-Captioner則進一步推高至63.0,比AF3高出4.5個百分點。

在MMSU(主要考察口語理解和推理)上,雖然閉源的Gemini 2.5 Flash以66.1領先,但AF-Next-Captioner以63.3的成績大幅縮小了差距,相比AF3提升了約4個百分點。

在更具挑戰性的MMAU-Pro測試上,AF-Next-Instruct以56.9的成績超越了閉源的Gemini 2.5 Pro(57.4),AF-Next-Think則進一步達到58.7,成為該測試上最強的公開結果。

音頻描述生成方面,AF-Next-Instruct在Clotho-v2上的CIDEr評分從0.50提升至0.52,在AudioCaps上從0.70提升至0.74。音頻蘊含判斷(判斷文字描述是否符合音頻內容)方面,在Clotho上準確率從93.3提升至94.2,在AudioCaps上從95.0提升至96.0。

音樂理解是AF-Next表現特別亮眼的領域之一。在NSynth樂器來源分類上,AF-Next以66.7的準確率超越了此前最強開源模型Pengi的62.0;在樂器類型分類上,以81.7超越了最強開放權重模型Qwen-Audio的78.8。在Medley-Solos-DB樂器識別測試中,AF-Next以92.13的準確率大幅超越Audio Flamingo 2的85.80。在MuchoMusic音樂理解測試中,以75.6略勝Music Flamingo的74.5。而在歌曲描述生成(SongCaps)測試中,AF-Next取得了GPT-5評分覆蓋率8.8、正確率8.9的成績,相比AF3的6.7和6.2有了大幅躍升。

長音頻理解方面,AF-Next-Instruct在LongAudioBench上以73.9的成績,同時超越了AF3的68.6和閉源的Gemini 2.5 Pro的60.4,差距相當顯著。在包含語音內容的版本(+Speech)上,AF-Next更是以81.2的成績遠超AF3的72.9和Gemini 2.5 Pro的66.2。

自動語音識別方面,AF-Next-Instruct在LibriSpeech測試集上取得了1.54(乾淨集)和2.76(嘈雜集)的詞錯誤率(WER),創下了同類模型中的最低記錄,同時在Common Voice 15(7.2)、GigaSpeech(9.8)和VoxPopuli(5.4)上均取得最佳成績。

在VoiceBench(語音理解和指令遵循綜合測試)上,AF-Next-Instruct在AlpacaEval(4.43)、CommonEval(3.96)和OpenBookQA(80.9)三個子項上均超越了Qwen2.5-Omni和AF3,其中OpenBookQA上比AF3高出超過14分,比Qwen2.5-Omni高出約1.8分。

在CoVoST2語音翻譯測試中,AF-Next在英語翻中文(38.2 BLEU)和英語翻阿拉伯語(21.9 BLEU)上取得最好成績,後者相比Phi-4-mm的9.9高出了整整12分,顯示出AF-Next在低資源語言對上的突出能力。

**八、歸根結底,這項研究意味著什麼?**

說到底,AF-Next做的事情可以用一句話概括:它把"聽懂聲音"這件事,從專用工具的領域,推向了通用智能的版圖,而且是以完全開放透明的方式做到的。

過去,如果你想讓AI幫你轉錄30分鐘的會議錄音、判斷說話人是誰、識別背景中有什麼噪音、還順帶理解某段話的情緒,你需要把這個任務拆成四五個不同的系統分別處理,結果還未必能拼接在一起。AF-Next提供了一個統一的接口,能在一次交互中完成所有這些任務,而且還能在推理時解釋"我是根據第X分鐘到第Y分鐘的內容得出這個結論的"。

對普通人來說,這意味著更智能的語音助手、更準確的會議摘要、更可靠的音樂資訊檢索,以及更安全的音頻內容審核系統。對研究者來說,全套開源(代碼、權重、訓練數據和方法論一併公開)意味著這個成果是一塊可以繼續搭建的積木,而不是一個封閉的黑盒。

當然,研究團隊也坦誠地指出了這項工作的局限。網際網路音頻數據中,低資源語言、罕見聲音事件和特定專業領域仍然代表性不足;30分鐘的長音頻能力雖然是一大進步,但當關鍵證據在時間上極度分散時,模型的長上下文記憶和證據整合能力仍有提升空間;此外,諸如多說話人語音識別、說話人分離、時間戳描述生成和語音對語音交互等能力雖然已經內置,但在本次研究中尚未系統評估,這些有待後續工作填補。

對於對AI感興趣的讀者,一個值得思考的問題是:當AI能夠"聽懂"並"推理"聲音之後,我們希望它在什麼場景下使用這種能力,又在什麼時候應該選擇沉默或拒絕?安全性和可信度的問題,在音頻AI這個領域,才剛剛開始被認真對待。有興趣深入探索的讀者,可以通過arXiv編號2604.10905查閱完整論文,或訪問NVIDIA相關開源頁面獲取模型權重和訓練代碼。

Q&A

Q1:Audio Flamingo Next和普通語音識別軟體有什麼區別?

A:普通語音識別軟體只做一件事:把說的話轉成文字。而Audio Flamingo Next能同時處理語音、音樂和環境聲音,不只是轉錄,還能理解內容、回答問題、分辨是誰在說話、判斷聲音發生的時間順序,甚至對30分鐘的長錄音進行推理和摘要生成。相當於從"速記員"進化成了"能聽、能思考、能解釋的智能助理"。

Q2:Temporal Audio Chain-of-Thought是什麼,有什麼用?

A:Temporal Audio Chain-of-Thought(時間音頻推理鏈)是AF-Next引入的一種新推理方式。簡單說,就是模型在給出答案時,會明確標註"我的結論來自音頻的第幾秒到第幾秒"。這樣做讓推理過程透明可查,在處理長音頻時尤其重要——模型不再是憑"感覺"作答,而是有跡可循地追蹤證據,減少了錯誤和胡編亂造的情況。

Q3:AF-Next開源了嗎,普通人能用到嗎?

A:AF-Next是完全開源的,包括三個版本的模型權重(AF-Next-Instruct、AF-Next-Think、AF-Next-Captioner)、訓練代碼以及數據構建方法,均公開發布,採用研究用途許可證。研究者和開發者可以直接下載使用或在此基礎上繼續研發。對於普通用戶,直接調用目前需要一定的技術門檻,但未來基於這些模型構建的應用產品,有望讓普通人也能受益。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新