NVIDIA與馬里蘭大學聯手打造「全能耳朵」：一個能聽懂30分鐘長音頻、會推理、還開源的AI模型

這項由NVIDIA研究院與美國馬里蘭大學聯合完成的研究，於2026年4月13日以預印本形式發布，論文編號為arXiv:2604.10905v1，研究方向歸屬於電腦科學中的聲音與音頻處理領域（cs.SD）。有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。

贊助商廣告

**一、為什麼人類花了這麼久，才讓AI真正"聽懂"聲音？**

人耳是一件奇妙的儀器。坐在咖啡館裡，你能同時分辨出背景音樂的旋律、鄰桌的對話內容，以及窗外偶爾傳來的救護車鳴笛——而且你不只是"聽到"了這些聲音，你還能理解它們、推斷它們的含義，甚至判斷出那首背景音樂是爵士還是流行。這種"聽懂"的能力，對人類來說不過是日常，但對AI來說，卻是一道極高的門檻。

過去很長一段時間裡，AI處理聲音的方式就像把一個複雜的交響樂團拆散——語音識別是一個專門的小模型，音樂分類是另一個，環境聲音理解又是第三個。這些模型各司其職，但彼此之間毫無溝通，就像一個樂團里的成員各自練習、從不合奏。隨著大型語言模型（可以理解為"超級聰明的文字理解機器"）的崛起，研究者們開始嘗試訓練一種能把所有聲音類型都"聽懂"的統一模型，這類系統被稱為大型音頻語言模型（Large Audio Language Model，簡稱LALM）。

然而，與視覺AI相比，音頻AI的開放程度明顯滯後。很多強大的音頻模型要麼是商業閉源的，要麼訓練數據和方法不透明，研究社區難以在此基礎上繼續發展。正是在這一背景下，NVIDIA與馬里蘭大學的研究團隊推出了Audio Flamingo Next，簡稱AF-Next——一個旨在徹底打破這一局面的全能型開源音頻理解模型。

**二、AF-Next的"前輩"們幹了什麼，又在哪裡留下了遺憾？**

AF-Next並非憑空而來，它的背後有一整個"家族譜系"。Audio Flamingo系列從第一代開始，逐步進化，到第三代（AF3）已經能處理相當複雜的音頻理解任務，但研究團隊在仔細分析AF3的表現後，發現了幾類明顯的短板。

贊助商廣告

第一類問題是技能上的盲點，比如在數數（比如"這段音頻里出現了幾次鼓聲？"）以及說話人分辨（即判斷某句話是誰說的）等任務上，模型表現欠佳。第二類是數據分布的局限性，模型接觸過的訓練數據主要來自學術數據集，這類數據通常是精心錄製的、乾淨整潔的音頻，而現實世界的錄音往往嘈雜、多人交疊、背景複雜。第三類是長音頻的挑戰：AF3能處理的音頻長度相對有限，但現實中的播客、會議錄音、電影片段動輒幾十分鐘，過去的模型面對這些長音頻時，就像一個人試圖在一口氣不換氣的情況下理解一部電影，很快就會力不從心。

正是帶著這些清晰認識，團隊著手構建了AF-Next，目標是在保持完全開源透明的前提下，打造一個真正能在現實世界中可靠運轉的音頻理解系統。

**三、AF-Next長什麼樣？一台精密儀器的內部構造**

AF-Next的整體結構可以用一條聲音加工流水線來理解。原始音頻進入系統後，首先經過一個名為AF-Whisper的音頻編碼器——可以把它理解為一雙精密的"耳朵"，負責把聲音波形轉化為機器能處理的數字特徵。這個編碼器基於OpenAI的Whisper架構改造而來，並在更大規模、更多樣化的語料上進行了額外訓練，包括多語言語音和多說話人對話數據，使其對複雜聲音場景的感知能力大幅提升。

音頻進入時，系統先將其重採樣至16kHz單聲道格式，然後轉化為一種叫做"對數梅爾頻譜圖"的視覺化聲音表示——可以理解為把聲音的頻率變化繪製成一幅隨時間變化的熱力圖。這幅圖隨後被送入AF-Whisper，以每30秒為一個不重疊的滑動窗口進行處理，每秒提取50個時間點的特徵，再經過一個壓縮步驟將特徵密度減半，最終形成維度為1280的特徵向量序列。

這些音頻特徵接下來需要被"翻譯"成語言模型能理解的格式，這個翻譯工作由一個兩層的神經網路完成，研究者稱之為音頻適配器（Audio Adaptor）。適配器的作用就像一名同聲傳譯員，把"聲音語言"即時轉換成"文字語言"的表達方式，再送入主幹大語言模型。

贊助商廣告

主幹大語言模型採用的是阿里巴巴開源的Qwen-2.5-7B，一個擁有70億參數、36層Transformer結構的解碼器型語言模型。研究團隊在此基礎上進行了重要改造：一是將模型的上下文窗口從原來的32K個詞元（token）擴展到128K，使其能處理更長的輸入序列；二是將常規的旋轉位置編碼（RoPE，一種幫助模型理解詞序的技術）替換為"旋轉時間編碼"（RoTE）。

RoTE的改變看似微小，實則意義重大。普通位置編碼告訴模型的是"這是第幾個詞"，而RoTE告訴模型的是"這個詞出現在音頻的第幾秒"。這就好比一本書的頁碼和一部電影的時間碼的區別——對於需要追蹤事件在時間軸上發生順序的任務來說，知道"這是第200頁"遠不如知道"這發生在電影的第43分17秒"來得有用。這一改動為AF-Next後續的時間推理能力奠定了基礎。

此外，AF-Next還集成了一個流式文字轉語音（TTS）模組，使模型具備語音輸出能力，支持真正的"語音對語音"交互——用戶說話，模型不只是給出文字回答，而是直接以語音形式回應。

**四、數據是這一切的地基：超過100萬小時的聲音世界**

一個模型的能力上限，在很大程度上取決於它見過什麼、學過什麼。AF-Next的訓練數據集規模達到約1.08億條樣本、約100萬小時的音頻，這是一個令人咋舌的數字。為了達到這個規模，同時確保數據質量，研究團隊從多個維度精心構建了訓練集。

在音樂理解方面，團隊沿用了此前Music Flamingo項目中的音樂理解和問答數據，並特別擴充了非英語歌曲的歌詞數據，以增強模型對多元文化音樂的理解能力。

在多說話人語音理解方面，研究團隊專門收集了多人對話的語音識別和問答數據，訓練模型追蹤說話人輪換、處理交疊發言，並理解對話結構。圍繞這類數據，團隊設計了三個具體的技能訓練目標：其一是說話人識別，給定一段發言，模型要判斷是哪位說話人（按首次出現順序排序）說的；其二是打斷識別，模型要找出對話中被打斷的時刻；其三是目標說話人語音識別，模型要在多人混講的環境中，準確轉錄指定說話人的內容。為此，訓練集新增了約4.5萬條相關樣本。

贊助商廣告

長音頻的處理是AF-Next最具野心的部分之一。過去的工作中，長音頻數據要麼來自把短片段拼接起來，要麼僅在後期微調階段少量使用。AF-Next則把長音頻理解作為訓練的核心模組，從網際網路上收集了超過20萬個時長5至30分鐘的長影片。對於每個影片，團隊以10秒為單位切片，為每段生成四種形式的標註：影片內容描述、音頻內容描述、語音轉錄文字，以及說話方式的副語言學描述（比如"語氣急促"、"帶有輕笑"等）。隨後，用一個大語言模型將這些片段級標註整合為整個音頻的連貫描述，並基於此生成多種問答數據——包括"大海撈針"式問答（在長音頻中找到一個特定細節）、時間理解問答（事件先後順序判斷），以及"子場景"問答（描述兩個事件之間發生了什麼）。

與此同時，團隊還系統擴充了現有技能數據集的覆蓋範圍。原本的技能數據主要來自AudioSet等學術數據集，這類數據的錄音條件相對理想，不夠貼近現實。研究者從前述長音頻中截取了大量10至30秒的片段，按資訊量排序（包含更多不同聲音事件的片段優先級更高），為這些片段生成覆蓋現有技能集全部類別的問答數據，產生了超過200萬條新樣本。

為支持多音頻理解（即同時處理多段音頻並進行比較推理），團隊整合併擴展了現有的多音頻數據集，最終積累約100萬條訓練樣本。多輪對話數據方面，團隊額外收集了約3萬條需要綜合音頻理解、資訊提取和世界知識的多輪多音頻對話樣本。

在安全性和指令遵循方面，團隊填補了此前音頻語言模型領域普遍忽視的空白：從真實數據中識別出不安全內容，生成對應的問答對和拒絕式回應，教會模型在適當情況下拒絕回答或給出安全引導，共計約38.6萬條樣本。

多語言語音識別和語音翻譯方面，訓練數據覆蓋了包括中文、日語、阿拉伯語、德語等多種語言，來源包括Emilia、CoVoST、MUST、Amazon-SIFT、ALI Meeting等多個公開數據集。為防止模型在大量音頻數據訓練後喪失原有的文字推理能力，團隊還混入了一批純文本的科學、數學、指令遵循和常識知識數據。

贊助商廣告

而最具創新性的數據類型，是專門為時間推理設計的AF-Think-Time數據集。這個數據集從電影預告片、劇情回顧、懸疑故事、長篇多方對話等具有挑戰性的音頻源中收集了約4.3萬個樣本，每個樣本包含一組"問題—答案—推理鏈"的三元組，且推理鏈中明確錨定了時間戳。這是為後續訓練模型進行有時間依據的逐步推理所專門準備的"教材"。

**五、四段式"練功"路線：從認路到精通**

如果說數據是原材料，那麼訓練課程就是把原材料加工成成品的工藝流程。AF-Next採用了一套四階段遞進式訓練方案，每個階段解鎖不同層次的能力，就像一個音樂學生從學認譜到即興演奏的成長路徑。

第一階段是預訓練，分兩個步驟。第一步先"凍結"AF-Whisper和大語言模型，只訓練音頻適配器，目標是建立音頻特徵和語言表示之間的對應關係，讓"翻譯官"學會基本的翻譯規則。第二步解凍音頻編碼器和適配器（語言模型仍保持凍結），繼續在分類、描述生成、語音識別等基礎任務上學習。這一階段處理的音頻最長30秒到1分鐘，上下文窗口限制在8K詞元以內。

第二階段是中期訓練，同樣分兩步。第一步對整個模型進行全面微調，引入新收集的數據以及AudioSkills-XL技能集，音頻處理長度擴展到10分鐘，上下文窗口擴大到24K詞元。第二步進一步擴充長音頻描述和問答數據，將之前數據的採樣權重壓縮至一半，把所有長音頻數據集的採樣權重設為1，使模型集中學習長音頻處理。這一步的最大音頻長度擴展到30分鐘，上下文窗口增至128K詞元。這一階段訓練完成後得到的模型被命名為AF-Next-Captioner。

值得一提的是，為了高效處理如此之長的序列，團隊專門設計了一套"序列並行"（Sequence Parallelism，SP）計算框架。自注意力機制的計算量隨序列長度平方級增長，處理128K長度的序列在單張GPU上是不現實的。團隊採用了一種叫做混合序列並行的方法，將注意力計算分散到多張GPU上。具體來說，在節點內部使用"Ulysses注意力"，通過全互聯通信將序列的不同頭部分配到不同GPU；跨節點則使用"Ring注意力"，通過環形拓撲傳遞KV緩存塊。這兩種方式結合，既利用了節點內高帶寬互連的優勢，又解決了跨節點時的通信效率問題。

贊助商廣告

第三階段是後訓練，從中期訓練得到的模型出發，使用基於GRPO的強化學習（一種讓模型通過"對錯反饋"自我優化的訓練方式）進行進一步調優，重點在多輪對話、安全性、指令遵循，以及部分技能集上模型表現相對薄弱的領域。這一階段產生的模型稱為AF-Next-Instruct。

第四階段是鏈式推理訓練，以AF-Next-Instruct為基礎，先用AF-Think-Time數據集做監督微調，再用後訓練階段的數據混合進行GRPO強化學習訓練。這一階段的最終產物稱為AF-Next-Think。

三個開源版本分別面向不同使用場景：AF-Next-Instruct適合一般問答需求，AF-Next-Think專為需要深度推理的任務設計，AF-Next-Captioner則在生成詳細音頻描述方面表現最佳。

**六、時間錨定的推理鏈：讓AI不僅會聽，還會"按圖索驥"**

現有的音頻推理模型在處理短片段時表現尚可，但一旦面對長音頻，往往出現兩類典型問題：第一，推理鏈過長、堆砌廢話，比如在MMAU這個基準測試上，某些模型的推理過程超過16000個詞元，絕大部分是無效內容；第二，推理缺乏時間錨定，模型雖然給出了推理步驟，但這些步驟漂浮在時間軸之外，無法讓人知道"這個結論是基於音頻第幾秒到第幾秒的內容得出的"。

對於長音頻來說，這個問題尤為突出。一段30分鐘的錄音中，關鍵證據可能散布在第3分鐘、第17分鐘和第28分鐘，模型如果不能在推理時明確指向這些時間點，推理就變成了無據可查的"主觀判斷"，難以驗證也難以信任。

AF-Next為此引入了一種全新的推理範式，稱為Temporal Audio Chain-of-Thought（時間音頻推理鏈）。核心思想是：在推理過程中的每一個關鍵步驟，明確標註該步驟依據的時間區間。比如，回答"這段對話中，說話人情緒在哪個時間段發生了明顯轉變"時，模型不只是給出"在中段"這樣模糊的描述，而是輸出類似"在第8.3秒到第14.2秒之間，說話人的語速加快，出現停頓，語氣由平穩轉為急促，據此判斷情緒在這一階段發生了轉變"這樣有時間依據的推理鏈。

贊助商廣告

這種做法的直接好處有兩個：其一，幫助模型在長音頻中按時間線索"導航"，減少因遺漏關鍵證據而導致的錯誤；其二，讓推理過程對用戶透明可查，提升模型輸出的可信度。

為訓練這一能力，研究團隊構建了AF-Think-Time數據集，從電影預告片、懸疑故事、長篇對話等需要跨時間段理解的音頻中提煉出約4.3萬個樣本，每條樣本的推理鏈平均包含446個單詞，且每個關鍵推理步驟都與音頻中的具體時間段掛鉤。

**七、跑分時間：AF-Next在20多個測試中表現如何？**

研究團隊將AF-Next與業內幾乎所有主要的音頻語言模型進行了系統對比，包括GAMA、Audio Flamingo系列、Qwen-Audio系列、Qwen2.5-Omni、Qwen3-Omni、R1-AQA、Pengi、Phi-4-mm、Baichuan Audio、Step-Audio，以及谷歌的Gemini系列（2.0 Flash、1.5 Pro、2.5 Flash和2.5 Pro）和OpenAI的GPT-4o-audio。所有基準測試均由團隊重新運行，確保結果可復現。

在MMAU（一個綜合音頻理解和推理的大型基準測試）的最新版本（v05.15.25）上，AF-Next-Instruct取得了74.20的平均準確率，超越了AF3的72.42。AF-Next-Think進一步提升至75.01，而AF-Next-Captioner則達到75.76，在聲音（79.87）、音樂（75.3）和語音（72.13）三個子類上全面領先。

在MMAR（一個專注於語音、音頻、音樂深度推理的測試）上，AF-Next-Instruct以59.7超過AF3的58.5，AF-Next-Captioner則進一步推高至63.0，比AF3高出4.5個百分點。

在MMSU（主要考察口語理解和推理）上，雖然閉源的Gemini 2.5 Flash以66.1領先，但AF-Next-Captioner以63.3的成績大幅縮小了差距，相比AF3提升了約4個百分點。

在更具挑戰性的MMAU-Pro測試上，AF-Next-Instruct以56.9的成績超越了閉源的Gemini 2.5 Pro（57.4），AF-Next-Think則進一步達到58.7，成為該測試上最強的公開結果。

音頻描述生成方面，AF-Next-Instruct在Clotho-v2上的CIDEr評分從0.50提升至0.52，在AudioCaps上從0.70提升至0.74。音頻蘊含判斷（判斷文字描述是否符合音頻內容）方面，在Clotho上準確率從93.3提升至94.2，在AudioCaps上從95.0提升至96.0。

贊助商廣告

音樂理解是AF-Next表現特別亮眼的領域之一。在NSynth樂器來源分類上，AF-Next以66.7的準確率超越了此前最強開源模型Pengi的62.0；在樂器類型分類上，以81.7超越了最強開放權重模型Qwen-Audio的78.8。在Medley-Solos-DB樂器識別測試中，AF-Next以92.13的準確率大幅超越Audio Flamingo 2的85.80。在MuchoMusic音樂理解測試中，以75.6略勝Music Flamingo的74.5。而在歌曲描述生成（SongCaps）測試中，AF-Next取得了GPT-5評分覆蓋率8.8、正確率8.9的成績，相比AF3的6.7和6.2有了大幅躍升。

長音頻理解方面，AF-Next-Instruct在LongAudioBench上以73.9的成績，同時超越了AF3的68.6和閉源的Gemini 2.5 Pro的60.4，差距相當顯著。在包含語音內容的版本（+Speech）上，AF-Next更是以81.2的成績遠超AF3的72.9和Gemini 2.5 Pro的66.2。

自動語音識別方面，AF-Next-Instruct在LibriSpeech測試集上取得了1.54（乾淨集）和2.76（嘈雜集）的詞錯誤率（WER），創下了同類模型中的最低記錄，同時在Common Voice 15（7.2）、GigaSpeech（9.8）和VoxPopuli（5.4）上均取得最佳成績。

在VoiceBench（語音理解和指令遵循綜合測試）上，AF-Next-Instruct在AlpacaEval（4.43）、CommonEval（3.96）和OpenBookQA（80.9）三個子項上均超越了Qwen2.5-Omni和AF3，其中OpenBookQA上比AF3高出超過14分，比Qwen2.5-Omni高出約1.8分。

在CoVoST2語音翻譯測試中，AF-Next在英語翻中文（38.2 BLEU）和英語翻阿拉伯語（21.9 BLEU）上取得最好成績，後者相比Phi-4-mm的9.9高出了整整12分，顯示出AF-Next在低資源語言對上的突出能力。

**八、歸根結底，這項研究意味著什麼？**

說到底，AF-Next做的事情可以用一句話概括：它把"聽懂聲音"這件事，從專用工具的領域，推向了通用智能的版圖，而且是以完全開放透明的方式做到的。

過去，如果你想讓AI幫你轉錄30分鐘的會議錄音、判斷說話人是誰、識別背景中有什麼噪音、還順帶理解某段話的情緒，你需要把這個任務拆成四五個不同的系統分別處理，結果還未必能拼接在一起。AF-Next提供了一個統一的接口，能在一次交互中完成所有這些任務，而且還能在推理時解釋"我是根據第X分鐘到第Y分鐘的內容得出這個結論的"。

贊助商廣告

對普通人來說，這意味著更智能的語音助手、更準確的會議摘要、更可靠的音樂資訊檢索，以及更安全的音頻內容審核系統。對研究者來說，全套開源（代碼、權重、訓練數據和方法論一併公開）意味著這個成果是一塊可以繼續搭建的積木，而不是一個封閉的黑盒。

當然，研究團隊也坦誠地指出了這項工作的局限。網際網路音頻數據中，低資源語言、罕見聲音事件和特定專業領域仍然代表性不足；30分鐘的長音頻能力雖然是一大進步，但當關鍵證據在時間上極度分散時，模型的長上下文記憶和證據整合能力仍有提升空間；此外，諸如多說話人語音識別、說話人分離、時間戳描述生成和語音對語音交互等能力雖然已經內置，但在本次研究中尚未系統評估，這些有待後續工作填補。

對於對AI感興趣的讀者，一個值得思考的問題是：當AI能夠"聽懂"並"推理"聲音之後，我們希望它在什麼場景下使用這種能力，又在什麼時候應該選擇沉默或拒絕？安全性和可信度的問題，在音頻AI這個領域，才剛剛開始被認真對待。有興趣深入探索的讀者，可以通過arXiv編號2604.10905查閱完整論文，或訪問NVIDIA相關開源頁面獲取模型權重和訓練代碼。

Q&A

Q1：Audio Flamingo Next和普通語音識別軟體有什麼區別？

A：普通語音識別軟體只做一件事：把說的話轉成文字。而Audio Flamingo Next能同時處理語音、音樂和環境聲音，不只是轉錄，還能理解內容、回答問題、分辨是誰在說話、判斷聲音發生的時間順序，甚至對30分鐘的長錄音進行推理和摘要生成。相當於從"速記員"進化成了"能聽、能思考、能解釋的智能助理"。

Q2：Temporal Audio Chain-of-Thought是什麼，有什麼用？

A：Temporal Audio Chain-of-Thought（時間音頻推理鏈）是AF-Next引入的一種新推理方式。簡單說，就是模型在給出答案時，會明確標註"我的結論來自音頻的第幾秒到第幾秒"。這樣做讓推理過程透明可查，在處理長音頻時尤其重要——模型不再是憑"感覺"作答，而是有跡可循地追蹤證據，減少了錯誤和胡編亂造的情況。

贊助商廣告

Q3：AF-Next開源了嗎，普通人能用到嗎？

A：AF-Next是完全開源的，包括三個版本的模型權重（AF-Next-Instruct、AF-Next-Think、AF-Next-Captioner）、訓練代碼以及數據構建方法，均公開發布，採用研究用途許可證。研究者和開發者可以直接下載使用或在此基礎上繼續研發。對於普通用戶，直接調用目前需要一定的技術門檻，但未來基於這些模型構建的應用產品，有望讓普通人也能受益。