這項由上海交通大學人工智慧研究院、浙江大學及上海人工智慧實驗室聯合開展的研究,以預印本形式於2026年4月14日發布於arXiv平台,論文編號為arXiv:2604.13023v1,研究方向歸屬於電腦科學與聲音處理領域(cs.SD)。
當你把一段長達一分鐘的城市環境錄音發給一個AI助手,然後問它:"狗叫聲是從第幾秒到第幾秒?",會發生什麼?大多數現有的AI會給你一個模糊的回答,要麼說"有狗叫",要麼隨機給你一個根本不準確的時間段。這就像你讓一位朋友在一首交響樂中幫你找出小提琴獨奏的具體時刻,結果他只告訴你"這首曲子裡有小提琴"——答案是對的,但完全沒用。
這個看似簡單的問題,背後其實藏著當前語音AI領域一個相當棘手的困境。研究團隊將這種能力稱為"時序定位"——也就是不僅要聽懂聲音是什麼,還要知道它精確地出現在哪個時間段。正是為了解決這個問題,研究團隊開發了一套名為SpotSound的系統,並配套推出了一個專門用於測試這類能力的評測基準SpotSound-Bench。
一、為什麼現在的AI"聽得見卻說不清"
要理解這個問題,可以先把現有的大型音頻語言模型想像成一個廚師學徒。這個學徒經過了大量的廚藝培訓,能準確辨認出菜餚里放了什麼食材——鹽、糖、花椒、八角,一一說得出來。但如果你問他:"廚師是在第幾分鐘把花椒加進去的?"他就傻眼了,因為他的訓練從來都是對著整道菜打分,而不是盯著鍋邊記錄每一步操作的時間節點。
現有音頻AI系統面臨的處境與此如出一轍。絕大多數大型音頻語言模型在訓練時使用的數據都是"片段級標註",也就是說,訓練材料只會告訴模型"這段30秒的錄音里有狗叫聲",而不會精確標出"狗叫發生在第8.3秒到第11.7秒之間"。久而久之,模型學會了識別聲音類型,卻完全沒有學會把聲音與具體時間綁定。
更糟糕的是,現有的評測基準也存在嚴重的"作弊空間"。研究團隊分析了幾個主流測試數據集後發現,這些數據集裡目標聲音事件的時長平均占整段錄音的26%到33%。換句話說,如果模型隨機猜一個時間段,猜中的概率已經相當高了,這根本無法反映真實場景的難度。現實中的音頻往往是這樣的:一段嘈雜的街道錄音里,偶爾闖入一聲短暫的犬吠,整個事件可能只占幾秒鐘,被淹沒在汽車鳴笛、人聲嘈雜的背景噪聲里。這才是真正的挑戰。
正是為了彌補訓練數據和評測兩方面的不足,研究團隊系統性地設計了SpotSound的整套解決方案。
二、把時間"嵌入"聲音流:時間戳交錯序列的工作原理
SpotSound的核心創新之一,是一種被研究團隊稱為"時間戳交錯序列"的音頻表示方式。要理解這個概念,可以借用一個閱卷老師批作文的場景來類比。
通常情況下,AI處理音頻的方式就像批改一篇沒有段落編號的作文——老師只能感知整體內容,無法精確定位某句話出現在第幾段。而SpotSound的做法,相當於把這篇作文重新整理成了這樣的格式:"第1段(第1秒至第2秒):……具體內容……第2段(第2秒至第3秒):……具體內容……",每一個時間段的音頻特徵前面都明確標註了對應的時間戳。
具體來說,對於每一秒的音頻內容,系統會先生成一個文本標籤,格式為"時間戳:X秒",然後把這個文本標籤和對應的音頻特徵緊密拼在一起,最終形成一條長長的交錯序列:[第1秒標籤, 第1秒音頻特徵, 第2秒標籤, 第2秒音頻特徵, ……]。這條序列連同用戶的問題一起送入大型語言模型進行分析。
這樣做的妙處在於,語言模型本就擅長處理文本,而文本中嵌入的時間戳資訊相當於給模型提供了一張精確的"時間地圖"。當模型想要輸出"狗叫聲出現的時間段"時,它只需要從這張地圖上"讀出"相關的時間坐標即可,而不需要從複雜的數值編碼中反推時間資訊。研究團隊選擇以1秒為粒度插入時間戳,這個設置在精度和計算效率之間取得了較好的平衡——後續的消融實驗也驗證了這一點。
在底層架構上,SpotSound採用了兩種大型音頻語言模型作為骨幹網路:Qwen2-Audio和Audio Flamingo 3,對應地產生了兩個版本,分別叫做SpotSound-Q和SpotSound-A。兩者都使用Whisper-large-v3作為音頻編碼器,先把原始音頻轉換為梅爾頻譜圖,再通過編碼器壓縮成特徵向量——編碼器的輸出中,每個時間步大約對應40毫秒的原始音頻。對於超過30秒的長錄音,系統會把音頻分割成連續的30秒片段分別編碼,然後按時間順序拼接成統一的特徵序列。
三、讓AI學會說"沒有":對抗幻覺的訓練設計
語言AI有一個幾乎是天生的毛病,叫做"幻覺"——它們傾向於給出聽起來合理的答案,哪怕問題根本沒有正確答案。放到音頻時序定位任務里,這個問題的表現就是:哪怕錄音里根本沒有鋼琴聲,只要你問"鋼琴聲在哪段",某些AI就會一本正經地告訴你"從第5秒到第12秒"。
這種行為在安防監控或媒體取證等實際場景中可能導致嚴重後果。為了系統性地解決這個問題,研究團隊為每一條訓練樣本都配上了一個"反例查詢"。具體操作是這樣的:對於某段錄音(比如包含狗叫聲的錄音),研究團隊會同時準備兩種問題。第一種是正向查詢:這段錄音里有沒有狗叫聲?有的話,它出現在哪個時間段?第二種是負向查詢:這段錄音里有沒有鋼琴演奏?模型應該學會回答"沒有",而不是憑空捏造一個時間段。
負向查詢的選取也很講究:從全體訓練數據的查詢集合中抽取,但需同時滿足兩個條件——第一,被抽取的聲音事件確實不存在於當前錄音中;第二,被抽取的描述與正向查詢在措辭上沒有詞彙重疊,避免模型通過字面相似性來偷懶作答。通過這種"正反配對"的訓練方式,模型被強制學會了一項基礎能力:在作答之前,先核實聲音證據是否真的存在於錄音中。
四、造一個更難的考場:SpotSound-Bench的設計邏輯
現有的音頻時序定位測試集有個共同的軟肋——目標聲音在錄音中占的比例太高,找起來太容易了。研究團隊把這個問題用一個形象的比喻概括為"大海撈針"——而現有的考場更像是"水杯里撈針"。
為了構建一個真正貼近現實的評測環境,研究團隊從YouTube上收集了一批真實的長篇錄音,以UnAV-100數據集的100個聲音類別為指引進行標註,專門關注那些短暫出現的聲音事件。最終形成的SpotSound-Bench包含300組"錄音-查詢-時間戳"三元組,平均每段錄音時長約53.4秒,而目標聲音事件平均只有4.5秒,時間密度僅為8.4%。
這意味著,在超過90%的時間裡,錄音中播放的都是與目標聲音無關的背景內容。模型必須在茫茫的背景噪聲中精確捕捉到那一小段閃現的目標聲音,才能給出正確答案。與之形成對比的是,另外三個主流測試集中目標聲音的時間占比分別為26%(AudioGrounding)、33%(Clotho-Moment)和28%(UnAV-100 subset),差距相當懸殊。
五、用來訓練模型的聲音數據是怎麼做出來的
除了借用現有數據集,研究團隊還自行生成了一批專門用於時序定位訓練的合成數據,總量達到1萬條。製作過程可以類比為錄製一張混音專輯:先準備好"前景音軌"和"背景音軌",再按照設計好的時間表把它們疊加在一起。
前景音軌來自兩個數據源。一部分來自AudioSet的強標籤子集,這些錄音自帶精確到秒的事件標註,研究團隊用DeepSeek-v3
這個大型語言模型把結構化的標籤和時間資訊轉化為自然語言描述,比如把"0-3秒:狗叫;4-7秒:汽車鳴笛"轉化為"錄音開始時一隻狗在叫,隨後一輛汽車按響了喇叭"這樣的描述。另一部分來自VGGSound數據集,研究團隊用Qwen2-Audio直接聽錄音並生成音頻描述,經過抽樣驗證,生成描述的準確率超過95%。
為了讓前景聲音更乾淨,研究團隊還對錄音進行了裁剪處理:對於AudioSet的樣本,把所有聲音事件的時間區間合併成一個連續的段落,去掉首尾的無效部分;對於VGGSound的樣本,則去掉音量低於平均值20分貝以上的靜音段落,保留有效的音頻內容。
背景音軌則來自"Walking Tours"這個數據集,每段背景錄音長40到60秒,內容主要是各種自然環境和街道的環境聲。製作合成數據時,研究團隊把裁剪好的前景音軌隨機插入到背景音軌的某個位置,插入位置的時間戳就成為了訓練標籤中的"答案"。混音時還加入了隨機的音量抖動——前景聲音的音量會在標準值上下5分貝範圍內隨機波動,背景聲音則保持在比前景低10分貝左右,整體波動範圍也是±5分貝,從而模擬現實中多變的信噪比條件。
整個訓練語料庫最終匯總了77,600組音頻查詢對,融合了AudioGrounding、Clotho-Moment、UnAV-100、AudioSet強標籤子集和自行合成的數據五個來源,覆蓋了從10秒短片到60秒長錄音的不同時長,以及自由描述型和固定標籤型兩種查詢格式。
六、比賽結果:SpotSound在幾項關鍵測試中表現如何
研究團隊把SpotSound與一批競爭對手放在同一個考場裡進行了全面比較,參賽選手包括兩類:一類是專門為時序定位任務設計的專項模型(WTATG和AM-DETR),另一類是近期表現較強的通用大型音頻語言模型(Kimi-Audio、TimeAudio、Qwen2-Audio、Audio Flamingo 3,以及谷歌的Gemini-2.5-Flash和Gemini-2.5-Pro)。評測指標主要有兩個:mIoU(平均交並比,衡量預測時間段與真實時間段的重疊程度)和[email protected](衡量預測時間段與真實時間段的重疊率超過50%的比例)。
結果呈現出幾個鮮明的規律。專項模型的問題是"術業有專攻,卻不能跨界":WTATG在自己的訓練測試集AudioGrounding上能拿到51.4的mIoU,但一旦放到Clotho-Moment這個不同分布的數據集上,成績驟降至9.1,幾乎崩盤。AM-DETR在Clotho-Moment上表現出色(mIoU 80.9),但在短窗口定位更難的SpotSound-Bench上只有22.5。
通用大型音頻語言模型的問題是"聽得懂聲音,說不清時間":Kimi-Audio在所有四個測試集上的mIoU都徘徊在10以下,Qwen2-Audio也類似。即便是連續兩版排名靠前的Gemini-2.5-Flash和Gemini-2.5-Pro,mIoU也始終低於40,說明這類能力並非僅僅靠參數量堆砌就能獲得。Audio Flamingo 3在SpotSound-Bench上的mIoU只有9.1,暴露出對複雜背景場景的明顯弱點。
SpotSound-A(基於Audio Flamingo 3的版本)在四個測試集上分別取得了85.6、69.8、52.7和70.3的mIoU,在Clotho-Moment上超越此前最強方法4.7個百分點,在UnAV-100 subset上領先27.0個百分點,在SpotSound-Bench上領先幅度高達20.4個百分點,在AudioGrounding上也領先2.9個百分點。SpotSound-Q(基於Qwen2-Audio的版本)同樣表現強勁,在多項指標上達到最佳或次佳水平。
定性分析同樣揭示了各模型的典型失敗模式。面對一段關於"演奏班卓琴"的查詢,真實答案是27到34秒,SpotSound-A給出了27秒到34.7秒的預測,幾乎完美;而Qwen2-Audio給出了0到12.4秒,語法完整但語義錯位;Kimi-Audio直接給出了0到29.8秒,相當於把整段錄音都標記為答案;TimeAudio給出了0.1到27.2秒;Audio Flamingo 3則陷入了逐幀幻覺的循環,輸出了大量碎片化的無效時間段。
七、抗幻覺能力測試:AI能分辨"根本沒有"嗎
研究團隊專門設計了一輪針對幻覺問題的測試。每段錄音配上一個正向查詢(錄音里真實存在的聲音)和一個負向查詢(錄音里根本不存在的聲音),然後要求模型判斷是否存在。
測試結果相當能說明問題。TimeAudio完全無法完成這項任務——它被設計成總是給出時間段,連"不存在"這個概念都表達不了。Kimi-Audio和Qwen2-Audio在正負樣本上的判斷準確率都只有五六十個百分點,差不多接近隨機猜測的水平。Audio Flamingo 3在部分場景下表現較好,在AudioGrounding的負向查詢上能達到76%的準確率,但在長錄音的Clotho-Moment上只有70.3%。SpotSound-A在Clotho-Moment上正向和負向查詢的準確率都達到了85.4%,在AudioGrounding上正向準確率93.4%、負向準確率87.9%,對幻覺的抑制相當穩健。
研究團隊還進行了兩階段聯合評估,要求模型先判斷聲音是否存在,只有判斷為"存在"才進入第二階段的時間定位,最終用F1分數來綜合衡量。在這項更嚴格的綜合測試中,TimeAudio的F1分數直接用斜槓標註(無法完成),Kimi-Audio的F1分數在各測試集上基本低於5,Qwen2-Audio在部分較簡單的測試集上能達到11。SpotSound-Q在Clotho-Moment上取得了92.0的F1,在SpotSound-Bench上達到69.7,而SpotSound-A在SpotSound-Bench上更是達到了83.8的F1,遠超其他所有模型。
八、聲音事件檢測任務:看看泛化能力如何
為了驗證SpotSound在獲得時序定位能力的同時沒有丟失原有的通用能力,研究團隊還在兩個經典聲音事件檢測數據集上進行了測試:TUT Sound Events 2017和DESED。這兩個任務的設定與時序定位略有不同,但同樣需要模型給出精確的聲音事件時間段。
TUT Sound Events 2017包含非常長且複雜的錄音,研究團隊將其切割為60秒片段進行處理,這對所有模型都是相當大的挑戰。在這個數據集上,SpotSound-A取得了30.7的[email protected]和33.2的mIoU,顯著優於排名第二的TimeAudio(18.0和22.5)。DESED的錄音時長只有10秒,與大多數已有模型的訓練分布更貼近,在這個數據集上Qwen2-Audio已經能達到28.2的[email protected],SpotSound-Q進一步提升到66.6的[email protected]和61.1的mIoU,仍然領先。
這說明SpotSound並不是通過"遺忘舊技能來學習新技能"——它在掌握精細時序定位的同時,整體的聲音理解能力也得到了保留甚至提升。
九、細節調優:時間粒度、數據比例和模型參數怎麼選
研究團隊做了大量的消融實驗,仔細考察每一個設計選擇對最終性能的影響。
關於時間戳插入的粒度,研究團隊對比了0.2秒、1秒和2秒三種設置。實驗結果顯示,不同的粒度對不同長度的測試集有不同的影響:2秒粒度在長錄音的Clotho-Moment上效果略好(mIoU 87.2),而0.2秒粒度在短錄音的AudioGrounding上更占優勢(mIoU 72.7),但代價是推理速度變慢——0.2秒粒度下每條樣本的推理時間從1.0秒增加到1.4秒。綜合四個測試集的整體表現和計算效率,研究團隊最終選擇了1秒作為默認粒度。
關於訓練數據的配比,研究團隊測試了三種AudioSet強標籤數據與合成數據的比例組合:5k配10k、10k配10k、10k配20k。結果顯示,5k配10k這個配置在綜合性能上最為均衡。AudioSet強標籤數據提供了可靠的真實標註,但全部是10秒短片,加入過多會損害長錄音場景的表現;而合成數據以50秒長錄音為主,加入過多則會損害短錄音場景的性能。兩者配合的黃金比例正是5k對10k。
關於LoRA微調的參數規模,研究團隊測試了秩為8、16、32三種設置(對應的alpha分別為16、32、64)。結果出人意料:參數量最小的r=8、alpha=16配置反而取得了最好的成績,更大的參數量反而導致性能下降,可能是過擬合所致。
十、魯棒性測試:如果換個說法問,或者把聲音挪到別的位置
研究團隊還進行了兩類魯棒性測試,專門檢查模型是否真的"理解"了聲音,還是只是學會了走捷徑。
第一類測試叫做時間位置擾動:把目標聲音事件從原來的時間位置剪下來,隨機插入到背景錄音的另一個位置,然後測試模型還能不能找到它。研究結果顯示,在這種擾動下,SpotSound-A的mIoU從55.1下降到51.0,降幅約4個百分點,依然保持了相當高的準確率。這說明模型不是簡單地記住了"目標聲音通常出現在第幾秒"這種統計規律,而是真的通過分析音頻內容來定位。
第二類測試叫做查詢改寫:用DeepSeek-v3把原來的查詢詞改寫成同義表達或疑問句形式,然後測試模型是否仍然能正確定位。比如把"狗叫"改寫成"犬類發出的叫聲",或者改成"這段錄音里有沒有狗在吠叫?"。結果顯示,同義改寫後模型的mIoU幾乎沒有變化(55.1對55.0),疑問句改寫後也只下降了約1.8個百分點(53.3)。這表明模型掌握的是聲音概念本身,而非特定詞彙的模式匹配。
說到底,SpotSound做的事情,是把"AI能聽懂什麼聲音"這個已經相當成熟的能力,進一步升級成了"AI能說清聲音精確出現在哪個時刻"。這個升級看似一小步,但對於需要精確時間資訊的實際應用來說,是質的飛躍。
現有的AI在這方面的問題根源有兩個:一是訓練數據從來沒有要求它們關注時間;二是考試題目太簡單,隨便猜也能及格。SpotSound通過兩個核心設計同時解決了這兩個問題:時間戳交錯序列給了模型一張精確的時間地圖,正負樣本配對訓練讓模型學會了在開口之前先確認證據。
當然,這套系統目前也有它的局限。在多次出現的聲音事件場景中,模型有時會在找到最顯眼的那次之後就停止搜索,遺漏其他出現的時刻。在UnAV-100 subset的評測中,模型過於精細的定位有時反而會因為與粗粒度的標註標準不符而被扣分——這更像是評測標準的問題,而非模型能力的缺陷。在複雜的多聲部場景中(多種聲音同時出現且相互重疊),模型的表現也還有提升空間。
研究團隊已經將代碼、模型權重和SpotSound-Bench測試集全部開放,有興趣深入研究的讀者可以通過arXiv編號2604.13023查詢完整論文,或前往論文主頁進一步了解技術細節。
Q&A
Q1:SpotSound和普通音頻識別AI有什麼本質區別?
A:普通音頻識別AI通常只能告訴你"這段錄音里有什麼聲音",但無法說清楚聲音出現在哪個時間段。SpotSound的核心能力是"時序定位"——不僅識別聲音類型,還能精確給出起止時間,例如"狗叫出現在第1.0秒到第1.9秒,以及第4.3秒到第5.0秒"。實現這一能力的關鍵是把時間戳資訊直接嵌入音頻特徵序列,相當於給AI提供了一張隨時間展開的聲音地圖。
Q2:SpotSound-Bench和其他音頻測試集有什麼不同?
A:現有測試集裡,目標聲音事件平均占整段錄音的26%到33%,模型即使隨機猜測也有不低的命中率。SpotSound-Bench專門收集了長達53秒的錄音,但目標聲音事件平均只有4.5秒,時間密度僅8.4%,超過90%的時間都是背景噪聲。這種"大海撈針"的設計更貼近安防監控、媒體取證等實際應用場景,對模型的真實定位能力要求更高。
Q3:SpotSound是怎麼避免AI"無中生有"瞎猜時間段的?
A:研究團隊為每條訓練數據都配了一個"陷阱問題"——詢問錄音里根本不存在的聲音。模型必須學會回答"沒有",而不是捏造一個時間段。負向樣本的選取有嚴格限制:既要確保那個聲音真的不在錄音里,又要保證問題措辭與真實問題沒有詞彙重疊,避免模型靠字面相似性作弊。經過這種正負配對訓練,SpotSound在判斷聲音是否存在的準確率上大幅領先其他模型。






