宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

Stability AI讓AI音樂創作快到「飛起」:一款能在MacBook上跑、2秒生成6分鐘音樂的開源神器

2026年05月28日 首頁 » 熱門科技

這項由Stability AI研究團隊完成的技術報告於2026年5月18日發布在預印本平台arXiv,論文編號為arXiv:2605.17991v1,分類領域為電腦科學·聲音(cs.SD)。有興趣深入了解的讀者可通過該編號在arXiv平台上查閱完整論文。

**一個讓創作者頭疼的老問題**

假設你是一位獨立遊戲開發者,正在為遊戲的戰鬥場景配樂。你腦海里有一段模糊的旋律感覺——"快節奏、帶電子元素、有點兒史詩感",但你既不會作曲,也付不起配樂師的高昂費用。於是你打開了一款AI音樂生成工具,輸入描述,按下生成按鈕,然後……等了將近一分鐘,還要占用大量電腦內存,最終生成出來的音樂長度固定,根本不符合你那段20秒場景的需要。

這個場景準確描述了AI音樂生成領域長期存在的三個核心痛點:太慢、太耗資源、不靈活。Stability AI的研究團隊帶著Stable Audio 3這一成果正面回應了這三個問題,而且交出的答卷相當有分量——用普通筆記本電腦的處理器就能運行,在頂級伺服器顯卡上不到2秒就能生成長達6分20秒的高質量音樂,還可以對已有的音頻進行精確的局部編輯。

**一、Stable Audio 3究竟是什麼,為什麼值得關注**

Stable Audio 3本質上是一個"聲音工廠",你給它一段文字描述,它就能產出對應的音樂或音效。這個"工廠"實際上由三種不同規模的機器組成,團隊分別稱它們為small(小型)、medium(中型)和large(大型),就像洗衣機有迷你款、家用款和商用款一樣,適用於不同的使用場景和設備條件。

small擁有約4.59億個參數(可以把"參數"理解為機器內部的調節旋鈕數量,旋鈕越多,機器越精細),能生成最長2分鐘的音頻;medium擁有約14億個參數,最長可生成6分20秒;large擁有約27億個參數,同樣支持6分20秒。在頂級H200伺服器顯卡上,small只需0.44秒,medium需1.31秒,large需1.80秒,就能完成一次生成。更值得一提的是,small和medium的模型權重是完全開放的,任何人都可以下載使用,代碼託管在GitHub的Stability-AI/stable-audio-3倉庫。

這三個模型還分了更細的專業分支:small-music專門生成器樂音樂,small-sfx專門生成音效,而medium和large則是音樂和音效兼顧的綜合選手。之所以small要分開訓練音樂版和音效版,是因為研究團隊發現在參數有限的小模型里,音樂數據和音效數據會互相"干擾",就像同一個廚師同時做川菜和粵菜,難免串味,分開反而各自更出色。

所有模型都在經過授權的商業音頻和遵循知識共享協議(Creative Commons)的免費音頻上訓練,不存在版權隱患,這對於想把AI音樂工具用於商業項目的創作者來說是個很大的保障。

**二、解決"生成短音頻還要等半天"的難題:可變長度生成**

在Stable Audio 3之前,絕大多數擴散模型式的音頻生成器都有一個隱藏的浪費:不管你想要多短的音頻,它都要按照最大長度來計算。以Stable Audio 3的前代產品Stable Audio 2.5為例,它的最大生成長度是190秒。如果你只需要一段20秒的音樂,它仍然要在內部生成完整的190秒內容,然後把多餘的170秒靜音扔掉——就像每次你去便利店只買一瓶水,收銀員卻堅持要給你裝一個能放一冰箱東西的袋子,既浪費時間也浪費資源。

研究團隊把這種方式叫做"固定長度生成",而他們為Stable Audio 3開發的新方式叫做"可變長度生成"。核心思路是:需要多長就生成多長,計算量隨著實際長度而變化。為了讓這套方法在訓練階段也能穩定工作,團隊設計了三個相互配合的技巧。

第一個技巧叫"可變長度注意力與掩碼損失"。在模型訓練時,一批數據里往往包含長短不一的音頻片段,需要用補零的方式把它們湊成相同長度才能一起處理。但那些補上去的零其實沒有資訊,讓模型去"學習"這些零是浪費,更可能導致模型混亂。團隊的解決方案是給這些補位內容打上"標記",讓模型在計算時直接忽略它們,損失函數(衡量生成效果好不好的評分機制)也只對真實音頻部分評分。

第二個技巧叫"按元素調整時間步偏移"。這裡要引入擴散模型的一個基本概念:這類模型的工作方式類似於從一團噪聲出發,一步一步把噪聲"去掉",最終還原出有意義的內容。每一步叫做一個"時間步",時間步越大表示噪聲越多。問題在於,長序列的音頻片段因為內部元素之間有關聯,在同樣的噪聲水平下,它保留的可恢復資訊比短序列更多。如果用同樣的噪聲調度表訓練長短不同的音頻,長音頻會被"欠噪化",模型就沒有充分學會處理高噪聲情況下的長音頻。團隊的解決方案是:根據每段音頻的實際長度,動態地把時間步往更高噪聲的方向偏移——越長的音頻,訓練時就推向更嘈雜的區間,以此保持學習難度的平衡。具體的數學公式採用了一種叫做"邏輯斯諦形式"的映射,讓這個偏移量在最短序列(偏移參數0.5)到最長序列(偏移參數1.15)之間平滑過渡。

第三個技巧叫"靜音增強"。團隊在訓練時會隨機地在真實音頻後面拼接一段靜音,靜音的長度從指數分布中隨機抽取,平均約4秒。這樣做有兩個目的:第一,防止模型把"我要生成的時長"和"實際音頻信號就該這麼長"死死綁定在一起;第二,訓練模型學會自然地結束,而不是在到達序列末尾時突然斷掉,留下一個生硬的截斷感。

為了驗證可變長度生成是否真的有效,團隊還做了一個對照實驗:故意把Stable Audio 2.5"誤用"——明明是在190秒條件下訓練的,卻強行讓它在20秒的短序列上進行推理。結果兩項評估指標(FAD和CLAP分數,這兩個概念後面會解釋)都出現了明顯下滑,證明固定長度模型無法做到高效的可變長度推理,而Stable Audio 3的原生可變長度設計則在各個長度上保持了穩定的表現。

**三、Stable Audio 3的"聲音壓縮器":語義聲學自編碼器**

擴散模型做音頻生成有一個基本前提:不能直接在原始音頻波形上"去噪",因為原始波形的數據量太大了,一秒鐘44100個採樣點,一分鐘就是兩百多萬個數據點,計算量無法承受。標準做法是先用一個"壓縮器"把原始音頻壓縮成一個緊湊的"代號序列",擴散模型只在這些代號上工作,生成完成後再用"解壓器"把代號還原成真實音頻。

Stable Audio 3使用的壓縮器叫做SAME(Semantically-Aligned Music AutoEncoder,語義對齊音樂自編碼器),這是團隊另一項相關研究的成果,在本文中作為基礎組件使用。SAME的壓縮比達到了4096倍——也就是說,原本長度為4096個採樣點的音頻,經過壓縮後變成1個"代號"(嚴格來說是一個256維的向量,可以理解為一個有256個數字的"代號")。相比之下,同類工作通常只壓縮1024到2048倍,SAME的壓縮比明顯更激進。這種激進壓縮讓中型和小型模型能在消費級GPU甚至MacBook的CPU上生成幾分鐘的長音頻成為現實。

SAME是怎麼做到這麼高壓縮比的呢?它的工作流程分兩步走。第一步是"打補丁":把立體聲44.1kHz的音頻波形切成256個採樣點一組的小塊,每塊作為一個基本單元,這一步實現了256倍壓縮。第二步是一種叫做"Transformer重採樣塊"(TRB)的獨特結構,再做16倍壓縮,兩步合計達到4096倍。

TRB的工作方式頗為巧妙:把輸入序列每兩個(或多個)元素編為一組,在每組裡插入一個可學習的"占位符",然後讓整個序列(原始元素加上占位符)通過多層Transformer處理。處理完畢後,只保留那些"占位符"位置的輸出,把原始元素的輸出全部丟棄。這相當於讓這些占位符在學習過程中"吸收"了附近原始元素的關鍵資訊,然後作為壓縮後的代表輸出。在解壓階段,這個過程反過來:每個壓縮代號被配上若干個新的占位符,處理後保留占位符輸出,實現擴張。

壓縮器輸出的代號序列對於後續的擴散模型訓練質量有直接影響。SAME的一個核心設計目標是讓這些代號不只包含"聲音是什麼"(聲學資訊),還包含"聲音在說什麼"(語義資訊)。為了實現這個目標,SAME在訓練時同時接受了五種不同性質的損失函數約束。

第一種是多解析度頻譜重建損失,在七種不同的FFT解析度(從32點到2048點,每種都有75%的幀重疊)上分別計算頻譜對比度、對數幅度L1距離和瞬時頻率相位誤差,確保還原出的聲音在各個細節尺度上都夠精確。為了處理立體聲,這種損失分別在"和聲"(左右聲道相加)和"差音"(左右聲道相減)兩種表示形式上獨立計算。第二種是對抗損失,採用相對論GAN目標,通過一個判別器來逼迫生成質量更接近真實。第三種是擴散對齊損失,用一個小型擴散Transformer(4層,768維)直接在SAME的潛空間上訓練,梯度反流回編碼器,推動編碼器學習出"對擴散模型友好"的潛空間幾何結構。第四種是語義回歸損失,用兩個輕量線性回歸器分別預測"色度特徵"(音調結構)和"耳間電平差"(ILD,立體聲寬度資訊),強迫潛代號保留這些高層語義特徵。第五種是對比潛空間對齊損失,用一個4層、1024維的Transformer判別器來判斷"潛代號序列、小波音頻特徵、文字描述"三者是否來自同一段音頻,從而推動潛代號同時與音頻內容和文字描述保持對齊。

在實際部署中,small使用的是參數較少的SAME-S版本,這個版本專門為CPU推理做了輕量化優化;medium和large使用參數更多的SAME-L版本,保留了完整的表達能力。兩個版本的壓縮比和代號維度完全相同,保持了架構上的統一性。SAME編碼器和解碼器在擴散模型訓練期間保持凍結狀態,不再更新參數。

**四、"聲音工廠"的核心機器:擴散Transformer**

有了SAME提供的緊湊代號序列,接下來擴散Transformer就在這些代號上進行生成。這個Transformer是整個系統的"大腦",三種規模模型的區別主要就在於這個大腦的大小:small的Transformer有20層,每層1024維,16個注意力頭;medium有24層,1536維,24個注意力頭;large有26層,2048維,32個注意力頭。

把這個Transformer拆開來看,它接受資訊的方式有三個通道,就像一個調音台上的三個推子。

第一個推子是"文字理解通道"。用戶輸入的文字描述(比如"爵士鋼琴獨奏")會先被一個叫做T5Gemma的文字編碼器處理,把文字轉化成256個768維的向量序列。短於256個詞的提示會用一個專門學習的"填充向量"補齊,長於256個詞的提示會被截斷。文字向量與時長向量(描述要生成多長音頻)拼接在一起,通過"交叉注意力"機制注入每個Transformer層,讓模型時刻記住"我要生成什麼內容"。

第二個推子是"全局時間步通道"。擴散模型在工作時需要知道"現在處於去噪過程的哪個階段",這個資訊叫做時間步t(從0到1,0代表完全乾淨,1代表完全噪聲)。時間步和時長資訊都被編碼成256維傅里葉特徵,再各自經過一個MLP映射到d維,然後相加,通過叫做"自適應層歸一化"(AdaLN)的機制調節每個Transformer層內部的計算行為,起到類似"調節整體處理節奏"的作用。這裡用的是一種叫做AdaLN-Single的變體:條件向量在所有Transformer層之間共享,每層只獨立學習6個偏置項,大幅減少了條件化所需的參數量。

第三個推子是"局部編輯通道",專門用於實現後文要介紹的"音頻修復"功能。它把參考音頻(經過SAME編碼後的潛代號)和一個二值掩碼(標記哪些位置需要保留、哪些需要生成)拼接成257維的幀級信號,通過一個兩層MLP投影到d維,逐幀相加到每個Transformer層的中間狀態。MLP的最後一層權重初始化為零,這樣在訓練開始時這個通道對模型毫無影響,可以平滑地從一個不具備編輯功能的基礎模型微調而來。

除了這三個條件化通道,Transformer還有兩個值得專門說明的設計細節。一是"記憶嵌入":在序列輸入Transformer之前,會在前面拼接64個可學習的"記憶向量",讓序列中每個位置都能通過注意力機制訪問這64個全局上下文槽位,類似於給所有聲音幀共享一塊黑板。處理完畢後,這64個記憶向量被丟棄,不參與最終輸出。二是"差分注意力":medium和large使用了一種改進的注意力機制,它用兩組獨立的Q、K矩陣分別計算兩個注意力權重圖,然後把二者相減,從而消除兩組共有的"噪聲"模式,讓注意力更專注於真正重要的關聯。small由於參數預算有限,使用的是普通多頭注意力。

在位置編碼方面,Transformer對每個注意力頭只旋轉前32個維度(部分RoPE),其餘維度不攜帶位置資訊,這是為了讓模型在處理不同長度序列時保持靈活性。此外,Q和K在進入注意力計算前都會經過RMSNorm歸一化,防止注意力分數無限增大。

**五、三階段訓練:從"打草稿"到"專業潤色"**

Stable Audio 3的訓練分三個相互銜接的階段進行,可以用"寫文章"來打比方:第一階段像是打草稿,把文章的主要內容和結構寫出來;第二階段像是把草稿簡練化,儘量用少幾步的語言表達同樣的意思;第三階段像是找專業編輯潤色,讓文章既精煉又生動。

**流匹配預訓練**

第一階段使用的技術叫"流匹配"(Flow Matching)。直覺上,擴散模型的工作就是在"純噪聲"和"乾淨音頻代號"之間建立一條路徑,每次去噪走這條路徑上的一小步。流匹配給出了這條路徑的一個特別簡潔的定義:從噪聲ε和乾淨數據x?之間做線性插值,時間步t∈[0,1]時的混合狀態就是x?=(1-t)·x?+t·ε,路徑上的"速度方向"v=ε-x?始終是個常數。模型要學習的就是給定任意時刻的狀態x?,預測出速度方向v。

為了讓這條路徑儘量短而直,團隊引入了"最小批量最優傳輸配對"技術:在每個訓練批次里,用Sinkhorn算法快速求解一個近似的最優分配問題,把數據樣本x?和噪聲樣本ε重新配對,使得每對之間的平方L2距離之和最小。這樣配對後的路徑更短、更少交叉,讓模型更容易學習,推理時也走得更准。

訓練時的時間步採樣來自"截斷logit正態分布":先從標準正態分布採樣z,再經過σ函數映射到(0,1)區間,然後截掉t

每個訓練步里,還會隨機給數據生成一個二值掩碼,按照"全掩碼(概率80%,等同於無條件生成)、隨機段掩碼(概率10%,修複選定區域)、因果掩碼(概率10%,延續給定前綴)"三種類型混合。掩碼資訊和被掩碼後的潛代號通過"局部加法條件化"通道注入模型,損失函數則分別對"待生成區域"和"保留區域"的預測誤差獨立平均,再相加。

為了允許無條件生成(推理時可以用這個來做引導),訓練時以10%的概率隨機把文字和時長的條件向量替換為零向量,模擬"沒有條件輸入"的場景。

**蒸餾預熱**

完成第一階段預訓練後,模型雖然生成質量不錯,但推理時需要50到100步,每步都要完整過一遍Transformer,速度很慢。第二階段的"蒸餾預熱"目標是把模型改造成"一步就能給出答案"的模式。

具體做法是:凍結原來的預訓練模型作為"教師",用一份與教師相同架構的模型初始化"學生"。教師用15步DPM++採樣器(帶有CFG引導比例5.0)從隨機噪聲ε生成一條完整軌跡,緩存中間狀態(x?, t)和最終去噪結果x?。每隔4個訓練疊代刷新一次緩存,平衡計算開銷和數據多樣性。學生的任務是:給定軌跡上的任意一個中間狀態x?,直接預測終點x?,損失函數是學生預測的x?與教師的x?之間的均方誤差。學生輸出的是速度vθ,通過一步歐拉公式x?=x?-t·vθ轉換為對x?的估計。

這個階段進行約10000步訓練,把多步ODE求解壓縮成"從任意x?直接跳到x?"的單步映射。但MSE損失有一個眾所周知的問題:它讓模型傾向於預測條件期望,即給出所有可能答案的"平均版本",導致生成結果模糊、缺乏細節,就像一張多次曝光疊加的照片。這就是為什麼還需要第三階段。

**對抗後訓練**

第三階段引入了一個判別器(鑑別器),把整個訓練變成"生成器對抗判別器"的博弈,從而逼迫模型從"預測平均答案"轉向"從真實數據分布中採樣"。這個階段完全拋棄了教師模型,直接用真實數據作為標杆,讓模型有可能超越教師的質量上限。

判別器的設計很有特色:它復用了與生成器相同的Transformer架構,從流匹配預訓練(未經蒸餾預熱)的檢查點初始化,因此一開始就帶有豐富的語義表示能力。真實音頻x?和生成器輸出x?都會被重新加噪到一個獨立的隨機噪聲水平tD(與生成器使用的t無關),兩者共享相同的新噪聲向量ε',這樣在相對論比較時,加入的噪聲分量相互抵消,判別器判斷的是x?和x?本身的質量差異,而非噪聲差異。判別器從Transformer第14層提取特徵,經過一個由輸入卷積、4個殘差塊和最終評分卷積組成的頭部結構,輸出每幀的"真實度分數"。

訓練用了三種損失。"相對論對抗損失"讓生成器努力讓"生成樣本的真實度分數"超過"配對真實樣本的真實度分數",判別器則反過來努力讓真實樣本分數高於配對生成樣本——基於softplus函數實現平滑的梯度行為。這種相對論配對方式之所以有效,是因為配對的真實樣本和生成樣本使用的是同一個文字提示,具有極強的相關性,提供了比隨機配對更強的訓練信號。"對比損失"則專門用於訓練判別器:把批次內的提示循環錯位,讓判別器同時區分"正確配對的音頻-文字"和"錯位配對的音頻-文字",防止判別器只關注音頻本身的質量而忽略文字對齊,強迫它理解語義匹配。"CLAP損失"是一個專為生成器設計的文字對齊損失:用一個凍結的CLAP模型(直接作用於SAME潛代號,無需解碼成波形)計算生成結果和文字提示之間的嵌入距離,採用單位超球面上的平方測地距離(而非常見的餘弦距離),因為平方測地距離在整個角度範圍內都能提供穩定的梯度。這個損失作為語義錨點,防止對抗訓練過程中的模式崩潰,確保生成器始終對提示保持響應。

對抗後訓練還有一個重要的架構選擇:保留了流匹配的速度參數化形式vθ,通過一步歐拉公式恢復x?,而不是讓網路直接輸出x?。這樣做的好處是:在t=0時,模型被迫輸出x?=x?,提供了一個自然的邊界約束;隨著噪聲水平t增大,網路影響力線性增大,避免在低噪聲區域做出過大修正;同時保持了與流匹配預訓練權重的連續性,讓訓練從一個良好的初始狀態出發。

**六、推理時的節拍:Ping-Pong採樣**

經過對抗後訓練,模型具備了"從任意噪聲水平x?一步直接給出x?"的能力。但實驗表明,從純噪聲(t=1)直接一步生成乾淨音頻(t=0)的效果並不理想,因為這一步跨度太大、誤差積累太多。團隊的解決方案是"Ping-Pong採樣"——字面意思就像桌球一樣來回彈跳。

具體流程是:從純噪聲ε出發,先"去噪"得到一個估計x?;然後不直接使用這個估計,而是把它和一個全新的隨機噪聲按照一個較低的新噪聲水平t?重新混合,得到一個新的x??;再從這個x??"去噪"得到新的x?;如此反覆,每次重新混合時使用的噪聲水平都遞減,直到最終t接近0時輸出最終結果。

這個過程有一個標準的ODE求解器不具備的重要優勢:自我糾錯能力。如果前幾步(噪聲水平高時)的估計不准,重新混合噪聲後產生的新狀態已經融入了這個不完美估計,下一步去噪會自然地修正這個偏差。相比之下,標準ODE求解器一旦在某步走錯方向,後續所有步驟都從錯誤位置出發,誤差會累積放大。

時間步的安排不是線性均勻分布,而是在logSNR(對數信噪比)空間內均勻分布,因為人耳對聲音質量的感知大致與logSNR均勻變化相關,這樣安排能讓每步處理的感知難度大致相當。具體地,選取N+1=9個logSNR節點,範圍為[-6.2, 2.0],通過公式t?=σ(-λ?)轉換為時間步。實驗發現8步Ping-Pong採樣是效率和質量的最佳平衡點。

推理時不需要"分類器自由引導"(CFG,一種用於提升文字對齊度但需要雙倍計算量的技巧)。這是因為蒸餾預熱階段的教師使用了CFG生成軌跡,學生已經內化了CFG帶來的質量提升;對抗後訓練的CLAP損失進一步強化了文字對齊。少了CFG,每步只需一次前向傳播,在邊緣設備上尤其節省計算資源。

推理時的序列長度計算也有專門設計:對於用戶請求的d秒音頻,實際分配的序列長度是?(d+6)·44100/4096?幀,其中6秒是額外的靜音緩衝區。靜音區域有兩個作用:防止音頻在序列末端產生突然截斷的邊界偽影,以及為解碼器提供淡出緩衝。生成完成後,截取前d秒輸出,丟棄緩衝區。

**七、實驗結果:數字背後的故事**

團隊用兩個評估數據集來測試所有模型。一個是"歌曲描述數據集"(SDD),包含424對120秒器樂音樂和人工描述標註,專門用於器樂音樂評估;另一個是BBC音效數據集,包含多個時長子集(5秒、10秒、30秒、120秒),專門用於音效評估。評估指標主要有兩個:FAD(Fréchet音頻距離,衡量生成音頻和真實音頻的分布相似度,越低越好)和CLAP分數(衡量生成內容與文字描述的語義匹配程度,越高越好)。此外還進行了含14位參與者的主觀聆聽測試,評分維度包括總體質量(OVL)、文字相關性(REL)和音樂性(MUS)。

在器樂音樂生成方面,以120秒為基準,medium的FAD為0.107,large的FAD為0.101,均與內部基準Stable Audio 2.5(FAD 0.106)持平或略優,且主觀音樂性評分(medium獲4.15分,large獲4.30分,滿分5分)明顯高於Stable Audio 2.5的3.70分。對比開源競品,DiffRhythm 2的FAD為0.293,ACE-Step 1.5的FAD為0.193,均與Stable Audio 3差距顯著。在推理速度上,Stable Audio 3生成120秒音樂只需不到1秒,而ACE-Step 1.5需要6.23秒,DiffRhythm 2需要3.88秒。

在音效生成方面,以5秒為基準,large的FAD為0.358,medium為0.369,均優於所有開源競品(最好的Woosh Flow為0.580,TangoFlux為0.760)。主觀質量評分方面,large和medium也排在前列。值得一提的是,Woosh Flow雖然主觀質量評分尚可,但其FAD分數偏高,研究團隊分析原因是Woosh Flow生成的音頻頻寬有限(即某些頻率範圍的聲音被截斷),導致與參考音頻分布不符。

在可變長度生成的穩定性方面,Stable Audio 3各模型在從20秒到380秒的不同長度上都保持了較為一致的表現,而Stable Audio 2.5一旦偏離訓練長度就出現明顯退化,驗證了原生可變長度設計的優越性。在極短(20秒)時表現略差,團隊分析是因為訓練集裡的短音頻大多是循環片段而非完整的曲子,與評估數據集中的完整曲子有分布差異;在極長(380秒)時CLAP分數明顯下降,原因是訓練集裡的超長音頻大多是氛圍音樂或古典音樂,導致模型在被要求生成很長時間時傾向於漂移到這些風格,忽略文字提示。

關於對抗後訓練的效果,將後訓練模型(8步Ping-Pong)與基礎模型(50步歐拉)對比:器樂音樂方面,medium後訓練FAD為0.107對基礎的0.143,CLAP為0.390對0.352,同時推理時間從3.87秒降至0.78秒,質量和速度雙雙提升。音效方面,similar趨勢也得到了驗證。單步生成(1步Ping-Pong)雖然速度極快(medium僅需0.27秒),但質量明顯下滑(FAD從0.107升至0.258),這說明8步是必要的折中。

**八、編輯功能:給聲音動手術**

Stable Audio 3的音頻編輯能力通過"內繪"(Inpainting)機制實現,這個名字借自圖像編輯領域,意思是"在指定區域內重新繪製"。對於音頻來說,就是指定一段或多段需要修改的區域,讓模型在保留其餘部分不變的同時,重新生成這些區域的內容。

使用方式是:提供原始音頻和一個二值掩碼(1表示保留,0表示重新生成),以及文字提示(描述目標效果)。掩碼和被遮蔽的潛代號序列一起通過局部加法條件化通道注入Transformer,模型在擴散過程中自然地生成與上下文銜接的新內容。訓練時三種掩碼類型(全掩碼80%、隨機段掩碼10%、因果掩碼10%)的混合,確保了模型對三種編輯場景都有充分的學習。

團隊在器樂音樂和音效兩類數據上分別評估了三種編輯場景:單段內繪、雙段內繪和延續(保留前綴、生成後續內容)。在器樂音樂的單段內繪中,large的全音頻FAD為0.047,僅略高於原始音頻(FAD=0說明完全相同),表明修復後的音頻與原始參考音頻高度相近。雙段內繪的數字與單段接近,說明模型處理兩個獨立掩碼區域和一個掩碼區域同樣得心應手。延續場景的FAD數字相對較高,這是因為延續的生成區域缺少後端上下文約束,生成內容與原始錄音的分布偏離更大,是客觀存在的技術局限,並非模型失誤。

**九、在你的設備上運行:內存與速度數據**

對於關心"這玩意兒能不能在我電腦上跑"的讀者,團隊詳細測試了不同設備和不同加速方式下的實際表現。

在H200伺服器顯卡上,small生成120秒音頻的峰值顯存用量為2.40GB,medium為6.49GB,large為9.01GB。生成時間方面(標準PyTorch,8步Ping-Pong),small生成120秒只需0.45秒,medium需0.78秒,large需0.81秒。如果使用TensorRT加速(一種專門優化神經網路推理速度的工具),速度可以再提升一個數量級:medium生成120秒只需0.13秒,large只需0.19秒。

在MacBook Pro M4上,CPU專屬運行模式下,small生成120秒需要5.92秒;切換到CoreML加速模式(同時利用CPU、GPU和神經引擎),只需3.09秒。雖然比H200慢很多,但能在本地完全離線地生成高質量音樂,對於隱私敏感或沒有穩定網路的用戶來說非常有意義。

**說到底,這意味著什麼**

Stable Audio 3把高質量AI音樂生成真正帶到了普通創作者觸手可及的地方。對於獨立遊戲開發者、播客製作人、短影片創作者,乃至中學生做課堂展示的配樂需求,一台普通筆記本就夠了;不滿意某段效果時,直接用內繪功能替換那幾秒,不需要重新生成整首曲子;生成短音效不會因為要跑滿最長序列而浪費時間和電量。

當然,這項研究也有清晰的局限:超長音頻(比如完整的6分20秒)在文字提示遵從度上仍有下降;訓練數據中某些時長段的音頻偏向特定風格,使模型在對應時長上產生偏好;延續性編輯在沒有後端上下文約束時仍然存在漂移風險。這些都是後續研究可以繼續深挖的方向。

有興趣進一步探索的讀者,可以通過arXiv編號2605.17991查閱完整技術報告,也可以直接訪問GitHub上的Stability-AI/stable-audio-3和stable-audio-tools兩個倉庫,下載模型權重和推理代碼自行體驗。

---

**Q&A**

Q1:Stable Audio 3的small、medium、large三個模型有什麼區別,普通人該選哪個?

A:三個模型的主要區別在於參數規模和最大生成時長。small約4.59億參數,最長生成2分鐘,峰值顯存2.4GB,MacBook也能跑;medium約14億參數,最長生成6分20秒,峰值顯存6.5GB,需要8GB以上顯存的消費級顯卡;large約27億參數,最長同樣6分20秒,需要約9GB顯存。普通創作者用medium基本夠用,對配置有限制則選small,large是研究用途和追求最高質量時的選擇。目前small和medium的權重已開源,large暫不開放下載。

Q2:Ping-Pong採樣和普通擴散模型的去噪步驟有什麼本質區別?

A:普通擴散模型的ODE求解器是"單向推進"——每步從當前狀態往前走一小步,一旦走偏就會持續偏下去,誤差累積無法糾正。Ping-Pong採樣則是"去噪後重新加噪"的交替模式:每步先估計乾淨結果,再把這個估計和全新隨機噪聲按較低噪聲水平混合,下一步從這個新狀態出發。這意味著前幾步的估計偏差會在重新加噪時被稀釋,後續步驟有機會糾正,整體對早期誤差更有容忍度。Stable Audio 3用8步Ping-Pong代替了基礎模型的50步ODE,速度提升約6倍,質量還更好。

Q3:Stable Audio 3的音頻內繪功能可以用來做哪些實際的創作任務?

A:音頻內繪支持三類操作。單段內繪可以替換一首曲子中某個不滿意的片段,比如把歌曲中間一段吉他solo換成鋼琴版本,同時保留前後上下文的連貫性。雙段內繪則同時替換兩個獨立區域,比如修改一首曲子開頭和結尾的過渡片段。延續則是給定一段現有錄音的開頭,讓模型按照提示自然延伸後續內容,適合給未完成的小樣續寫或把短音效擴展成長版本。這三種能力在訓練時通過不同比例的掩碼類型同時學習,不需要單獨微調模型。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新