Stability AI讓AI音樂創作快到「飛起」：一款能在MacBook上跑、2秒生成6分鐘音樂的開源神器

這項由Stability AI研究團隊完成的技術報告於2026年5月18日發布在預印本平台arXiv，論文編號為arXiv:2605.17991v1，分類領域為電腦科學·聲音（cs.SD）。有興趣深入了解的讀者可通過該編號在arXiv平台上查閱完整論文。

贊助商廣告

**一個讓創作者頭疼的老問題**

假設你是一位獨立遊戲開發者，正在為遊戲的戰鬥場景配樂。你腦海里有一段模糊的旋律感覺——"快節奏、帶電子元素、有點兒史詩感"，但你既不會作曲，也付不起配樂師的高昂費用。於是你打開了一款AI音樂生成工具，輸入描述，按下生成按鈕，然後……等了將近一分鐘，還要占用大量電腦內存，最終生成出來的音樂長度固定，根本不符合你那段20秒場景的需要。

這個場景準確描述了AI音樂生成領域長期存在的三個核心痛點：太慢、太耗資源、不靈活。Stability AI的研究團隊帶著Stable Audio 3這一成果正面回應了這三個問題，而且交出的答卷相當有分量——用普通筆記本電腦的處理器就能運行，在頂級伺服器顯卡上不到2秒就能生成長達6分20秒的高質量音樂，還可以對已有的音頻進行精確的局部編輯。

**一、Stable Audio 3究竟是什麼，為什麼值得關注**

Stable Audio 3本質上是一個"聲音工廠"，你給它一段文字描述，它就能產出對應的音樂或音效。這個"工廠"實際上由三種不同規模的機器組成，團隊分別稱它們為small（小型）、medium（中型）和large（大型），就像洗衣機有迷你款、家用款和商用款一樣，適用於不同的使用場景和設備條件。

small擁有約4.59億個參數（可以把"參數"理解為機器內部的調節旋鈕數量，旋鈕越多，機器越精細），能生成最長2分鐘的音頻；medium擁有約14億個參數，最長可生成6分20秒；large擁有約27億個參數，同樣支持6分20秒。在頂級H200伺服器顯卡上，small只需0.44秒，medium需1.31秒，large需1.80秒，就能完成一次生成。更值得一提的是，small和medium的模型權重是完全開放的，任何人都可以下載使用，代碼託管在GitHub的Stability-AI/stable-audio-3倉庫。

贊助商廣告

這三個模型還分了更細的專業分支：small-music專門生成器樂音樂，small-sfx專門生成音效，而medium和large則是音樂和音效兼顧的綜合選手。之所以small要分開訓練音樂版和音效版，是因為研究團隊發現在參數有限的小模型里，音樂數據和音效數據會互相"干擾"，就像同一個廚師同時做川菜和粵菜，難免串味，分開反而各自更出色。

所有模型都在經過授權的商業音頻和遵循知識共享協議（Creative Commons）的免費音頻上訓練，不存在版權隱患，這對於想把AI音樂工具用於商業項目的創作者來說是個很大的保障。

**二、解決"生成短音頻還要等半天"的難題：可變長度生成**

在Stable Audio 3之前，絕大多數擴散模型式的音頻生成器都有一個隱藏的浪費：不管你想要多短的音頻，它都要按照最大長度來計算。以Stable Audio 3的前代產品Stable Audio 2.5為例，它的最大生成長度是190秒。如果你只需要一段20秒的音樂，它仍然要在內部生成完整的190秒內容，然後把多餘的170秒靜音扔掉——就像每次你去便利店只買一瓶水，收銀員卻堅持要給你裝一個能放一冰箱東西的袋子，既浪費時間也浪費資源。

研究團隊把這種方式叫做"固定長度生成"，而他們為Stable Audio 3開發的新方式叫做"可變長度生成"。核心思路是：需要多長就生成多長，計算量隨著實際長度而變化。為了讓這套方法在訓練階段也能穩定工作，團隊設計了三個相互配合的技巧。

第一個技巧叫"可變長度注意力與掩碼損失"。在模型訓練時，一批數據里往往包含長短不一的音頻片段，需要用補零的方式把它們湊成相同長度才能一起處理。但那些補上去的零其實沒有資訊，讓模型去"學習"這些零是浪費，更可能導致模型混亂。團隊的解決方案是給這些補位內容打上"標記"，讓模型在計算時直接忽略它們，損失函數（衡量生成效果好不好的評分機制）也只對真實音頻部分評分。

贊助商廣告

第二個技巧叫"按元素調整時間步偏移"。這裡要引入擴散模型的一個基本概念：這類模型的工作方式類似於從一團噪聲出發，一步一步把噪聲"去掉"，最終還原出有意義的內容。每一步叫做一個"時間步"，時間步越大表示噪聲越多。問題在於，長序列的音頻片段因為內部元素之間有關聯，在同樣的噪聲水平下，它保留的可恢復資訊比短序列更多。如果用同樣的噪聲調度表訓練長短不同的音頻，長音頻會被"欠噪化"，模型就沒有充分學會處理高噪聲情況下的長音頻。團隊的解決方案是：根據每段音頻的實際長度，動態地把時間步往更高噪聲的方向偏移——越長的音頻，訓練時就推向更嘈雜的區間，以此保持學習難度的平衡。具體的數學公式採用了一種叫做"邏輯斯諦形式"的映射，讓這個偏移量在最短序列（偏移參數0.5）到最長序列（偏移參數1.15）之間平滑過渡。

第三個技巧叫"靜音增強"。團隊在訓練時會隨機地在真實音頻後面拼接一段靜音，靜音的長度從指數分布中隨機抽取，平均約4秒。這樣做有兩個目的：第一，防止模型把"我要生成的時長"和"實際音頻信號就該這麼長"死死綁定在一起；第二，訓練模型學會自然地結束，而不是在到達序列末尾時突然斷掉，留下一個生硬的截斷感。

為了驗證可變長度生成是否真的有效，團隊還做了一個對照實驗：故意把Stable Audio 2.5"誤用"——明明是在190秒條件下訓練的，卻強行讓它在20秒的短序列上進行推理。結果兩項評估指標（FAD和CLAP分數，這兩個概念後面會解釋）都出現了明顯下滑，證明固定長度模型無法做到高效的可變長度推理，而Stable Audio 3的原生可變長度設計則在各個長度上保持了穩定的表現。

**三、Stable Audio 3的"聲音壓縮器"：語義聲學自編碼器**

擴散模型做音頻生成有一個基本前提：不能直接在原始音頻波形上"去噪"，因為原始波形的數據量太大了，一秒鐘44100個採樣點，一分鐘就是兩百多萬個數據點，計算量無法承受。標準做法是先用一個"壓縮器"把原始音頻壓縮成一個緊湊的"代號序列"，擴散模型只在這些代號上工作，生成完成後再用"解壓器"把代號還原成真實音頻。

贊助商廣告

Stable Audio 3使用的壓縮器叫做SAME（Semantically-Aligned Music AutoEncoder，語義對齊音樂自編碼器），這是團隊另一項相關研究的成果，在本文中作為基礎組件使用。SAME的壓縮比達到了4096倍——也就是說，原本長度為4096個採樣點的音頻，經過壓縮後變成1個"代號"（嚴格來說是一個256維的向量，可以理解為一個有256個數字的"代號"）。相比之下，同類工作通常只壓縮1024到2048倍，SAME的壓縮比明顯更激進。這種激進壓縮讓中型和小型模型能在消費級GPU甚至MacBook的CPU上生成幾分鐘的長音頻成為現實。

SAME是怎麼做到這麼高壓縮比的呢？它的工作流程分兩步走。第一步是"打補丁"：把立體聲44.1kHz的音頻波形切成256個採樣點一組的小塊，每塊作為一個基本單元，這一步實現了256倍壓縮。第二步是一種叫做"Transformer重採樣塊"（TRB）的獨特結構，再做16倍壓縮，兩步合計達到4096倍。

TRB的工作方式頗為巧妙：把輸入序列每兩個（或多個）元素編為一組，在每組裡插入一個可學習的"占位符"，然後讓整個序列（原始元素加上占位符）通過多層Transformer處理。處理完畢後，只保留那些"占位符"位置的輸出，把原始元素的輸出全部丟棄。這相當於讓這些占位符在學習過程中"吸收"了附近原始元素的關鍵資訊，然後作為壓縮後的代表輸出。在解壓階段，這個過程反過來：每個壓縮代號被配上若干個新的占位符，處理後保留占位符輸出，實現擴張。

壓縮器輸出的代號序列對於後續的擴散模型訓練質量有直接影響。SAME的一個核心設計目標是讓這些代號不只包含"聲音是什麼"（聲學資訊），還包含"聲音在說什麼"（語義資訊）。為了實現這個目標，SAME在訓練時同時接受了五種不同性質的損失函數約束。

第一種是多解析度頻譜重建損失，在七種不同的FFT解析度（從32點到2048點，每種都有75%的幀重疊）上分別計算頻譜對比度、對數幅度L1距離和瞬時頻率相位誤差，確保還原出的聲音在各個細節尺度上都夠精確。為了處理立體聲，這種損失分別在"和聲"（左右聲道相加）和"差音"（左右聲道相減）兩種表示形式上獨立計算。第二種是對抗損失，採用相對論GAN目標，通過一個判別器來逼迫生成質量更接近真實。第三種是擴散對齊損失，用一個小型擴散Transformer（4層，768維）直接在SAME的潛空間上訓練，梯度反流回編碼器，推動編碼器學習出"對擴散模型友好"的潛空間幾何結構。第四種是語義回歸損失，用兩個輕量線性回歸器分別預測"色度特徵"（音調結構）和"耳間電平差"（ILD，立體聲寬度資訊），強迫潛代號保留這些高層語義特徵。第五種是對比潛空間對齊損失，用一個4層、1024維的Transformer判別器來判斷"潛代號序列、小波音頻特徵、文字描述"三者是否來自同一段音頻，從而推動潛代號同時與音頻內容和文字描述保持對齊。

贊助商廣告

在實際部署中，small使用的是參數較少的SAME-S版本，這個版本專門為CPU推理做了輕量化優化；medium和large使用參數更多的SAME-L版本，保留了完整的表達能力。兩個版本的壓縮比和代號維度完全相同，保持了架構上的統一性。SAME編碼器和解碼器在擴散模型訓練期間保持凍結狀態，不再更新參數。

**四、"聲音工廠"的核心機器：擴散Transformer**

有了SAME提供的緊湊代號序列，接下來擴散Transformer就在這些代號上進行生成。這個Transformer是整個系統的"大腦"，三種規模模型的區別主要就在於這個大腦的大小：small的Transformer有20層，每層1024維，16個注意力頭；medium有24層，1536維，24個注意力頭；large有26層，2048維，32個注意力頭。

把這個Transformer拆開來看，它接受資訊的方式有三個通道，就像一個調音台上的三個推子。

第一個推子是"文字理解通道"。用戶輸入的文字描述（比如"爵士鋼琴獨奏"）會先被一個叫做T5Gemma的文字編碼器處理，把文字轉化成256個768維的向量序列。短於256個詞的提示會用一個專門學習的"填充向量"補齊，長於256個詞的提示會被截斷。文字向量與時長向量（描述要生成多長音頻）拼接在一起，通過"交叉注意力"機制注入每個Transformer層，讓模型時刻記住"我要生成什麼內容"。

第二個推子是"全局時間步通道"。擴散模型在工作時需要知道"現在處於去噪過程的哪個階段"，這個資訊叫做時間步t（從0到1，0代表完全乾淨，1代表完全噪聲）。時間步和時長資訊都被編碼成256維傅里葉特徵，再各自經過一個MLP映射到d維，然後相加，通過叫做"自適應層歸一化"（AdaLN）的機制調節每個Transformer層內部的計算行為，起到類似"調節整體處理節奏"的作用。這裡用的是一種叫做AdaLN-Single的變體：條件向量在所有Transformer層之間共享，每層只獨立學習6個偏置項，大幅減少了條件化所需的參數量。

贊助商廣告

第三個推子是"局部編輯通道"，專門用於實現後文要介紹的"音頻修復"功能。它把參考音頻（經過SAME編碼後的潛代號）和一個二值掩碼（標記哪些位置需要保留、哪些需要生成）拼接成257維的幀級信號，通過一個兩層MLP投影到d維，逐幀相加到每個Transformer層的中間狀態。MLP的最後一層權重初始化為零，這樣在訓練開始時這個通道對模型毫無影響，可以平滑地從一個不具備編輯功能的基礎模型微調而來。

除了這三個條件化通道，Transformer還有兩個值得專門說明的設計細節。一是"記憶嵌入"：在序列輸入Transformer之前，會在前面拼接64個可學習的"記憶向量"，讓序列中每個位置都能通過注意力機制訪問這64個全局上下文槽位，類似於給所有聲音幀共享一塊黑板。處理完畢後，這64個記憶向量被丟棄，不參與最終輸出。二是"差分注意力"：medium和large使用了一種改進的注意力機制，它用兩組獨立的Q、K矩陣分別計算兩個注意力權重圖，然後把二者相減，從而消除兩組共有的"噪聲"模式，讓注意力更專注於真正重要的關聯。small由於參數預算有限，使用的是普通多頭注意力。

在位置編碼方面，Transformer對每個注意力頭只旋轉前32個維度（部分RoPE），其餘維度不攜帶位置資訊，這是為了讓模型在處理不同長度序列時保持靈活性。此外，Q和K在進入注意力計算前都會經過RMSNorm歸一化，防止注意力分數無限增大。

**五、三階段訓練：從"打草稿"到"專業潤色"**

Stable Audio 3的訓練分三個相互銜接的階段進行，可以用"寫文章"來打比方：第一階段像是打草稿，把文章的主要內容和結構寫出來；第二階段像是把草稿簡練化，儘量用少幾步的語言表達同樣的意思；第三階段像是找專業編輯潤色，讓文章既精煉又生動。

**流匹配預訓練**

第一階段使用的技術叫"流匹配"（Flow Matching）。直覺上，擴散模型的工作就是在"純噪聲"和"乾淨音頻代號"之間建立一條路徑，每次去噪走這條路徑上的一小步。流匹配給出了這條路徑的一個特別簡潔的定義：從噪聲ε和乾淨數據x?之間做線性插值，時間步t∈[0,1]時的混合狀態就是x?=(1-t)·x?+t·ε，路徑上的"速度方向"v=ε-x?始終是個常數。模型要學習的就是給定任意時刻的狀態x?，預測出速度方向v。

贊助商廣告

為了讓這條路徑儘量短而直，團隊引入了"最小批量最優傳輸配對"技術：在每個訓練批次里，用Sinkhorn算法快速求解一個近似的最優分配問題，把數據樣本x?和噪聲樣本ε重新配對，使得每對之間的平方L2距離之和最小。這樣配對後的路徑更短、更少交叉，讓模型更容易學習，推理時也走得更准。

訓練時的時間步採樣來自"截斷logit正態分布"：先從標準正態分布採樣z，再經過σ函數映射到(0,1)區間，然後截掉t

每個訓練步里，還會隨機給數據生成一個二值掩碼，按照"全掩碼（概率80%，等同於無條件生成）、隨機段掩碼（概率10%，修複選定區域）、因果掩碼（概率10%，延續給定前綴）"三種類型混合。掩碼資訊和被掩碼後的潛代號通過"局部加法條件化"通道注入模型，損失函數則分別對"待生成區域"和"保留區域"的預測誤差獨立平均，再相加。

為了允許無條件生成（推理時可以用這個來做引導），訓練時以10%的概率隨機把文字和時長的條件向量替換為零向量，模擬"沒有條件輸入"的場景。

**蒸餾預熱**

完成第一階段預訓練後，模型雖然生成質量不錯，但推理時需要50到100步，每步都要完整過一遍Transformer，速度很慢。第二階段的"蒸餾預熱"目標是把模型改造成"一步就能給出答案"的模式。

具體做法是：凍結原來的預訓練模型作為"教師"，用一份與教師相同架構的模型初始化"學生"。教師用15步DPM++採樣器（帶有CFG引導比例5.0）從隨機噪聲ε生成一條完整軌跡，緩存中間狀態(x?, t)和最終去噪結果x?。每隔4個訓練疊代刷新一次緩存，平衡計算開銷和數據多樣性。學生的任務是：給定軌跡上的任意一個中間狀態x?，直接預測終點x?，損失函數是學生預測的x?與教師的x?之間的均方誤差。學生輸出的是速度vθ，通過一步歐拉公式x?=x?-t·vθ轉換為對x?的估計。

這個階段進行約10000步訓練，把多步ODE求解壓縮成"從任意x?直接跳到x?"的單步映射。但MSE損失有一個眾所周知的問題：它讓模型傾向於預測條件期望，即給出所有可能答案的"平均版本"，導致生成結果模糊、缺乏細節，就像一張多次曝光疊加的照片。這就是為什麼還需要第三階段。

贊助商廣告

**對抗後訓練**

第三階段引入了一個判別器（鑑別器），把整個訓練變成"生成器對抗判別器"的博弈，從而逼迫模型從"預測平均答案"轉向"從真實數據分布中採樣"。這個階段完全拋棄了教師模型，直接用真實數據作為標杆，讓模型有可能超越教師的質量上限。

判別器的設計很有特色：它復用了與生成器相同的Transformer架構，從流匹配預訓練（未經蒸餾預熱）的檢查點初始化，因此一開始就帶有豐富的語義表示能力。真實音頻x?和生成器輸出x?都會被重新加噪到一個獨立的隨機噪聲水平tD（與生成器使用的t無關），兩者共享相同的新噪聲向量ε'，這樣在相對論比較時，加入的噪聲分量相互抵消，判別器判斷的是x?和x?本身的質量差異，而非噪聲差異。判別器從Transformer第14層提取特徵，經過一個由輸入卷積、4個殘差塊和最終評分卷積組成的頭部結構，輸出每幀的"真實度分數"。

訓練用了三種損失。"相對論對抗損失"讓生成器努力讓"生成樣本的真實度分數"超過"配對真實樣本的真實度分數"，判別器則反過來努力讓真實樣本分數高於配對生成樣本——基於softplus函數實現平滑的梯度行為。這種相對論配對方式之所以有效，是因為配對的真實樣本和生成樣本使用的是同一個文字提示，具有極強的相關性，提供了比隨機配對更強的訓練信號。"對比損失"則專門用於訓練判別器：把批次內的提示循環錯位，讓判別器同時區分"正確配對的音頻-文字"和"錯位配對的音頻-文字"，防止判別器只關注音頻本身的質量而忽略文字對齊，強迫它理解語義匹配。"CLAP損失"是一個專為生成器設計的文字對齊損失：用一個凍結的CLAP模型（直接作用於SAME潛代號，無需解碼成波形）計算生成結果和文字提示之間的嵌入距離，採用單位超球面上的平方測地距離（而非常見的餘弦距離），因為平方測地距離在整個角度範圍內都能提供穩定的梯度。這個損失作為語義錨點，防止對抗訓練過程中的模式崩潰，確保生成器始終對提示保持響應。

贊助商廣告

對抗後訓練還有一個重要的架構選擇：保留了流匹配的速度參數化形式vθ，通過一步歐拉公式恢復x?，而不是讓網路直接輸出x?。這樣做的好處是：在t=0時，模型被迫輸出x?=x?，提供了一個自然的邊界約束；隨著噪聲水平t增大，網路影響力線性增大，避免在低噪聲區域做出過大修正；同時保持了與流匹配預訓練權重的連續性，讓訓練從一個良好的初始狀態出發。

**六、推理時的節拍：Ping-Pong採樣**

經過對抗後訓練，模型具備了"從任意噪聲水平x?一步直接給出x?"的能力。但實驗表明，從純噪聲（t=1）直接一步生成乾淨音頻（t=0）的效果並不理想，因為這一步跨度太大、誤差積累太多。團隊的解決方案是"Ping-Pong採樣"——字面意思就像桌球一樣來回彈跳。

具體流程是：從純噪聲ε出發，先"去噪"得到一個估計x?；然後不直接使用這個估計，而是把它和一個全新的隨機噪聲按照一個較低的新噪聲水平t?重新混合，得到一個新的x??；再從這個x??"去噪"得到新的x?；如此反覆，每次重新混合時使用的噪聲水平都遞減，直到最終t接近0時輸出最終結果。

這個過程有一個標準的ODE求解器不具備的重要優勢：自我糾錯能力。如果前幾步（噪聲水平高時）的估計不准，重新混合噪聲後產生的新狀態已經融入了這個不完美估計，下一步去噪會自然地修正這個偏差。相比之下，標準ODE求解器一旦在某步走錯方向，後續所有步驟都從錯誤位置出發，誤差會累積放大。

時間步的安排不是線性均勻分布，而是在logSNR（對數信噪比）空間內均勻分布，因為人耳對聲音質量的感知大致與logSNR均勻變化相關，這樣安排能讓每步處理的感知難度大致相當。具體地，選取N+1=9個logSNR節點，範圍為[-6.2, 2.0]，通過公式t?=σ(-λ?)轉換為時間步。實驗發現8步Ping-Pong採樣是效率和質量的最佳平衡點。

推理時不需要"分類器自由引導"（CFG，一種用於提升文字對齊度但需要雙倍計算量的技巧）。這是因為蒸餾預熱階段的教師使用了CFG生成軌跡，學生已經內化了CFG帶來的質量提升；對抗後訓練的CLAP損失進一步強化了文字對齊。少了CFG，每步只需一次前向傳播，在邊緣設備上尤其節省計算資源。

贊助商廣告

推理時的序列長度計算也有專門設計：對於用戶請求的d秒音頻，實際分配的序列長度是?(d+6)·44100/4096?幀，其中6秒是額外的靜音緩衝區。靜音區域有兩個作用：防止音頻在序列末端產生突然截斷的邊界偽影，以及為解碼器提供淡出緩衝。生成完成後，截取前d秒輸出，丟棄緩衝區。

**七、實驗結果：數字背後的故事**

團隊用兩個評估數據集來測試所有模型。一個是"歌曲描述數據集"（SDD），包含424對120秒器樂音樂和人工描述標註，專門用於器樂音樂評估；另一個是BBC音效數據集，包含多個時長子集（5秒、10秒、30秒、120秒），專門用於音效評估。評估指標主要有兩個：FAD（Fréchet音頻距離，衡量生成音頻和真實音頻的分布相似度，越低越好）和CLAP分數（衡量生成內容與文字描述的語義匹配程度，越高越好）。此外還進行了含14位參與者的主觀聆聽測試，評分維度包括總體質量（OVL）、文字相關性（REL）和音樂性（MUS）。

在器樂音樂生成方面，以120秒為基準，medium的FAD為0.107，large的FAD為0.101，均與內部基準Stable Audio 2.5（FAD 0.106）持平或略優，且主觀音樂性評分（medium獲4.15分，large獲4.30分，滿分5分）明顯高於Stable Audio 2.5的3.70分。對比開源競品，DiffRhythm 2的FAD為0.293，ACE-Step 1.5的FAD為0.193，均與Stable Audio 3差距顯著。在推理速度上，Stable Audio 3生成120秒音樂只需不到1秒，而ACE-Step 1.5需要6.23秒，DiffRhythm 2需要3.88秒。

在音效生成方面，以5秒為基準，large的FAD為0.358，medium為0.369，均優於所有開源競品（最好的Woosh Flow為0.580，TangoFlux為0.760）。主觀質量評分方面，large和medium也排在前列。值得一提的是，Woosh Flow雖然主觀質量評分尚可，但其FAD分數偏高，研究團隊分析原因是Woosh Flow生成的音頻頻寬有限（即某些頻率範圍的聲音被截斷），導致與參考音頻分布不符。

在可變長度生成的穩定性方面，Stable Audio 3各模型在從20秒到380秒的不同長度上都保持了較為一致的表現，而Stable Audio 2.5一旦偏離訓練長度就出現明顯退化，驗證了原生可變長度設計的優越性。在極短（20秒）時表現略差，團隊分析是因為訓練集裡的短音頻大多是循環片段而非完整的曲子，與評估數據集中的完整曲子有分布差異；在極長（380秒）時CLAP分數明顯下降，原因是訓練集裡的超長音頻大多是氛圍音樂或古典音樂，導致模型在被要求生成很長時間時傾向於漂移到這些風格，忽略文字提示。

贊助商廣告

關於對抗後訓練的效果，將後訓練模型（8步Ping-Pong）與基礎模型（50步歐拉）對比：器樂音樂方面，medium後訓練FAD為0.107對基礎的0.143，CLAP為0.390對0.352，同時推理時間從3.87秒降至0.78秒，質量和速度雙雙提升。音效方面，similar趨勢也得到了驗證。單步生成（1步Ping-Pong）雖然速度極快（medium僅需0.27秒），但質量明顯下滑（FAD從0.107升至0.258），這說明8步是必要的折中。

**八、編輯功能：給聲音動手術**

Stable Audio 3的音頻編輯能力通過"內繪"（Inpainting）機制實現，這個名字借自圖像編輯領域，意思是"在指定區域內重新繪製"。對於音頻來說，就是指定一段或多段需要修改的區域，讓模型在保留其餘部分不變的同時，重新生成這些區域的內容。

使用方式是：提供原始音頻和一個二值掩碼（1表示保留，0表示重新生成），以及文字提示（描述目標效果）。掩碼和被遮蔽的潛代號序列一起通過局部加法條件化通道注入Transformer，模型在擴散過程中自然地生成與上下文銜接的新內容。訓練時三種掩碼類型（全掩碼80%、隨機段掩碼10%、因果掩碼10%）的混合，確保了模型對三種編輯場景都有充分的學習。

團隊在器樂音樂和音效兩類數據上分別評估了三種編輯場景：單段內繪、雙段內繪和延續（保留前綴、生成後續內容）。在器樂音樂的單段內繪中，large的全音頻FAD為0.047，僅略高於原始音頻（FAD=0說明完全相同），表明修復後的音頻與原始參考音頻高度相近。雙段內繪的數字與單段接近，說明模型處理兩個獨立掩碼區域和一個掩碼區域同樣得心應手。延續場景的FAD數字相對較高，這是因為延續的生成區域缺少後端上下文約束，生成內容與原始錄音的分布偏離更大，是客觀存在的技術局限，並非模型失誤。

**九、在你的設備上運行：內存與速度數據**

對於關心"這玩意兒能不能在我電腦上跑"的讀者，團隊詳細測試了不同設備和不同加速方式下的實際表現。

贊助商廣告

在H200伺服器顯卡上，small生成120秒音頻的峰值顯存用量為2.40GB，medium為6.49GB，large為9.01GB。生成時間方面（標準PyTorch，8步Ping-Pong），small生成120秒只需0.45秒，medium需0.78秒，large需0.81秒。如果使用TensorRT加速（一種專門優化神經網路推理速度的工具），速度可以再提升一個數量級：medium生成120秒只需0.13秒，large只需0.19秒。

在MacBook Pro M4上，CPU專屬運行模式下，small生成120秒需要5.92秒；切換到CoreML加速模式（同時利用CPU、GPU和神經引擎），只需3.09秒。雖然比H200慢很多，但能在本地完全離線地生成高質量音樂，對於隱私敏感或沒有穩定網路的用戶來說非常有意義。

**說到底，這意味著什麼**

Stable Audio 3把高質量AI音樂生成真正帶到了普通創作者觸手可及的地方。對於獨立遊戲開發者、播客製作人、短影片創作者，乃至中學生做課堂展示的配樂需求，一台普通筆記本就夠了；不滿意某段效果時，直接用內繪功能替換那幾秒，不需要重新生成整首曲子；生成短音效不會因為要跑滿最長序列而浪費時間和電量。

當然，這項研究也有清晰的局限：超長音頻（比如完整的6分20秒）在文字提示遵從度上仍有下降；訓練數據中某些時長段的音頻偏向特定風格，使模型在對應時長上產生偏好；延續性編輯在沒有後端上下文約束時仍然存在漂移風險。這些都是後續研究可以繼續深挖的方向。

有興趣進一步探索的讀者，可以通過arXiv編號2605.17991查閱完整技術報告，也可以直接訪問GitHub上的Stability-AI/stable-audio-3和stable-audio-tools兩個倉庫，下載模型權重和推理代碼自行體驗。

---

**Q&A**

Q1：Stable Audio 3的small、medium、large三個模型有什麼區別，普通人該選哪個？

A：三個模型的主要區別在於參數規模和最大生成時長。small約4.59億參數，最長生成2分鐘，峰值顯存2.4GB，MacBook也能跑；medium約14億參數，最長生成6分20秒，峰值顯存6.5GB，需要8GB以上顯存的消費級顯卡；large約27億參數，最長同樣6分20秒，需要約9GB顯存。普通創作者用medium基本夠用，對配置有限制則選small，large是研究用途和追求最高質量時的選擇。目前small和medium的權重已開源，large暫不開放下載。

贊助商廣告

Q2：Ping-Pong採樣和普通擴散模型的去噪步驟有什麼本質區別？

A：普通擴散模型的ODE求解器是"單向推進"——每步從當前狀態往前走一小步，一旦走偏就會持續偏下去，誤差累積無法糾正。Ping-Pong採樣則是"去噪後重新加噪"的交替模式：每步先估計乾淨結果，再把這個估計和全新隨機噪聲按較低噪聲水平混合，下一步從這個新狀態出發。這意味著前幾步的估計偏差會在重新加噪時被稀釋，後續步驟有機會糾正，整體對早期誤差更有容忍度。Stable Audio 3用8步Ping-Pong代替了基礎模型的50步ODE，速度提升約6倍，質量還更好。

Q3：Stable Audio 3的音頻內繪功能可以用來做哪些實際的創作任務？

A：音頻內繪支持三類操作。單段內繪可以替換一首曲子中某個不滿意的片段，比如把歌曲中間一段吉他solo換成鋼琴版本，同時保留前後上下文的連貫性。雙段內繪則同時替換兩個獨立區域，比如修改一首曲子開頭和結尾的過渡片段。延續則是給定一段現有錄音的開頭，讓模型按照提示自然延伸後續內容，適合給未完成的小樣續寫或把短音效擴展成長版本。這三種能力在訓練時通過不同比例的掩碼類型同時學習，不需要單獨微調模型。