喬治亞理工、KAIST等多校聯手：用「人類偏好」來訓練AI作曲，效果究竟如何？

這項由喬治亞理工學院、韓國科學技術院（KAIST）、北京大學、倫敦瑪麗女王大學和卡內基梅隆大學聯合完成的研究，以論文編號 arXiv:2606.21670 於2026年6月提交，並作為參賽方案提交至2026年ICME國際多媒體與博覽會學術文生音樂大挑戰賽（ATTM Grand Challenge）效率賽道。

贊助商廣告

你有沒有注意到，當你打開一個AI音樂生成工具，輸入"輕柔的鋼琴曲，帶著些許憂鬱"之後，得到的音樂有時候確實是鋼琴曲，卻讓人覺得哪裡不對勁——也許音調太單調，也許節奏讓人昏昏欲睡，也許整體聽起來就是"不夠好聽"。問題出在哪兒？AI確實按照文字指令做了，但它不知道怎麼做才算"好聽"。這就是這支研究團隊想要解決的核心問題：怎麼讓AI不只是機械地執行指令，而是真正生成讓人喜歡的音樂。

他們的答案是：給AI一個"人類品味評委"——一個叫TuneJury的系統，專門負責給生成的音樂評分，告訴AI哪首曲子更符合人類的審美偏好。然後，用這個評委的評分來指導AI的整個訓練過程。這套方法聽起來有些像讓一個不懂音樂的學生跟著一位嚴格的評委反覆練習，直到評委點頭為止。

一、這場比賽考什麼，研究團隊端出了什麼

在介紹研究團隊的具體做法之前，先聊聊他們參加的這場比賽背景，這樣才能理解他們每個選擇背後的用意。

ATTM大挑戰賽的效率賽道限制了參賽模型的規模——不能超過5億個參數。參數可以理解成AI模型的"複雜程度"，參數越多，模型越聰明，但也越占資源。這就相當於比賽規定所有廚師只能用一個小灶台，不能動用整個工業廚房。比賽用三個指標來評判生成音樂的質量：FAD-CLAP（一種衡量生成音樂和真實音樂有多像的分數，越低越好，就像兩張畫的相似度評分）、CLAP分數（衡量音樂內容和文字描述有多匹配，越高越好），以及概念覆蓋分數（CCS，由一個大型AI裁判來判斷音樂是否覆蓋了文字描述中提到的各種概念）。

贊助商廣告

研究團隊選用的基礎模型是FluxAudio-S，一個有著1.2億個參數的流匹配變換器模型（Flow Matching Transformer）。用更通俗的話說，這類模型就像一個會把噪聲逐漸"雕塑"成音樂的機器，每一步都在讓混沌的隨機信號變得更接近有意義的旋律。這個基礎模型是比賽方直接提供的，相當於給所有參賽者同一塊麵團，看誰能烤出最好吃的麵包。

研究團隊在這塊麵團上做了五件事：四件發生在訓練階段，一件發生在最終生成音樂的推斷階段。這五件事環環相扣，形成了一條完整的流水線。

二、給AI裝上"品味傳感器"：TuneJury評委系統

在進入那五件事之前，必須先認識TuneJury，因為它是整套方案的核心支柱。

TuneJury是一個專門評判音樂好壞的AI系統，它的工作方式不是給一首曲子打單獨的分數，而是做"兩兩比較"——給它兩首曲子A和B，它告訴你哪首更好。這就像美食評測節目裡的盲測環節，評委不是給單道菜評分，而是在兩道菜中選擇更好的那道。

TuneJury用來評判音樂的資訊來自兩個不同的音樂理解系統的結合。第一個是LAION-CLAP-Music，它擅長理解音樂和文字之間的語義關係，就像一個能讀懂"憂鬱鋼琴曲"這類描述並找到對應音樂特徵的人。第二個是MERT，它更擅長感知音樂本身的聲學細節——音高、和聲、節奏、音色，就像一個受過專業訓練、有精準音感的音樂家。把這兩個系統的理解合併在一起（具體是把各自提取的特徵向量拼接成一個2048維的表示），TuneJury就同時具備了"懂語義"和"懂音樂"的能力。

訓練TuneJury用的數據來自四個公開的人類音樂偏好數據集：Music Arena、MusicPrefs、AIME和SongEval，總共約2.2萬對"A比B好"這樣的人類投票。TuneJury學習的任務就是預測這些人類的選擇，最終在留出的驗證集上達到了70.3%的準確率——也就是說，在10次"哪首更好聽"的判斷中，它有7次和人類意見一致。這個數字聽起來不算完美，但對於一個試圖量化"好聽"這種主觀感受的系統來說，已經相當可靠。

贊助商廣告

三、流水線的第一步：把評委的評分直接告訴AI

有了TuneJury這個評委，研究團隊做的第一件事是把它的評分變成AI模型在學習時能接收的輸入信號。

具體來說，訓練數據集裡的每一段音樂（總共約53.5萬段10秒長的片段，來自MTG-Jamendo資料庫）都會提前被TuneJury評分。然後，在訓練AI時，每段音樂對應的那個分數會和音樂的文字描述一起，作為輸入資訊送給模型。模型在學習"這段描述對應什麼樣的音樂"的同時，也在學習"這段描述加上這個質量分數對應什麼樣的音樂"。

這就相當於在給廚師學員安排練習任務時，不只告訴他"做一道紅燒肉"，還告訴他"做一道評委打了8.5分的紅燒肉"。學員學習的目標就更具體了：不是任意一道紅燒肉，而是能讓評委給高分的那種。

這個分數通過一種叫做"傅里葉嵌入"的技術轉化為AI能理解的數學形式，再通過一個小型神經網路處理後注入到主模型中。為了確保這個額外的分數輸入不會在訓練初期干擾模型的正常學習，研究團隊用了一個聰明的設計：最開始時這個注入通道的參數被初始化為零，也就是說訓練剛開始時這個通道完全沒有效果，和原始模型一模一樣，然後隨著訓練的進行，模型才慢慢學會利用這個分數信號。

此外，在訓練過程中有10%的概率會把這個分數設置為零（也就是"空分數"），這個技巧叫做"隨機丟棄"，模仿了AI文本生成領域常用的"分類器自由引導"（CFG）方法。這樣做的好處是，到了生成音樂的推斷階段，可以把這個分數當作一個額外的"旋鈕"來調節，讓AI更努力地往高分方向生成。

四、五種注入方式的大比拼：哪種最有效

把TuneJury的分數"注入"主模型這件事，具體怎麼注入是有講究的。研究團隊設計並比較了五種不同的注入方式，就像比較把調料加入菜餚的五種不同時機和方式。

第一種叫GlobalAdaLN（v1），它把分數資訊轉化為調節參數，影響模型里每個變換器模組的歸一化層，就像在整道菜的每個烹飪環節都加入同樣的基礎調味料。第二種叫InputAdd（v2），它把分數對應的嵌入向量直接加到每段音頻表示的輸入端，就像在所有食材進鍋之前就統一撒上調料。第三種AudioPrepend（v3）把分數嵌入作為一段額外的音頻"前綴"追加到輸入序列中。第四種PerBlock AdaLN（v4）對每個模組單獨設定不同的分數調節方式，而不是全局統一。第五種TextPrepend（v5）則把分數資訊轉化為文字前綴加到文本描述里。

贊助商廣告

在100段MTG-Jamendo音頻的驗證集上對比下來，InputAdd（v2）在FAD-CLAP（0.337，最低最好）、CLAP分數（0.249，最高最好）以及"輸入分數和輸出質量的相關性"（0.524）這三項指標上都是第一。但研究團隊在實際部署時發現，v1（GlobalAdaLN）在大規模訓練時收斂更穩定，不容易出意外。於是他們想了一個巧妙的折中方案：前兩個訓練階段用v1，第三階段再切換到v2——而且這個切換是安全的，因為v1和v2其實共享完全相同的參數結構，只是參數發揮作用的方式（即"前向傳播"方式）不同，所以v1訓練好的參數可以直接"搬進"v2的框架里繼續用。

五、專家疊代：讓AI自我篩選，只學最好的那批

第三件事是整條流水線中效果最顯著的一步，叫做"專家疊代"（Expert Iteration）。

基本邏輯是這樣的：先讓完成第一階段訓練的模型自己生成一批音樂，然後用TuneJury評分再結合CLAP文本匹配度一起排名，只保留排名最靠前的那10%的樣本，再把這些"優質樣本"塞回去繼續訓練模型。這就像一個音樂學生在正式課程學完之後，被要求自己即興演奏100首曲子，然後老師只挑出其中最出色的10首，讓學生反覆聆聽、學習這10首，從而內化"優秀的感覺"。

具體操作上，研究團隊從第一階段訓練好的模型出發，在質量評分設為2.0的高分條件下採樣了約630段音頻，用TuneJury獎勵和CLAP文本相似度的等權重組合排序後，保留了排名靠前的64段（平均獎勵分達到+1.05，相當於整個訓練數據集質量分布的前20%上段）。這64段優質音頻隨後以5倍的比例過採樣，混入原來約53.5萬段的訓練集中，以較低的學習率繼續訓練3萬步，再以更低的學習率專門針對這64段精煉訓練5000步。

這一步帶來的效果非常明顯：FAD-CLAP從0.4681降低到了0.4319，下降了0.0362；CLAP分數從0.262提升到0.290；TuneJury獎勵從+0.028飆升到+0.524。用一句話概括，就是這步讓AI真正學會了什麼叫"好聽的音樂"，而不只是"符合描述的音樂"。

贊助商廣告

六、CRPO：再做一次偏好微調，結果有點尷尬

第四件事是一個叫做CRPO（CLAP排名偏好優化）的偏好微調步驟，靈感來自大語言模型領域裡著名的DPO（直接偏好優化）方法。

DPO的基本思路是：給模型看兩個輸出——一個"贏家"和一個"輸家"，然後訓練模型讓它傾向於生成贏家風格的內容，同時遠離輸家風格。CRPO把這套思路搬到音樂生成上，通過CLAP文本匹配度來自動構建"贏家/輸家"對：在同一段文字描述下，CLAP分數高的音頻當贏家，CLAP分數低的當輸家，總共構建了約2000對這樣的偏好對，然後用DPO風格的損失函數進行5000步微調。

這一步的數學細節用簡單話說就是：模型要學會生成贏家的可能性，要高於它從參考版本（專家疊代後的檢查點）生成贏家可能性的提升，同時也要讓生成輸家的可能性相應降低；此外還保留了一個輔助損失項，防止模型跑偏太遠。

然而結果有些令人無奈：這一步帶來的改變，FAD-CLAP只降了0.003，CLAP分數隻升了0.002，TuneJury獎勵幾乎沒變。這些變化幅度都在統計意義上的"噪聲範圍"內，也就是說無法確定這些變化是真實改進還是隨機波動。研究團隊很誠實地記錄了這個發現，並指出CRPO在這個規模下並沒有帶來顯著收益，但因為計算成本可以忽略不計，仍然保留了這一步。

七、推斷階段：三重加持讓最終音頻更乾淨

第五件事發生在用訓練好的模型正式生成音樂的階段，包含三個相互配合的處理步驟。

第一個是"聯合分類器自由引導"（Joint CFG）。原來的CFG方法只在文字條件上做引導，也就是讓AI更努力地"按照文字描述生成音樂"。研究團隊的做法是同時在文字和質量分數兩個維度上做引導，文字指向"生成符合描述的音樂"，質量分數指向"生成高分音樂"，兩個方向合力推動AI遠離"什麼都不管，隨便生成"的狀態。最終選用的參數是文本和獎勵的聯合引導強度w=4.0，質量分數標量s=5.0——值得注意的是，s=5.0實際上超過了訓練數據中質量分數的最大值（+2.76），相當於在要求AI生成比訓練時見過的最好樣本還要好的音樂，這是一種有意的"外推"，而為什麼流匹配框架能承受這種外推而不崩潰，研究團隊將其列為待解答的理論問題。

贊助商廣告

第二個處理步驟是用Demucs音源分離模型進行三輪"人聲清除"。Demucs是一個專門用於從混合音頻中分離出不同聲部（人聲、鼓、貝斯、其他樂器）的工具。研究團隊發現，即使訓練時已經給AI加了"高質量純音樂"的提示詞前綴，生成的音頻里偶爾還是會混入一些類似人聲的殘影，這種殘影會讓評估指標變差（因為評判用的參考集都是純器樂音樂）。於是他們連續用三次Demucs的mdx_extra模型處理每段生成音頻，把這些殘影清除掉，只保留無人聲的部分。

第三個步驟是響度標準化：把每段音頻的響度統一調整到-16.5 LUFS（一種國際通用的響度測量標準）。這個具體數值是在驗證集上調參選出的，在-15到-18 LUFS的範圍內，效果差異不大，但統一標準化本身對FAD-CLAP有穩定的改善效果。

研究團隊最終提交了兩個版本：Sub.1（隨機種子42）和Sub.2（隨機種子55），兩者共享所有模型參數，只在生成時使用了不同的隨機初始狀態，這樣可以在一定程度上探索結果的穩定性。

八、數字背後的故事：每一步到底值多少

把所有步驟累積起來看，整條流水線在100段Song Describer提示詞上的表現可以用一條逐步改善的曲線來理解。

出發點是比賽提供的原始FluxAudio-S基礎模型：FAD-CLAP為0.5998，CLAP分數0.230，TuneJury獎勵-0.392（負數意味著生成的音樂質量在評委看來還不如平均水平）。

加入質量分數條件的有監督微調（第一階段訓練）後：FAD-CLAP降至0.4681，CLAP分數升至0.262，獎勵提升至+0.028。光是這一步就帶來了實質性的改善，說明讓AI知道"要往什麼質量方向生成"本身就有很大的價值。

加入專家疊代（第二階段）後：FAD-CLAP進一步降至0.4319，CLAP分數升至0.290，獎勵大幅提升至+0.524。這是整條鏈路上效果最大的單步改進，也是唯一一步在統計上顯著優於前一步的改進。

將模型從v1框架切換到v2框架（通過參數搬運）：FAD-CLAP微降至0.4272，CLAP分數小幅回落至0.283，獎勵基本持平於+0.535。這步切換本身幾乎沒有額外提升，只是為下一步CRPO的順利運行做了架構準備。

贊助商廣告

最後加入CRPO偏好微調（第三階段，即最終提交版本Sub.1）：FAD-CLAP為0.4238，CLAP分數0.285，獎勵+0.533。變化幅度極小，在統計上沒有意義，和前一步基本持平。Sub.2（種子55）則達到了CLAP分數的最高值0.300，獎勵也升到+0.550，但FAD-CLAP略高於Sub.1（0.4370），展示了隨機種子帶來的自然波動範圍。

對比比賽官方公布的隱藏評測結果（提交代碼e02），研究團隊的最終成績是FAD 0.498、CLAP 0.270、CCS（概念覆蓋分數）0.763，在效率賽道的約束下（1.2億參數、約40 GPU小時的總計算量）完成了這個成績。

九、一個有趣的反直覺發現：訓練結束後那個"旋鈕"失靈了

研究團隊在實驗過程中發現了一個頗為出人意料的現象，值得單獨拿出來說。

在只完成了第一階段訓練的模型（SFT-only）上，質量分數s確實像一個靈敏的旋鈕：從s=0到s=2的範圍內，TuneJury獎勵從+0.16穩步升至+0.47，相關性幾乎完美（斯皮爾曼相關係數ρ=1.0）。這說明質量分數條件化訓練確實成功了——AI學會了"你要求高分，我就往高分方向努力"。

然而到了專家疊代和CRPO都完成之後的最終提交版本上，再去撥動這個旋鈕，卻發現它幾乎紋絲不動：把s從0調到6，TuneJury獎勵的變化幅度不超過0.05，FAD-CLAP的變化不超過0.02，兩者的相關係數接近於零。這個旋鈕失靈了。

這個現象背後的邏輯其實很直觀：專家疊代讓AI直接"消化"了高質量的樣本，把"好聽"的能力從一個外部旋鈕控制的參數變成了模型內部的默認狀態。就好像一個廚師一開始需要對照食譜一步步執行，但練習了足夠多次之後，那些技巧已經融入了他的肌肉記憶，不需要再看食譜了。推斷時把s設為5.0，完全是因為驗證集調參時選了這個值，而不是因為它真的在起作用——它只是一個"形式上存在的旋鈕"。

十、v1到v2可以，v2到v1會崩潰：一個不對稱的發現

另一個值得關注的發現是關於兩種注入方式之間的"參數搬運"問題，研究團隊用一個8格的控制實驗完整記錄了這個不對稱性。

贊助商廣告

用v1框架（GlobalAdaLN）訓練好的參數，搬進v2框架（InputAdd）里繼續用：效果和在v1框架里原生使用差不多，FAD-CLAP和獎勵的差距只有0.01到0.02的量級，完全可以接受。

但如果反過來，用v2框架訓練好的參數，搬進v1框架（GlobalAdaLN）里用：FAD-CLAP會從正常的約0.44暴漲到約0.69，TuneJury獎勵從正值跌成約-0.50，相當於模型完全崩潰，生成的音樂質量倒退到比基礎模型還差的程度。

為什麼會這樣？研究團隊給出了一個直觀的解釋：InputAdd（v2）只是在音頻token的最開始加一個偏移量，就算裡面裝著"陌生的"參數，最多只是這個偏移量有點奇怪，不會影響模型其他部分的正常運轉；但GlobalAdaLN（v1）會讓質量分數的嵌入去調節每一層每一個歸一化參數，一旦這個嵌入向量里裝著不匹配的參數（因為它原本是為v2框架的使用模式訓練的），就會在每一層都注入混亂的信號，導致整個模型無法正常工作。這就是為什麼研究團隊選擇"v1訓練→v2部署"的單向路線，而不是反過來。

說到底，這支團隊做的事情，是在有限資源（一塊RTX A5000顯卡、約40小時的計算時間、1.2億參數的模型規模）下，把"讓AI學會什麼是好音樂"這件事做得儘可能紮實。他們發現了一條清晰的優先級排序：一個專注於篩選優質自生成樣本的"專家疊代"步驟，是整個改進鏈路中最值錢的一步，貢獻了超過三分之一的FAD-CLAP降幅；而被很多人寄予厚望的偏好微調（CRPO），在這個規模下幾乎沒有帶來可量化的收益。這個發現對於資源有限的研究者來說有很大的參考價值：與其花精力在複雜的偏好優化上，不如先把"讓模型見識更多高質量樣本"這件基礎事做好。

當然，這項研究還留下了一些開放的問題值得繼續探索。為什麼質量分數可以被推斷到訓練範圍之外仍然有效？這種外推在什麼條件下會失效？這套方法換到不同結構的音樂生成模型上還適用嗎？CRPO的無效是規模問題還是方法問題？這些都是研究團隊明確標註為"留待未來工作"的方向。有興趣深入了解的讀者，可以通過 arXiv:2606.21670 查閱完整論文，代碼和演示也在論文列出的開源倉庫中可以找到。

贊助商廣告

Q&A

Q1：TuneJury是怎麼判斷一首AI音樂好不好的？

A：TuneJury的工作方式是"兩兩比較"，給它聽兩首曲子，它判斷哪首更好，而不是給單首曲子評分。它結合了兩套音樂理解系統：一個擅長理解音樂和文字描述的語義關聯，另一個擅長分析音高、和聲、節奏、音色等聲學細節。訓練數據來自四個公開的人類音樂偏好數據集，約2.2萬對真實人類投票，最終在驗證集上判斷準確率達到70.3%。

Q2：專家疊代在文生音樂訓練中具體是怎麼操作的？

A：專家疊代的流程是先讓訓練好的模型在高質量條件下自己生成約630段音頻，然後用TuneJury獎勵和CLAP文本相似度的組合評分排序，只保留最好的10%（約64段）。這64段優質音頻以5倍比例混入原始訓練集，再用較低學習率繼續訓練3萬步，最後專門針對這64段再精煉5000步，整個過程讓模型從自己的"最佳發揮"中持續學習。

Q3：CRPO偏好微調為什麼在這項研究中沒有明顯效果？

A：CRPO通過構建"好音頻vs差音頻"的配對，用類似DPO的方式讓模型傾向於生成更好的內容。但在這項研究中，經過專家疊代後的模型本身已經大幅提升，CRPO的5000步微調帶來的FAD-CLAP變化只有0.003，CLAP變化只有0.002，都在統計噪聲範圍內，無法確認是真實改進。研究團隊認為，CRPO的價值可能需要更大的訓練規模或更精細的配對策略才能體現出來。