這項由浙江大學、浙江工業大學與HiThink(海辰)聯合完成的研究,以預印本形式於2026年5月7日發布在arXiv平台,論文編號為arXiv:2605.06507。有興趣深入了解的讀者可通過該編號檢索完整論文。
**一切從一個令人頭疼的問題說起**
假設你是一位餐廳老闆,需要同時滿足三位挑剔的評委:第一位只在乎菜品顏值,第二位只在乎口感,第三位只在乎是否符合食材描述。以往的做法是分別訓練三位不同的廚師,每人專攻一位評委的口味——這樣確實能讓每位評委都滿意,但你因此需要雇三個人,成本高昂,而且顧客點餐時永遠只能選擇一位廚師的風格,得不到一道既好看、又好吃、又名副其實的菜。
這正是人工智慧圖像生成領域面臨的現實困境。近年來,用"強化學習微調"來讓AI圖像生成模型(比如Stable Diffusion這類擴散模型)更好地迎合人類喜好,已經成為業內的主流做法。然而,評判一張圖好不好,從來都不是只看一件事。一張真正高質量的圖,需要同時在審美、文字準確度、內容符合程度等多個維度上都表現出色。可現有的方法要麼針對每個維度單獨訓練一個模型,無法合併成一個通用模型;要麼把所有評判標準像做調料一樣按比例混合在一起,結果往往是顧此失彼;要麼像流水線一樣,先專門學第一個標準,再學第二個,再學第三個……整個過程需要大量手工調參,而且學了新的就容易忘掉舊的。
研究團隊將這個問題稱為"專家樣本困境",並為此提出了一套名為MARBLE(Multi-Aspect Reward BaLancE,多維度獎勵均衡)的全新方法。這是目前已知的、第一個專門針對擴散模型強化學習中多獎勵平衡問題的方法。
---
**一、當你把所有評判標準混在一起,究竟發生了什麼**
回到餐廳的比喻。假設你決定不雇三位廚師,而是讓一位廚師同時考慮三位評委的標準,方法是把他們的評分按比例加權求和,得到一個"綜合分數"。聽起來很合理,對吧?
但問題在於,每道菜(每張生成的圖)對不同評委的意義是不同的。一道精心擺盤的沙拉,對"顏值評委"來說是一條寶貴的線索,但對"口感評委"來說幾乎毫無參考價值——因為沙拉的口感本來就平平無奇。反過來,一道火候極佳的紅燒肉,口感無可挑剔,但擺盤樸素,對顏值評委的參考價值也很有限。
當你把這兩道菜的"綜合分數"都壓縮成一個數字,原本對"顏值評委"極有價值的擺盤資訊,就被紅燒肉平庸的顏值拖累了;而紅燒肉對"口感評委"寶貴的火候資訊,也被沙拉的普通口感稀釋了。廚師學習時,拿到的是模糊的、被污染的信號,最終哪一方面都學不精。
研究團隊用真實實驗數據印證了這一點。他們在SD3.5 Medium(Stable Diffusion 3.5 Medium,一款主流擴散模型)上進行測試,發現當使用加權求和的獎勵方式訓練時,在80%的訓練批次中,模型更新的方向與至少一個單獨獎勵維度的梯度方向是"反向對齊"的——用更直白的話說,這個更新步驟在幫助某些維度提升的同時,正在主動拖後腿、傷害另一些維度。這就好比你告訴廚師"綜合提升一下",結果他改進了擺盤,卻不知不覺把火候調差了。
研究團隊把這種現象叫做"梯度方向反向對齊",本質上是因為不同獎勵維度對同一張圖的判斷角度完全不同,把它們強行合併成一個數字,會掩蓋每張圖真正有價值的那部分信號。
另一種常見方法是"分階段串行訓練"。以DiffusionNFT這個方法為例,其手工設計的訓練課表包括:先用獎勵1訓練800步,再用獎勵2訓練300步,再切回獎勵1訓練200步,再切回獎勵2訓練200步,最後用獎勵3訓練100步……整個過程完全依賴人工經驗拍板,而且每增加一個新的獎勵維度,課表就要重新設計。更糟的是,學了新內容之後,模型往往會逐漸"忘掉"之前學的東西,不得不反覆回頭複習,課表越來越複雜。
這兩種主流方法都存在根本性缺陷。MARBLE的目標,正是在不手動調權重、不精心設計訓練課表的前提下,讓一個模型同時在所有評判維度上都進步。
---
**二、MARBLE的核心思路:不在最終分數上妥協,而在行動方向上協商**
MARBLE的關鍵洞察可以用一個委員會開會的場景來理解。
假設公司有五個部門負責人(對應五個獎勵維度),每次開會時每位負責人都有自己想要推動的工作方向。以往的做法是會前把五個人的意見按權重混合,得出一份"綜合意見書",然後按這份綜合意見書行動——但這樣做的問題是,某些部門的真實訴求被稀釋了,甚至被完全壓制。
MARBLE的做法是:開會時,讓五位負責人各自提出完整的、獨立的行動方案,然後專門找一個"協調員"來解決衝突——協調員的目標是找到一個所有人都能接受、沒有人會覺得"這個方向在幫倒忙"的折中行動方案。這個折中方案不一定是任何一位負責人理想中的最優,但它保證了每位負責人的核心訴求都不會被忽視。
技術上,MARBLE分成三個步驟來實現這個思路。
第一步是"獨立記賬"。針對每一個獎勵維度,MARBLE單獨維護一套"優勢估計器"——也就是說,對於同一張生成的圖,MARBLE會分別問五個問題:這張圖在顏值上比同類平均水平高多少?在文字準確度上呢?在內容符合程度上呢?每個問題都有獨立的評分,而不是混合成一個數字。這樣,一張精心擺盤但內容一般的圖,在顏值維度上得到的是真實的高分信號,而不是被其他維度拉低後的模糊信號。
第二步是"獨立求導"。基於每個維度獨立的評分,MARBLE對每個獎勵維度單獨計算"這個方向上應該往哪裡走"——用數學語言說,就是分別計算每個獎勵維度的策略梯度。這一步生成了五個獨立的"行進方向建議",每個建議都完全保留了該維度的真實資訊,沒有被其他維度污染。
第三步是"協調求解"。有了五個獨立的方向建議之後,MARBLE通過求解一個數學優化問題(二次規劃,Quadratic Programming)來找到最佳的折中方向。這個優化問題的目標是:找一組權重,使得五個方向加權之後的合力向量儘可能短(也就是儘可能接近"零衝突"),同時確保每個維度的權重都是非負數且加起來等於1。這個數學問題的解,就是那個"所有部門都不會覺得在幫倒忙"的協調方向。
在具體操作中,為了避免不同獎勵模型產生的梯度在數值大小上差異懸殊(有的可能天然大一百倍,有的天然小),MARBLE在求解協調方向之前,會先把每個方向向量都縮放到單位長度——這相當於給五位負責人的發言權做了歸一化,不讓嗓門大的人壓過嗓門小的人。完成協調之後,再把合力方向恢復到合理的更新步長,避免步子邁得太大或太小。此外,KL正則化(一種防止模型訓練時偏離原始模型太遠的機制)被單獨處理,不參與五個獎勵維度的協調過程,因為它扮演的是"安全邊界"的角色,與"哪個維度該進步多少"是兩件不同的事情。
實驗數據顯示,相比加權求和,MARBLE的更新方向與最差對齊的那個獎勵維度之間的餘弦相似度,從平均-0.1346(負值意味著方向相反)躍升到了+0.3721(正值意味著方向一致)。衝突率從80%降到了0%,同時五個方向之間的對齊差異也從0.1605大幅縮小到0.0058,意味著更新對五個維度的照顧更加均衡。
---
**三、但是五個方向各算一次,計算量不是翻了好幾倍嗎**
這是一個非常現實的問題。如果每訓練一步都要跑五次完整的反向傳播(神經網路的學習過程),再加上一次KL正則項的計算,那總計算量就是單獎勵訓練的六倍,代價太高了。
研究團隊發現了一個巧妙的數學性質,讓這個問題得以解決。
他們所用的基礎訓練框架DiffusionNFT,有一個特殊的數學結構:它的損失函數對參數的梯度,與"獎勵信號如何換算成訓練信號"的那個換算步驟,恰好是線性關係——準確說是仿射關係(線性加上一個常數偏置)。用通俗的話說,就是如果你把五個維度的訓練信號按某個比例混合成一個數字,然後跑一次反向傳播,得到的梯度,與分別算五次再按同樣比例混合,在數學上是完全等價的。
這個等價性有一個前提:混合比例(也就是協調權重)要滿足一個簡單的約束,即五個權重加起來等於1,而且獎勵信號不能超過某個上限(實驗中設為5,實踐中從未觸發)。只要這兩個條件滿足,就可以直接計算"混合後的獎勵信號",然後只跑一次反向傳播,效果與分開算五次完全一致。
基於這個性質,MARBLE提出了"攤銷梯度協調"方案:每隔N步,才跑一次完整的五路獨立反向傳播來刷新協調權重;在接下來的N-1步里,直接把當前緩存的權重拿來混合獎勵信號,只跑一次反向傳播。這樣一來,平均每步的計算量從"K+1次反向傳播"(K為獎勵維度數),降到了接近"1次反向傳播"的水平,具體是(K+N)/N倍。當K=5、N=10時,平均每步只需要1.5次,而不是6次。
實驗測量顯示,這種攤銷方案使得MARBLE的實際訓練速度達到了加權求和基線的0.97倍——也就是說,和最簡單的基線跑得幾乎一樣快。顯存占用從59G增加到67G,約增加了14%,代價非常小。作為對比,不使用攤銷的完整版MARBLE,速度只有基線的0.56倍,代價明顯偏高。
---
**四、還有一個小問題:權重估計可能不穩定**
攤銷方案雖然解決了速度問題,但引入了另一個潛在隱患:協調權重是從一批訓練數據中估算出來的,而一批數據樣本量有限,估算出來的權重可能因為這批數據碰巧偏向某個方向而出現較大波動。
舉一個具體場景:假設某一批訓練圖碰巧全都是純風景照,沒有任何文字內容,那麼負責"文字準確度"的獎勵維度在這批數據上產生的梯度就會非常微弱,協調求解器可能因此給這個維度分配一個接近零的權重。如果這個零權重被緩存並在接下來的9步中反覆使用,等於在這9步里完全不管文字準確度,這會明顯拖慢這個維度的訓練進度。
MARBLE對此的解決方案是對協調權重做指數滑動平均(EMA)平滑處理。具體做法是:每次刷新權重時,新的權重不直接覆蓋舊的,而是按照"舊權重×0.7 + 新權重×0.3"的方式混合(0.7就是EMA衰減係數ρ)。由於舊權重和新權重都滿足"加起來等於1"的約束,它們的凸組合也自然滿足這個約束。
這樣做的好處是:一次碰巧偏差的批次不會把某個維度的權重直接壓到零;歷史上多個批次的資訊被平滑保留下來,權重曲線更加穩定。實驗發現,ρ=0.7是性能最好的設置,比ρ=0.1或ρ=0.9都明顯更好,原因是0.1太容易受單批次噪聲影響,0.9又太惰性以至於無法及時適應訓練過程中難度分布的變化。
---
**五、在真實實驗中,MARBLE究竟表現如何**
研究團隊在Stable Diffusion 3.5 Medium上做了完整實驗,同時優化五個獎勵維度:PickScore(人類偏好評分)、HPSv2(人類偏好評分第二版)、CLIPScore(文本與圖像的語義匹配程度)、OCR準確度(圖中文字的可讀性),以及GenEval(物體屬性和空間關係的準確性)。前三個是通用型獎勵,後兩個是專業型獎勵,要求模型在非常具體的細節上表現精準。
為了評估模型是否真的全面提升而不是專門針對這五個指標過擬合,研究團隊還額外測量了三個從未在訓練中出現過的指標:Aesthetic Score(審美評分)、ImageReward和UniReward,這三者全部沒有參與訓練,完全用於測試泛化能力。
與幾個主要對比方案相比,結果非常清晰。加權求和同時訓練版本(DiffusionNFT?)在OCR和GenEval這兩個專業型獎勵上表現明顯拖後腿,綜合評分遠低於MARBLE。分階段串行訓練版本(DiffusionNFT+)在PickScore和CLIPScore上略高於MARBLE,但在HPSv2.1、審美評分、ImageReward和UniReward上都不如MARBLE,且這套方案需要手工設計複雜的訓練課表(先訓800步再訓300步再切回200步……),而且隨著獎勵數量增加,課表的設計工作量會線性增長,根本不具備可擴展性。
MARBLE在將五個訓練維度同時提升的同時,在四個測試維度上也取得了最高分,綜合評分(Composite,即所有指標的z分數均值)為+1.116,明顯高於分階段方案的+1.015,更高於加權求和方案的+0.184。
消融實驗(逐一去掉某個組件,觀察性能變化)進一步驗證了每個設計選擇的必要性。去掉梯度歸一化之後,訓練直接失敗,說明這一步對防止數值不穩定至關重要。換成固定均勻權重(每個維度0.2),在GenEval等難度高的維度上收斂更慢、最終分數也更低,說明自適應權重能有效向困難任務傾斜資源。去掉攤銷、每步都刷新權重,速度明顯下降,而且由於單批次估計的權重波動過大,訓練穩定性變差,部分質量指標下滑。
在用戶研究中,研究團隊邀請20位與項目無關的匿名參與者,對匿名打亂的生成圖像分別在"文圖對齊度"和"圖像質量"兩個維度打1-5分。MARBLE在兩個維度上均獲得最高均分(文圖對齊4.63分、圖像質量4.41分),而分階段方案分別是4.26和3.58,加權求和方案分別是3.60和2.79。
一個有意思的發現是:雖然分階段方案在PickScore和CLIPScore這兩個自動評估指標上略高於MARBLE,但在人工評分和其他自動指標上均不如MARBLE。這說明不同的自動指標衡量的是圖像質量的不同側面,沒有任何單一指標能完整代表人類對圖像的綜合判斷。Pearson相關分析也印證了這一點:在所有測試指標中,HPSv2.1與人工評分的相關性最高(與圖像質量的相關係數達+0.66),而CLIPScore與人工圖像質量評分的相關性幾乎為零(+0.00)。
---
**六、協調權重會告訴我們什麼**
研究團隊還觀察了訓練過程中協調權重(經過EMA平滑後的α值)的變化曲線,發現了一個有趣的規律:權重的變化並不直接反映對應獎勵指標分數的高低,而是更接近於反映該維度當前的"優化難度"。
HPSv2是五個維度中最"容易"的一個,因為SD3.5本身在這個維度上的表現已經比較好,繼續提升的空間和難度都相對較小,因此在大多數訓練時間裡,HPSv2對應的協調權重低於均勻分配的基準值(0.2)。而GenEval是最"難"的一個,要求模型能準確處理物體數量、顏色屬性、空間位置關係等高度結構化的內容,因此它的協調權重在訓練中會經常升到0.3左右,反映出協調機制在主動向困難任務傾斜資源。
此外,實驗還發現,在訓練後期切換為固定均勻權重(每個維度0.2)進行短暫收尾,能進一步提升綜合性能。研究團隊的解釋是:動態權重階段幫助模型把能力擴展到困難維度,而最後的均勻權重階段則讓五個維度的成果得到統一鞏固,達到最佳綜合平衡。
---
**七、MARBLE在分布式多卡訓練中如何工作**
在實際工程實現中,研究團隊面臨一個額外挑戰:現代大模型訓練通常要跨多張GPU同時運行(本文實驗用了16張H200 GPU)。在分布式數據並行(DDP)訓練中,每張卡處理不同的數據,各卡的梯度通常在反向傳播結束時自動同步取平均。
但MARBLE需要在各卡之間同步之前就提取每個獎勵維度的獨立梯度,才能做協調計算。如果按照DDP默認流程,每次反向傳播後梯度就被混合了,獨立梯度就無法提取。
研究團隊的解決方案是:在每個獎勵維度的反向傳播時,先用"no_sync()"把DDP的自動同步關閉,手動提取該維度的梯度後再清零,依次對五個維度分別做這個操作;然後統一對五套梯度向量做AllReduce同步(這是GPU集群中"取平均"的標準操作),使得所有卡上的五套梯度一致;之後在每張卡上獨立求解協調權重(由於輸入一致,結果也會一致);最後把協調後的梯度方向寫回模型參數的梯度欄位,正常執行優化器步驟。這套流程保證了分布式訓練與單卡訓練在梯度層面的等價性。
---
說到底,MARBLE解決的是一個非常樸素的問題:評判一張圖好不好,本來就不應該只看一件事,而現有的訓練方法卻強迫模型只能從一個模糊的混合信號中學習。MARBLE的做法是把"應該往哪個方向改進"這件事,從混合在一起的分數層面,提升到了各自獨立的改進方向層面,然後在方向層面上找共識——這個思路簡單卻有效,而且通過攤銷和平滑機制,把額外的計算代價壓縮到了幾乎可以忽略不計的程度。
對於普通用戶來說,這項研究意味著未來的AI圖像生成工具將更有可能同時做到"畫面好看"、"文字準確"、"內容符合描述"——而不是某一方面突出但其他方面一塌糊塗。對於研究者和工程師來說,MARBLE提供了一個可以直接在現有訓練框架上擴展的工具,不需要手工調權重,不需要精心設計訓練課程,幾乎無額外計算代價。
當然,這項研究也坦承了自己的局限:目前只在圖像生成領域做了驗證,獎勵維度也只有五個。更大的獎勵集合(比如十幾個甚至幾十個維度)以及影片生成、世界模型等更複雜的生成任務,是研究團隊接下來希望探索的方向。
有興趣進一步了解的讀者,可以通過arXiv編號2605.06507找到原論文,該論文同時提供了代碼倉庫,可以直接在DiffusionNFT代碼庫基礎上復現實驗。
---
Q&A
Q1:MARBLE是什麼,和普通的多獎勵訓練方法有什麼不同?
A:MARBLE是一種專門用於擴散模型強化學習微調的多獎勵均衡方法。與普通方法直接把多個獎勵分數加權求和不同,MARBLE對每個獎勵維度獨立計算訓練方向,再通過求解一個優化問題找到所有維度都能接受的折中更新方向,從而避免某個維度的信號被其他維度稀釋或抵消。
Q2:MARBLE訓練速度會不會比普通方法慢很多?
A:通過攤銷梯度協調方案,MARBLE的實際訓練速度達到了加權求和基線方法的0.97倍,幾乎沒有速度損失。顯存占用從59G增加到67G,增加約14%。不使用攤銷的完整版才會降至0.56倍,因此攤銷方案是MARBLE在實際應用中的默認選擇。
Q3:MARBLE的協調權重是怎麼決定的,會不會偏向某個獎勵維度?
A:協調權重通過每隔N步運行一次完整的多路梯度計算來刷新,採用二次規劃求解使五個方向的合力衝突最小。此外引入了指數滑動平均平滑機制(默認衰減係數ρ=0.7),防止某一批次數據的偶然偏差導致某個維度權重瞬間歸零。權重會自然向優化難度較高的任務傾斜,而非簡單均勻分配。






