當AI畫家遇上「懶惰」問題：ETH蘇黎世聯合谷歌提出的新方法，讓圖片生成模型對齊人類喜好的效率飆升3倍

這項由瑞士聯邦理工學院（ETH Zurich）、谷歌和哥本哈根大學聯合完成的研究，以預印本形式發布於2026年5月19日，論文編號為arXiv:2605.19804。感興趣的讀者可以通過該編號在arXiv平台上查閱完整原文。

贊助商廣告

**一、當AI畫家不知道自己畫得好不好**

現代AI圖片生成模型（比如能根據文字描述生成圖片的那種）已經相當厲害了，但它們有一個根本性的麻煩：訓練的時候，這些模型學的是"怎麼生成看起來像真實圖片的東西"，而不是"怎麼生成人類覺得好看、符合要求的東西"。這就像一個廚師學會了做菜的基本技法，卻不知道食客的口味偏好。

要讓AI學會迎合人類的口味，就需要一個"評分系統"——專業上叫獎勵模型（Reward Model），可以理解為一位經驗豐富的品鑑師，能對生成的圖片評分，判斷它是否好看、是否符合文字描述。有了這位品鑑師，就能反過來改造AI畫家，讓它越畫越符合人類的期待，這個過程叫"對齊"（Alignment）。

然而，這裡有一個惱人的時間差問題。AI畫圖的過程並不是一步到位的，而是像在噪音中一點點把圖像從模糊變清晰，就像在濃霧中逐漸看清一幅畫。這個去霧的過程分成很多步驟，每一步AI都需要判斷"當前的方向走對了嗎、最終出來的圖會好看嗎"。但問題是，品鑑師（獎勵模型）只能評價完全清晰的最終圖片，對中間那些半成品的"噪聲潛變量"（可以理解為畫布上的朦朧輪廓）完全無從下手。

這就好比讓一位品酒師在釀造過程的每一個發酵階段都要出具意見，但他只會品嘗成品，對半發酵的果汁毫無辦法。現有的解決方案要麼是把模糊的中間品強行想像成成品再評分（專業上叫Tweedie近似），就像用PS濾鏡把模糊照片一鍵變清晰再讓人評價，這種方法又快又粗糙，在噪聲很大的早期階段偏差極大；要麼是在每個階段都把這幅半成品畫完好幾遍取平均（蒙特卡洛近似），這樣準確但貴得離譜，就像每次品酒都要把整個釀造流程重來好幾次。

贊助商廣告

研究團隊於是提出了一個全新思路：能不能直接培養一位"能品嘗半成品的品鑑師"？也就是訓練一個專門針對噪聲中間狀態的價值模型（Value Model）。聽起來合理，但實際操作中，之前的嘗試要麼需要海量數據從頭訓練，成本極高；要麼能力有限，只能在非常窄的領域發揮作用，泛化性遠不如頂級的圖片品鑑師。

這項研究提出的StitchVM（縫合價值模型），給出了一個優雅的答案：不從頭培養，而是把一位頂級圖片品鑑師和一位精通"看懂噪聲畫布"的專家拼接在一起，強強聯合。

**二、"拼接"的藝術：把兩位專家合二為一**

要理解StitchVM的核心思想，可以用一個醫學影像的比喻來貫穿全文。

假設你有一位頂級放射科醫生（獎勵模型），他看過無數清晰的X光片，能一眼判斷出片子上有沒有病變，經驗極其豐富。還有一位專業技師（擴散模型主幹），他負責操作CT機器，非常擅長從各種嘈雜的原始掃描信號中提取有用資訊，即便信號很弱很雜亂，他也能從中解讀出有意義的特徵。

現在的問題是：在CT掃描還沒完成、圖像還很模糊嘈雜的時候，能不能讓放射科醫生提前做出判斷？直接讓醫生看嘈雜信號他看不懂；重新等掃描完成又太慢。StitchVM的做法是：讓技師先處理嘈雜信號，提取出他認為有意義的中間特徵，然後在某個恰當的節點把這些特徵"交接"給放射科醫生，讓醫生從這裡繼續往後分析，最終給出診斷。

中間那個"交接節點"就是整個方法的精髓，研究團隊把它叫做"縫合層"（Stitching Layer）。技師（擴散模型）處理前半段嘈雜的潛變量，在某一層輸出中間特徵；放射科醫生（獎勵模型）從某一層開始接手，繼續處理直到給出最終分數。兩者之間用一個輕量級的適配層（縫合層）來填補兩種特徵表達之間的細微差異。

當然，找到那個最合適的"交接節點"是關鍵。研究團隊的方法非常聰明：他們取來一批乾淨的圖片，同時讓技師處理對應的嘈雜版本，分別記錄下兩人在不同層的中間特徵，然後用一個簡單的線性變換來衡量"哪個層次上，技師的特徵和醫生的特徵最接近"。這個線性變換甚至有閉合解（即可以直接用數學公式求出最優答案，不需要反覆疊代），計算極為高效。這一步驟就是"縫合接口搜索"（Stage 1）。

贊助商廣告

找到最佳節點後，需要做一步微調（Stage 2）。由於兩位專家畢竟來自不同背景，特徵之間還有輕微的表達差異，研究團隊用少量無標註的乾淨圖片來進一步訓練這個拼接模型，目標是讓它在嘈雜輸入下，輸出的分數儘可能接近品鑑師看到清晰圖片時給出的分數。這步微調不需要任何人工標註數據，也不需要訓練整個大模型，只需要微調縫合層和被截斷的獎勵模型後半段。

訓練目標的數學形式很自然：對於每一張清晰圖片，往裡面加上不同程度的噪聲，讓拼接後的模型預測分數，而目標值就是原始獎勵模型對這張清晰圖片的評分。不斷讓兩者的差距縮小，就是整個訓練過程。可以證明，這種訓練方式在理論上的最優解，恰好就是我們真正想要的"價值函數"——即在給定某一噪聲狀態下，預期最終圖片會得多少分的期望值。

整個流程的成本驚人地低。以把CLIP ViT-L/14（一個廣泛使用的圖片-文字匹配評分模型）拼接到SD 3.5 Medium（一個流行的擴散生成模型）為例，整個過程在一塊高端GPU上只需要約10小時。相比之下，從頭訓練一個同等能力的噪聲價值模型需要的算力要高出數個數量級。

**三、兩段歷程：從找接點到微調打磨**

進一步展開這兩個階段的細節，有助於理解這個方法為什麼既可靠又高效。

在第一階段的接點搜索中，研究團隊使用了200張圖片作為探測集，這個數量級相當小，說明這一步非常省資源。對於每一對候選接點（擴散模型的第i層，獎勵模型的第j層），他們計算的是一個均方誤差：把擴散模型在噪聲圖片上的第i層特徵，經過最優線性變換後，與獎勵模型在對應清晰圖片上的第j層特徵之間的距離。誤差越小，說明這兩個層次的特徵在幾何意義上越相似，也就是說這裡的"語言"最接近，交接時資訊損失最少。

研究過程中發現了一個重要規律：越深層的獎勵模型特徵越難被線性還原，一旦獎勵模型的截取點超過前四個Transformer塊，誤差會急劇增大，而且後續的微調也無法彌補這種損失。因此，搜索範圍被限制在獎勵模型的前四個塊內，而擴散模型那邊則掃描全部層次，最終挑出誤差最小的組合。

贊助商廣告

在第二階段的微調中，縫合層的架構設計頗為講究。最核心的部分是一個1×1卷積層，用線性最優解初始化，然後疊加一個兩層的殘差MLP（輕量級神經網路），初始化為零輸出，這樣一開始它不會破壞線性解已經建立的良好基礎，而是慢慢學習殘餘的非線性差異。整個縫合層參數量極少，訓練起來非常快。

此外，由於擴散模型處理的是潛變量空間的圖像（而不是像素空間），而獎勵模型（如CLIP）處理的是像素空間的圖像，兩者的"解析度"（空間網格大小和通道數）未必一致，縫合層中還包含了一步雙線性重採樣來橋接這個尺寸差異。

訓練時，噪聲級別從接近0到接近1均勻採樣，但採用了一個中心偏向的分布，因為噪聲極小（幾乎是清晰圖片）和噪聲極大（幾乎是純噪聲）的情況包含的有效學習信號較少。獎勵模型和擴散模型主幹在整個過程中都保持凍結，只有縫合層和獎勵模型的後半段參與更新。

**四、七十二般變化：拼接適用於多種模型組合**

研究團隊驗證了StitchVM在多種主流模型組合上的有效性，覆蓋了三個擴散模型主幹和四個獎勵模型。擴散模型方面，包括SD 3.5 Medium、SD 3.5 Large以及FLUX.1-dev；獎勵模型方面，包括OpenAI CLIP（ViT-L/14, 336px）、DFN-CLIP（ViT-H/14, 378px）、HPSv2（人類偏好分數v2）以及美學預測器。

所有模型只用了AVA和HPDv2數據集中的無標註圖片訓練5個輪次。評測時，對不同噪聲級別（σ = 0.1, 0.25, 0.5, 0.75, 0.9，其中0代表完全清晰，1代表純噪聲）的潛變量進行測試。評測指標則分別對應各個獎勵模型的核心能力：CLIP類模型用MSCOCO和Flickr30K上的零樣本跨模態檢索召回率，HPSv2用ImageReward和HPDv2上的偏好準確率，美學預測器用AVA測試集上的斯皮爾曼等級相關係數（SRCC）。

結果相當令人振奮。在低噪聲階段（σ ≤ 0.5），拼接後的價值模型表現與原始乾淨圖片獎勵模型幾乎沒有差別。隨著噪聲增大，性能會逐漸下降，但相比其他基線方法，下降幅度要平緩得多，在最高噪聲級別時仍能保持相當可觀的能力。這說明StitchVM確實成功地把獎勵模型的能力"遷移"到了噪聲潛變量的領域。

贊助商廣告

與此形成鮮明對比的是幾個基線方法。VAE拼接基線（直接把噪聲VAE潛變量送入獎勵模型，不經過擴散模型主幹處理）在噪聲稍大時就幾乎完全失效，SRCC降至接近0，檢索召回率也接近隨機水平，印證了擴散模型主幹在處理噪聲特徵方面不可替代的作用。

NoisyCLIP基線（在大規模噪聲圖片上重新訓練CLIP，使用了LAION-400M這個4億張圖片的數據集）雖然數據規模遠超StitchVM，最終性能卻明顯更差。這揭示了一個反直覺的事實：與其用大量噪聲數據從頭訓練，不如用少量數據把現成的頂級模型遷移過來，後者的效率和效果都更優。

DiNa-LRM基線（一個基於擴散特徵訓練的獎勵模型，使用了專有偏好標註數據集HPDv3）與StitchVM相比，在HPDv2和ImageReward兩個基準上都遜色於StitchVM，而StitchVM使用的僅僅是無標註圖片。這進一步說明，直接遷移頂級獎勵模型的能力，勝過用偏好標註數據從頭訓練。

**五、推斷時的"副駕駛"：讓每一步生成都更聰明**

有了一個能在噪聲狀態下直接估計最終圖片質量的價值模型，最直接的應用就是在圖片生成的推斷過程中實時"導航"。研究團隊在兩種主流的推斷時對齊方法上驗證了StitchVM的效果。

第一種叫擴散後驗採樣（DPS），可以理解為在去霧的每一步都用指南針修正方向。傳統DPS的做法是：先用Tweedie方法把當前的模糊中間狀態強行變清晰，再讓獎勵模型評分，然後沿著分數增加的方向稍微調整一下當前狀態，再繼續去霧。這個過程需要完整走一遍擴散模型推理和VAE解碼，不僅慢，而且在噪聲大的時候那個"強行變清晰"的步驟本身就存在很大偏差，指南針指的方向可能就是錯的。

用StitchVM替換這個步驟後，可以直接對噪聲潛變量計算梯度，不再需要擴散模型推理和VAE解碼這兩個昂貴的步驟。實驗數據顯示，這一替換使得推斷速度提升了3.2倍（以SD 3.5 Medium為例，每張圖片從52.8秒降到16.5秒），峰值顯存占用降低了約50%（從56.4GB降到26.0GB），同時在ImageReward、美學分數、HPSv2等多個評測指標上還有普遍性的質量提升。節省算力的同時還提升了質量，這種雙贏在研究中並不常見。

贊助商廣告

第二種叫費曼-卡茨引導（FK Steering，可理解為粒子過濾導航法）。這種方法同時維護多條"去霧路徑"（粒子），每步評估各條路徑的潛力，優勝劣汰。傳統實現中，每評估一個粒子的潛力就需要一次Tweedie變換加VAE解碼，成本隨粒子數線性增加。

StitchVM的加入開闢了一種全新的擴展思路：因為每次價值函數評估已經非常廉價，可以在每條路徑上同時探索多個局部候選方向（M個提議），選出價值最高的那個繼續走，而不僅僅是擴大路徑總數（N條粒子）。研究團隊發現，這種M擴展方式比單純增加N更有計算效率：比如（N=8, M=6）的組合能達到與標準方法（N=14）相當的質量，但只需要後者67%的計算量。

在GenEval這個專門評測文本-圖像對齊能力的基準上，FK Steering結合StitchVM相比標準版本有顯著提升：以HPSv2為目標獎勵時，GenEval從0.62提升到0.69，ImageReward從0.93提升到1.10。

**六、訓練時的"提前預習"：讓模型更早學到重要經驗**

除了推斷時的導航，StitchVM還能加速和改善訓練時對齊的效率。研究團隊在兩種訓練時方法上進行了測試。

第一種是直接獎勵微調（DRaFT/AlignProp）。傳統做法是讓模型把整張圖生成到底，然後用獎勵信號反向傳播梯度，調整模型參數。這個過程需要沿著整條去霧路徑反向傳播，既耗內存又容易梯度爆炸，所以實際操作中往往只反向傳播最後幾步（低噪聲階段），高噪聲階段的早期步驟得不到有效的學習信號。

引入StitchVM後，不再需要把生成路徑走到底。每次訓練疊代中，隨機採樣一個中間停止時間步τ，在那裡停下來，直接用StitchVM評估這個噪聲狀態的價值，把這個值當作訓練信號來反向傳播。由於不需要走完整條路徑，反向傳播的鏈路大大縮短，避免了梯度爆炸問題，同時早期高噪聲階段的步驟也能收到來自價值函數的直接學習信號，彌補了傳統方法的盲區。

贊助商廣告

實驗結果顯示，DRaFT-1結合StitchVM時，總GPU消耗從128.1 GPU-hours降低到94.8 GPU-hours（節省約26%），同時GenEval從0.53提升到0.69，HPSv2從0.308提升到0.348，各項指標全面提升。DRaFT-3的情況類似，GPU消耗從128.0降到100.3（節省約22%），各項指標也有改善。

第二種是DiffusionNFT，一種基於強化學習的在線訓練方法。它的原始做法是生成完整圖片，用終端獎勵信號來判斷哪些生成"正面"哪些"負面"，然後做對比學習。這個過程每次更新都需要走完整條生成路徑，非常耗時。

引入StitchVM後，同樣可以在中間噪聲步驟停下來，用價值函數估計終端獎勵，用這個估計值代替真實的終端獎勵來構建正負樣本。由於不用走到底，每次疊代的成本大幅降低。實驗數據顯示，DiffusionNFT結合StitchVM時，總GPU消耗從191.5 GPU-hours降低到84.7 GPU-hours，節省了超過55%，同時各項評測指標保持相當甚至略有改善。換句話說，用不到原來一半的計算量，達到了相同乃至更好的訓練效果。

研究團隊還針對"在哪個噪聲步驟停下來最合適"做了專項分析。在25步的生成計劃中，從太早的步驟（步驟2到12）停下來效果反而不好，因為那時的價值函數預測還太不準確；從中間偏後的步驟（步驟12到17）停下來效果最好，既保證了預測的可靠性，又避免了走完全程的代價；從最後幾步（步驟20到25）停下來效果居中，但不如中間區間穩定。

**七、一個有趣的延伸：小模型也能指導大模型**

研究中還有一個值得關注的發現：StitchVM不一定需要和被指導的生成模型完全一致。以SD 3.5 Medium的拼接模型來指導更大的SD 3.5 Large進行FK引導，與用SD 3.5 Large自己的拼接模型相比，效果幾乎沒有差別——HPSv2相差不超過0.002，GenEval上小模型版本甚至稍高（0.72 vs 0.70）。

這背後的原因是SD 3.5 Medium和SD 3.5 Large共享同一個VAE潛變量空間，它們的噪聲潛變量在維度上完全兼容。而StitchVM只用到了擴散模型的前幾層，這些淺層特徵在兩個尺寸的模型之間差異不大。這意味著可以訓練一個更便宜的小模型版本的StitchVM來指導昂貴的大模型，進一步降低運行成本。

贊助商廣告

**八、成本一覽：這套方案到底有多輕量**

研究團隊在文章中詳細列出了各種配置下訓練StitchVM的總成本，以單張GH200 GPU上的總小時數來衡量，包含接點搜索和微調兩個階段。以512×512解析度為例，美學預測器的總訓練時間約7 GPU-hours，CLIP約10 GPU-hours，HPSv2約10.2 GPU-hours。提升到1024×1024解析度時，成本相應增加到24至32 GPU-hours。

這組數字放在整個AI訓練的語境下是極為輕量的。訓練一個主流的擴散模型本身往往需要數萬乃至數十萬GPU-hours，而NoisyCLIP那樣的基線方法也需要在LAION-400M這4億張圖片的數據集上重新訓練，成本不可估量。相比之下，10 GPU-hours幾乎是一個任何團隊都能承受的一次性投入，而這個一次性投入就能為後續無數次推斷和訓練節省大量成本。

此外，論文還指出了這個方法的當前局限：StitchVM只適用於那些本身被實現為前饋神經網路的獎勵模型。對於那些非神經網路形式的評分函數（比如某些基於規則的物理一致性評分），目前的拼接框架無法直接適用，可能需要先訓練一個代理獎勵模型作為橋樑。研究團隊認為這是未來值得探索的方向。

歸根結底，StitchVM做的事情可以用一句話概括：把兩位專家的優勢用一個精心設計的"接力棒"結合在一起，讓他們在對方擅長的地方各司其職，共同完成單靠任何一方都無法高效完成的任務。這種模型復用的思路，不僅在AI圖片生成對齊這個具體場景下發揮了顯著作用，背後蘊含的"用拼接代替重訓"的設計哲學，或許在更廣泛的AI應用中都有借鑑價值。

對這項研究感興趣的讀者，可以通過論文編號arXiv:2605.19804在arXiv平台檢索完整論文，以及訪問項目主頁 gohyojun15.github.io/StitchVM 查看更多實驗結果和可視化內容。

---

Q&A

Q1：StitchVM為什麼比Tweedie近似和蒙特卡洛近似更好？

A：Tweedie近似需要額外運行一次擴散模型和VAE解碼，而且在噪聲大的階段偏差很大；蒙特卡洛近似要把生成過程重複好多次，極耗算力。StitchVM訓練好之後，直接對噪聲狀態評分，既不需要走完生成流程，也沒有近似偏差，速度快、精度高。

贊助商廣告

Q2：StitchVM訓練需要人工標註的偏好數據嗎？

A：不需要。StitchVM的訓練只依賴無標註的乾淨圖片，用原始獎勵模型對這些清晰圖片的評分作為監督信號，讓拼接模型在噪聲輸入下學會預測相同的分數，整個過程完全不需要人工偏好標註。

Q3：StitchVM接點搜索為什麼限制在獎勵模型的前幾層？

A：實驗發現，一旦截取點超過獎勵模型（如CLIP）的前四個Transformer塊，線性變換的擬合誤差會急劇增大，說明擴散模型的特徵和獎勵模型深層特徵之間的差異已經無法用簡單線性映射橋接，後續微調也無法彌補，最終評測性能會大幅下降。