港科大聯手快手，讓AI畫圖「減減肥」：一個讓圖像生成更真實的小技巧

這項由香港科技大學與快手科技聯合完成的研究，於2026年6月26日以預印本形式發布在arXiv平台，編號為arXiv:2606.27771，感興趣的讀者可通過該編號查閱完整論文。

贊助商廣告

你有沒有注意到，用AI生成的圖片有時候看起來有點"過頭"——顏色太艷、光線太亮、邊緣過於銳利，像是被美顏濾鏡調過了頭，少了一種真實照片該有的自然質感？這個問題在AI繪圖領域有個專業說法，叫做"獎勵過度優化"。說白了，就是AI拼命迎合評分標準，把圖片弄得越來越"討喜"，卻在這個過程中慢慢失去了真實感。研究團隊把這個問題比作一位廚師為了贏得烹飪比賽，不停給菜餚加鹽加香料，最終味道過重，反而失去了食材本身的鮮味。

研究團隊發現了一個藏在AI繪圖模型深處的有趣規律，並據此提出了一個叫做**NormGuard**的小工具，能在不影響AI繪圖質量的前提下，悄悄糾正這種"過頭"的毛病。這個工具的原理非常優雅，卻被證明在多種不同的AI模型和訓練方式上都穩定有效。

**一、AI畫圖是怎麼被"訓練壞"的**

要理解這項研究，先得弄清楚AI繪圖模型是怎麼工作的，以及它是怎麼被強化學習訓練"帶歪"的。

現代的AI繪圖模型，比如研究中用到的SD3.5-Medium和FLUX.2，採用了一種叫做"流匹配"（Flow Matching）的技術。可以這樣理解：AI生成一張圖片，就像從一團隨機的噪點雪花開始，一步一步把它"雕刻"成一張清晰的照片。在這個雕刻過程中，每一步都有一個"方向和速度"，告訴模型該往哪裡走、走多快，這個"方向和速度"合在一起，就叫做"速度場"（velocity）。

為了讓AI生成的圖片更符合人類審美，研究人員會用強化學習對模型進行二次訓練，類似於給這位雕塑家一個評分系統——評分高的作品會被鼓勵，評分低的會被糾正。這個評分系統可以是PickScore（一個評判圖片是否好看的AI評委）或者HPSv2（另一個人類偏好評分系統）。

贊助商廣告

問題就出在這裡。強化學習確實能讓AI圖片的"評分"更高，但圖片的肉眼觀感卻常常變差了——顏色失真、光線不自然、細節丟失。這就像一個學生為了應付考試而死記答案，成績提高了，但真正的理解力卻沒有增長。

**二、一個被研究團隊發現的隱藏信號**

研究團隊在分析這個問題時，換了一個獨特的觀察角度。他們沒有籠統地說"模型被訓練壞了"，而是去問：強化學習訓練到底在模型內部改變了什麼？

他們發現了一個非常具體的信號：經過強化學習訓練之後，模型在每一步雕刻過程中的"速度"（velocity norm，也就是速度場的大小）都會比原始模型偏高，偏高幅度在5%到15%之間，而且這個現象在整個雕刻過程的每一步都存在，相當均勻。在三種不同的強化學習訓練方法（NFT、AWM、DPO）下，這個現象都穩定出現。

用一個更直觀的比喻來說，原始模型像一個穩健的雕刻師，每一鑿的力道都恰到好處；而經過強化學習訓練之後，這位雕刻師每一鑿都用力過猛了一點，鑿出來的圖案稜角過硬、線條過深，失去了原本的細膩感。

這種"速度偏大"的現象有一個正式的名字，叫做"速度範數膨脹"（velocity norm inflation）。研究團隊注意到，在AI繪圖領域，有一種叫做"分類器自由引導"（Classifier-Free Guidance，簡稱CFG）的技術，之前也被發現會產生類似的速度膨脹問題，並且已經有人提出了一個簡單的推理時修正方法：在生成圖片的過程中，把速度的大小強行縮回到正常水平，同時保持方向不變。

**三、為什麼"推理時修正"在這裡行不通**

研究團隊自然想到：既然CFG的速度膨脹可以通過推理時縮放來修正，那強化學習導致的速度膨脹，是否也可以用同樣的方法解決？

他們進行了實驗，結果出乎意料——這個方法在強化學習的場景下完全沒用。把速度縮回到參考水平後，圖片的評分沒有提升，圖片質量反而出現了更多的銳化瑕疵和不自然的光線。

贊助商廣告

這個區別其實不難理解。CFG的速度膨脹是一個外加的、實時的操作，有點像在菜里臨時多加了一勺鹽——你直接把那勺鹽拿掉就行了。但強化學習的速度膨脹是在漫長的訓練過程中被"烘焙"進模型權重里的，整個模型的各個部分都已經適應了這種"偏大的速度"，這時候你再強行把速度縮小，就像把一道已經做好的菜重新加水稀釋——菜的結構已經變了，你加水只會讓它變得更難吃。

這個發現非常關鍵，它清楚地說明：對於強化學習導致的速度膨脹，必須在訓練階段就介入，而不能等到生成圖片的時候再補救。

**四、速度膨脹和"獎勵"之間，其實關係不大**

研究團隊還追問了另一個關鍵問題：如果在訓練時壓制速度膨脹，會不會同時削弱模型從強化學習中獲得的"有用獎勵信號"？換句話說，速度偏大這件事，是不是正好承載了讓圖片評分更高的資訊？

為了回答這個問題，他們用了一種叫做"伴隨靈敏度分析"（adjoint sensitivity analysis）的數學工具。這個工具能計算出：如果把速度統一放大一點，圖片的獎勵評分會如何變化？

他們在超過6400個樣本上進行了測算，結果表明：速度的統一縮放對獎勵的影響非常雜亂。對於某些圖片，速度放大會讓獎勵略微上升；對於另一些圖片，則會讓獎勵略微下降；把所有圖片的結果平均起來，信號幾乎為零，噪音與信號的比值高達3倍到100倍。

這意味著速度的大小（也就是速度範數）並不是獎勵資訊的主要載體。獎勵資訊主要存在於速度的"方向"之中，而不是"大小"之中。就像一支樂隊演奏，音樂的節奏和旋律（方向）才是打動聽眾的關鍵，而演奏的整體音量（大小）調高一點或調低一點，對效果的影響可以忽略不計。

正因如此，在訓練時專門壓制速度的"大小"，幾乎不會干擾模型習得的有用獎勵信號。這就從理論上確認了：強制控制速度範數，既必要，又安全。

贊助商廣告

**五、NormGuard：一把只管"用力過猛"的剎車**

基於以上兩個發現——推理時修正失效，速度範數不攜帶獎勵信號——研究團隊設計了NormGuard。

NormGuard的原理非常簡潔。在訓練的每一步，它都會比較當前模型的速度大小和原始參考模型的速度大小。如果當前模型的速度比參考模型大，就對超出的部分施加一個懲罰；如果當前模型的速度沒有超出參考模型，則完全不做任何干預。

這種設計有個專業名字，叫做"鉸鏈懲罰"（hinge penalty），直觀來說就像一扇單向閥門：速度想變小，隨便；速度想超過參考水平，受到阻力。具體的數學表達是：懲罰項等於λ乘以當前速度平方與參考速度平方之差，再除以參考速度平方，下限為零。其中λ是一個控制懲罰力度的參數，整個工具只多出這一個需要調節的數字。

NormGuard被直接疊加在原有的強化學習訓練損失函數之上，不需要替換任何已有的訓練步驟。研究團隊在論文中仔細分析了三種常用的強化學習訓練方法——NFT、AWM和DPO——並證明這三種方法的梯度更新都具有一種共同的數學結構，叫做"速度局部損失"，而NormGuard恰好作用於同一個空間，因此可以和這三種方法無縫組合。相比之下，另一種叫做Flow-GRPO的方法在數學結構上與這三種不同，梯度通過軌跡級別的概率比傳播，不直接適用NormGuard的框架，研究團隊明確將其排除在適用範圍之外。

**六、實驗結果：真的管用，而且不止一點點**

為了驗證NormGuard的效果，研究團隊做了大量實驗，覆蓋了兩種基礎模型（SD3.5-Medium和FLUX.2-klein-base-4B）、三種強化學習訓練方法（NFT、AWM、DPO）和兩種獎勵評分系統（PickScore和HPSv2），總共七種不同的配置組合。

在圖像質量方面，研究團隊請了兩位多模態大語言模型"評委"——Qwen3.5-35B和GPT-4.1——對使用NormGuard和不使用NormGuard生成的圖片進行兩兩比較，評判標準涵蓋物理真實性、紋理細節、邊界自然度、色彩一致性、語義合理性和瑕疵檢測六個維度。結果顯示，在全部七種配置中，兩位評委都一致認為NormGuard的輸出質量更好，勝率大多在47%到73%之間，而基準方法的勝率則在20%到46%之間。兩位評委的判斷方向完全一致，這表明質量提升是真實的，而非某個評委的偏好導致的。

贊助商廣告

在圖像真實感方面，研究團隊使用了一個叫做Forensic-Chat的AIGC檢測工具，這個工具能判斷一張圖片更像真實照片還是AI合成品，給出一個"真實感分數"（RealScore）。在七種配置中，NormGuard在六種配置下提升了真實感分數，只有在AWM方法下出現了輕微的真實感分數下降，但同時MLLM評委的質量評分有了更大的提升，說明這兩個維度並不完全一致。

在獎勵保留方面，使用NormGuard之後，PickScore的變化範圍在-0.003到+0.011之間，HPSv2的變化範圍在-0.004到+0.001之間。換句話說，強化學習辛苦得來的評分幾乎完全保留，沒有被顯著削弱。

如果把各種配置在圖表上標出來，會看到一個有趣的規律：加了NormGuard之後，每個點幾乎是垂直向上移動的——獎勵評分基本不變，但圖像質量大幅提升。這正好印證了研究團隊的判斷：速度範數膨脹攜帶的獎勵資訊很少，壓制它不會損失多少獎勵，卻能大幅改善圖像質量。

**七、更少的推理步驟，更明顯的效果**

研究團隊還做了一個特別值得關注的實驗：把生成圖片所用的步驟數從默認的28步減少到10步，再減少到4步，看看NormGuard的效果如何變化。

結果表明，步驟越少，NormGuard的優勢越明顯。在28步時，MLLM評委的勝率差距是9個百分點；到4步時，差距擴大到20個百分點。而基準方法在步驟減少時，真實感分數從0.239急劇下降到0.189，而NormGuard版本的真實感分數則相對穩定，從0.274下降到0.221。

這個現象背後有清晰的物理邏輯：步驟越少，每一步的"跨度"就越大，速度偏大的影響也就越被放大。就像同樣是用力過猛的一錘，如果總共只有四錘，每一錘都用力過猛的後果會比有二十八錘時嚴重得多。這也意味著NormGuard對於快速生成場景（比如實時應用）尤為有價值。

**八、不是"早停"的功勞，也不是"KL正則"的副本**

研究團隊還排除了兩種可能的質疑。

第一種質疑是：NormGuard是否只是讓訓練慢了一點，本質上和"早停"（提前結束訓練）是一回事？研究團隊對比了基準方法在第160步、180步、200步的檢查點，與NormGuard在第200步的結果。結論是：NormGuard在第200步的獎勵評分、真實感分數和MLLM質量分數，全都高於基準方法在任何一個早期檢查點。因此，NormGuard的效果無法用提前停止訓練來復現。

贊助商廣告

第二種質疑是：已經有一種叫做"KL正則"的常規方法，通過限制模型與原始模型的整體差距來防止過度優化，NormGuard是否只是KL正則的重複？研究團隊的實驗表明，在有KL正則的情況下加入NormGuard，真實感分數仍然進一步提升；在沒有KL正則的情況下，NormGuard同樣有效。兩種方法針對的是不同的失效模式：KL正則限制的是速度的整體偏移（包括方向和大小），而NormGuard只針對速度的大小超標部分，不干涉方向的變化。兩者可以疊加使用，互相補充。

說到底，這項研究做的事情非常清晰：它找到了AI繪圖在強化學習訓練過程中一個具體的、可測量的"用力過猛"信號，證明這個信號是多餘的、有害的，然後設計了一個只針對這個信號的精準干預工具。從發現問題、診斷原因、證明安全性、設計方案，到多維度驗證效果，整條研究鏈條環環相扣。

歸根結底，這項工作告訴我們，AI模型在被"獎勵驅動"的過程中，很可能悄悄做了一些並不有益的額外動作，而這些額外動作往往可以被精準地識別和修正，而不必粗暴地限制模型的整體學習。這個思路——把模型的變化分解成"有用的部分"和"多餘的部分"，然後只壓制多餘的部分——對未來的AI訓練研究有著相當廣泛的啟發意義。

對實際應用而言，這意味著在不降低AI繪圖"好看程度"的前提下，生成的圖片可以更自然、更真實、在步驟減少時更穩健。對於想深入了解技術細節的讀者，可以通過arXiv編號2606.27771查閱完整論文。

---

Q&A

Q1：NormGuard是什麼，能解決什麼問題？

A：NormGuard是一個在AI繪圖模型強化學習訓練階段使用的正則化工具。它發現強化學習訓練會讓模型的"速度場大小"（velocity norm）普遍偏高5%到15%，這種偏高會導致圖片出現過度銳化、顏色失真、光線不自然等問題。NormGuard通過一個單向懲罰機制，只要速度大小超過原始模型水平就施加約束，從而在保留獎勵評分的同時改善圖像真實感。

贊助商廣告

Q2：為什麼不能在生成圖片的時候才修正速度膨脹問題，而一定要在訓練時處理？

A：實驗發現，在推理階段強行把速度大小縮回參考水平，圖片的獎勵評分沒有提升，圖像質量反而更差，出現了更多銳化和光線失真問題。這是因為強化學習訓練把速度膨脹"烘焙"進了模型權重，整個模型已經適應了偏大的速度，推理時強制縮減會破壞這種適應，只有在訓練階段介入才能從根本上解決問題。

Q3：NormGuard會不會影響AI繪圖模型通過強化學習獲得的圖像質量提升？

A：實驗數據表明影響極小。在PickScore上，加入NormGuard前後的評分變化範圍在-0.003到+0.011之間；在HPSv2上，變化範圍在-0.004到+0.001之間。理論分析也證明，速度大小並不是獎勵資訊的主要載體，獎勵主要由速度的方向變化承載，因此限制速度大小不會系統性地削弱獎勵信號。