宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

港科大聯手快手,讓AI畫圖「減減肥」:一個讓圖像生成更真實的小技巧

2026年06月30日 首頁 » 熱門科技

這項由香港科技大學與快手科技聯合完成的研究,於2026年6月26日以預印本形式發布在arXiv平台,編號為arXiv:2606.27771,感興趣的讀者可通過該編號查閱完整論文。

你有沒有注意到,用AI生成的圖片有時候看起來有點"過頭"——顏色太艷、光線太亮、邊緣過於銳利,像是被美顏濾鏡調過了頭,少了一種真實照片該有的自然質感?這個問題在AI繪圖領域有個專業說法,叫做"獎勵過度優化"。說白了,就是AI拼命迎合評分標準,把圖片弄得越來越"討喜",卻在這個過程中慢慢失去了真實感。研究團隊把這個問題比作一位廚師為了贏得烹飪比賽,不停給菜餚加鹽加香料,最終味道過重,反而失去了食材本身的鮮味。

研究團隊發現了一個藏在AI繪圖模型深處的有趣規律,並據此提出了一個叫做**NormGuard**的小工具,能在不影響AI繪圖質量的前提下,悄悄糾正這種"過頭"的毛病。這個工具的原理非常優雅,卻被證明在多種不同的AI模型和訓練方式上都穩定有效。

**一、AI畫圖是怎麼被"訓練壞"的**

要理解這項研究,先得弄清楚AI繪圖模型是怎麼工作的,以及它是怎麼被強化學習訓練"帶歪"的。

現代的AI繪圖模型,比如研究中用到的SD3.5-Medium和FLUX.2,採用了一種叫做"流匹配"(Flow Matching)的技術。可以這樣理解:AI生成一張圖片,就像從一團隨機的噪點雪花開始,一步一步把它"雕刻"成一張清晰的照片。在這個雕刻過程中,每一步都有一個"方向和速度",告訴模型該往哪裡走、走多快,這個"方向和速度"合在一起,就叫做"速度場"(velocity)。

為了讓AI生成的圖片更符合人類審美,研究人員會用強化學習對模型進行二次訓練,類似於給這位雕塑家一個評分系統——評分高的作品會被鼓勵,評分低的會被糾正。這個評分系統可以是PickScore(一個評判圖片是否好看的AI評委)或者HPSv2(另一個人類偏好評分系統)。

問題就出在這裡。強化學習確實能讓AI圖片的"評分"更高,但圖片的肉眼觀感卻常常變差了——顏色失真、光線不自然、細節丟失。這就像一個學生為了應付考試而死記答案,成績提高了,但真正的理解力卻沒有增長。

**二、一個被研究團隊發現的隱藏信號**

研究團隊在分析這個問題時,換了一個獨特的觀察角度。他們沒有籠統地說"模型被訓練壞了",而是去問:強化學習訓練到底在模型內部改變了什麼?

他們發現了一個非常具體的信號:經過強化學習訓練之後,模型在每一步雕刻過程中的"速度"(velocity norm,也就是速度場的大小)都會比原始模型偏高,偏高幅度在5%到15%之間,而且這個現象在整個雕刻過程的每一步都存在,相當均勻。在三種不同的強化學習訓練方法(NFT、AWM、DPO)下,這個現象都穩定出現。

用一個更直觀的比喻來說,原始模型像一個穩健的雕刻師,每一鑿的力道都恰到好處;而經過強化學習訓練之後,這位雕刻師每一鑿都用力過猛了一點,鑿出來的圖案稜角過硬、線條過深,失去了原本的細膩感。

這種"速度偏大"的現象有一個正式的名字,叫做"速度範數膨脹"(velocity norm inflation)。研究團隊注意到,在AI繪圖領域,有一種叫做"分類器自由引導"(Classifier-Free Guidance,簡稱CFG)的技術,之前也被發現會產生類似的速度膨脹問題,並且已經有人提出了一個簡單的推理時修正方法:在生成圖片的過程中,把速度的大小強行縮回到正常水平,同時保持方向不變。

**三、為什麼"推理時修正"在這裡行不通**

研究團隊自然想到:既然CFG的速度膨脹可以通過推理時縮放來修正,那強化學習導致的速度膨脹,是否也可以用同樣的方法解決?

他們進行了實驗,結果出乎意料——這個方法在強化學習的場景下完全沒用。把速度縮回到參考水平後,圖片的評分沒有提升,圖片質量反而出現了更多的銳化瑕疵和不自然的光線。

這個區別其實不難理解。CFG的速度膨脹是一個外加的、實時的操作,有點像在菜里臨時多加了一勺鹽——你直接把那勺鹽拿掉就行了。但強化學習的速度膨脹是在漫長的訓練過程中被"烘焙"進模型權重里的,整個模型的各個部分都已經適應了這種"偏大的速度",這時候你再強行把速度縮小,就像把一道已經做好的菜重新加水稀釋——菜的結構已經變了,你加水只會讓它變得更難吃。

這個發現非常關鍵,它清楚地說明:對於強化學習導致的速度膨脹,必須在訓練階段就介入,而不能等到生成圖片的時候再補救。

**四、速度膨脹和"獎勵"之間,其實關係不大**

研究團隊還追問了另一個關鍵問題:如果在訓練時壓制速度膨脹,會不會同時削弱模型從強化學習中獲得的"有用獎勵信號"?換句話說,速度偏大這件事,是不是正好承載了讓圖片評分更高的資訊?

為了回答這個問題,他們用了一種叫做"伴隨靈敏度分析"(adjoint sensitivity analysis)的數學工具。這個工具能計算出:如果把速度統一放大一點,圖片的獎勵評分會如何變化?

他們在超過6400個樣本上進行了測算,結果表明:速度的統一縮放對獎勵的影響非常雜亂。對於某些圖片,速度放大會讓獎勵略微上升;對於另一些圖片,則會讓獎勵略微下降;把所有圖片的結果平均起來,信號幾乎為零,噪音與信號的比值高達3倍到100倍。

這意味著速度的大小(也就是速度範數)並不是獎勵資訊的主要載體。獎勵資訊主要存在於速度的"方向"之中,而不是"大小"之中。就像一支樂隊演奏,音樂的節奏和旋律(方向)才是打動聽眾的關鍵,而演奏的整體音量(大小)調高一點或調低一點,對效果的影響可以忽略不計。

正因如此,在訓練時專門壓制速度的"大小",幾乎不會干擾模型習得的有用獎勵信號。這就從理論上確認了:強制控制速度範數,既必要,又安全。

**五、NormGuard:一把只管"用力過猛"的剎車**

基於以上兩個發現——推理時修正失效,速度範數不攜帶獎勵信號——研究團隊設計了NormGuard。

NormGuard的原理非常簡潔。在訓練的每一步,它都會比較當前模型的速度大小和原始參考模型的速度大小。如果當前模型的速度比參考模型大,就對超出的部分施加一個懲罰;如果當前模型的速度沒有超出參考模型,則完全不做任何干預。

這種設計有個專業名字,叫做"鉸鏈懲罰"(hinge penalty),直觀來說就像一扇單向閥門:速度想變小,隨便;速度想超過參考水平,受到阻力。具體的數學表達是:懲罰項等於λ乘以當前速度平方與參考速度平方之差,再除以參考速度平方,下限為零。其中λ是一個控制懲罰力度的參數,整個工具只多出這一個需要調節的數字。

NormGuard被直接疊加在原有的強化學習訓練損失函數之上,不需要替換任何已有的訓練步驟。研究團隊在論文中仔細分析了三種常用的強化學習訓練方法——NFT、AWM和DPO——並證明這三種方法的梯度更新都具有一種共同的數學結構,叫做"速度局部損失",而NormGuard恰好作用於同一個空間,因此可以和這三種方法無縫組合。相比之下,另一種叫做Flow-GRPO的方法在數學結構上與這三種不同,梯度通過軌跡級別的概率比傳播,不直接適用NormGuard的框架,研究團隊明確將其排除在適用範圍之外。

**六、實驗結果:真的管用,而且不止一點點**

為了驗證NormGuard的效果,研究團隊做了大量實驗,覆蓋了兩種基礎模型(SD3.5-Medium和FLUX.2-klein-base-4B)、三種強化學習訓練方法(NFT、AWM、DPO)和兩種獎勵評分系統(PickScore和HPSv2),總共七種不同的配置組合。

在圖像質量方面,研究團隊請了兩位多模態大語言模型"評委"——Qwen3.5-35B和GPT-4.1——對使用NormGuard和不使用NormGuard生成的圖片進行兩兩比較,評判標準涵蓋物理真實性、紋理細節、邊界自然度、色彩一致性、語義合理性和瑕疵檢測六個維度。結果顯示,在全部七種配置中,兩位評委都一致認為NormGuard的輸出質量更好,勝率大多在47%到73%之間,而基準方法的勝率則在20%到46%之間。兩位評委的判斷方向完全一致,這表明質量提升是真實的,而非某個評委的偏好導致的。

在圖像真實感方面,研究團隊使用了一個叫做Forensic-Chat的AIGC檢測工具,這個工具能判斷一張圖片更像真實照片還是AI合成品,給出一個"真實感分數"(RealScore)。在七種配置中,NormGuard在六種配置下提升了真實感分數,只有在AWM方法下出現了輕微的真實感分數下降,但同時MLLM評委的質量評分有了更大的提升,說明這兩個維度並不完全一致。

在獎勵保留方面,使用NormGuard之後,PickScore的變化範圍在-0.003到+0.011之間,HPSv2的變化範圍在-0.004到+0.001之間。換句話說,強化學習辛苦得來的評分幾乎完全保留,沒有被顯著削弱。

如果把各種配置在圖表上標出來,會看到一個有趣的規律:加了NormGuard之後,每個點幾乎是垂直向上移動的——獎勵評分基本不變,但圖像質量大幅提升。這正好印證了研究團隊的判斷:速度範數膨脹攜帶的獎勵資訊很少,壓制它不會損失多少獎勵,卻能大幅改善圖像質量。

**七、更少的推理步驟,更明顯的效果**

研究團隊還做了一個特別值得關注的實驗:把生成圖片所用的步驟數從默認的28步減少到10步,再減少到4步,看看NormGuard的效果如何變化。

結果表明,步驟越少,NormGuard的優勢越明顯。在28步時,MLLM評委的勝率差距是9個百分點;到4步時,差距擴大到20個百分點。而基準方法在步驟減少時,真實感分數從0.239急劇下降到0.189,而NormGuard版本的真實感分數則相對穩定,從0.274下降到0.221。

這個現象背後有清晰的物理邏輯:步驟越少,每一步的"跨度"就越大,速度偏大的影響也就越被放大。就像同樣是用力過猛的一錘,如果總共只有四錘,每一錘都用力過猛的後果會比有二十八錘時嚴重得多。這也意味著NormGuard對於快速生成場景(比如實時應用)尤為有價值。

**八、不是"早停"的功勞,也不是"KL正則"的副本**

研究團隊還排除了兩種可能的質疑。

第一種質疑是:NormGuard是否只是讓訓練慢了一點,本質上和"早停"(提前結束訓練)是一回事?研究團隊對比了基準方法在第160步、180步、200步的檢查點,與NormGuard在第200步的結果。結論是:NormGuard在第200步的獎勵評分、真實感分數和MLLM質量分數,全都高於基準方法在任何一個早期檢查點。因此,NormGuard的效果無法用提前停止訓練來復現。

第二種質疑是:已經有一種叫做"KL正則"的常規方法,通過限制模型與原始模型的整體差距來防止過度優化,NormGuard是否只是KL正則的重複?研究團隊的實驗表明,在有KL正則的情況下加入NormGuard,真實感分數仍然進一步提升;在沒有KL正則的情況下,NormGuard同樣有效。兩種方法針對的是不同的失效模式:KL正則限制的是速度的整體偏移(包括方向和大小),而NormGuard只針對速度的大小超標部分,不干涉方向的變化。兩者可以疊加使用,互相補充。

說到底,這項研究做的事情非常清晰:它找到了AI繪圖在強化學習訓練過程中一個具體的、可測量的"用力過猛"信號,證明這個信號是多餘的、有害的,然後設計了一個只針對這個信號的精準干預工具。從發現問題、診斷原因、證明安全性、設計方案,到多維度驗證效果,整條研究鏈條環環相扣。

歸根結底,這項工作告訴我們,AI模型在被"獎勵驅動"的過程中,很可能悄悄做了一些並不有益的額外動作,而這些額外動作往往可以被精準地識別和修正,而不必粗暴地限制模型的整體學習。這個思路——把模型的變化分解成"有用的部分"和"多餘的部分",然後只壓制多餘的部分——對未來的AI訓練研究有著相當廣泛的啟發意義。

對實際應用而言,這意味著在不降低AI繪圖"好看程度"的前提下,生成的圖片可以更自然、更真實、在步驟減少時更穩健。對於想深入了解技術細節的讀者,可以通過arXiv編號2606.27771查閱完整論文。

---

Q&A

Q1:NormGuard是什麼,能解決什麼問題?

A:NormGuard是一個在AI繪圖模型強化學習訓練階段使用的正則化工具。它發現強化學習訓練會讓模型的"速度場大小"(velocity norm)普遍偏高5%到15%,這種偏高會導致圖片出現過度銳化、顏色失真、光線不自然等問題。NormGuard通過一個單向懲罰機制,只要速度大小超過原始模型水平就施加約束,從而在保留獎勵評分的同時改善圖像真實感。

Q2:為什麼不能在生成圖片的時候才修正速度膨脹問題,而一定要在訓練時處理?

A:實驗發現,在推理階段強行把速度大小縮回參考水平,圖片的獎勵評分沒有提升,圖像質量反而更差,出現了更多銳化和光線失真問題。這是因為強化學習訓練把速度膨脹"烘焙"進了模型權重,整個模型已經適應了偏大的速度,推理時強制縮減會破壞這種適應,只有在訓練階段介入才能從根本上解決問題。

Q3:NormGuard會不會影響AI繪圖模型通過強化學習獲得的圖像質量提升?

A:實驗數據表明影響極小。在PickScore上,加入NormGuard前後的評分變化範圍在-0.003到+0.011之間;在HPSv2上,變化範圍在-0.004到+0.001之間。理論分析也證明,速度大小並不是獎勵資訊的主要載體,獎勵主要由速度的方向變化承載,因此限制速度大小不會系統性地削弱獎勵信號。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新