華為諾亞方舟實驗室聯手哈工大南開大學：讓AI圖像編輯真正懂得人心的秘密

這項由華為諾亞方舟實驗室、哈爾濱工業大學和南開大學聯合完成的研究，於2026年4月發表在預印本平台arXiv上，論文編號為arXiv:2604.19406。研究提出了一個名為HP-Edit的圖像編輯後訓練框架，以及配套的數據集RealPref-50K和評測基準RealPref-Bench，旨在讓AI圖像編輯模型的輸出結果更貼近普通人的審美和偏好。

贊助商廣告

你有沒有試過用AI來幫你修改一張照片，比如把背景換成海灘，或者把圖裡的一把椅子換成另一把，結果出來的圖要麼色彩奇怪、要麼邊緣有鬼影，要麼整個畫面看起來像是PS時忘了調整光線？明明你的要求很簡單，AI卻像個工程師按圖紙施工——任務完成了，但完全沒有人情味。這正是這篇論文要解決的核心問題：如何讓AI不只是"完成任務"，而是真正做出讓人看了覺得舒服、自然、好看的圖像編輯結果。

一、為什麼AI編輯圖片會"懂事"和"不懂事"之分

要理解這篇研究，先把整件事比作一個烘焙學徒的成長故事。一個烘焙學徒剛開始學做蛋糕時，他按照食譜一步步操作，能把蛋糕烤出來，但未必好吃。真正讓他進步的，是師父或顧客告訴他"這個太甜了"、"那個口感太硬"，然後他根據這些反饋不斷調整。這個"根據反饋調整"的過程，在AI領域有個專門的名詞，叫做"從人類反饋中學習"，英文縮寫是RLHF。

目前主流的AI圖像編輯模型，大多是靠"監督式微調"訓練出來的——就是給模型看大量"原圖+修改指令+結果圖"的組合，讓它學習"照著葫蘆畫瓢"。這種方式有個致命缺陷：用來訓練的數據來源五花八門，有卡通圖、有合成圖、有電影截圖，這些圖和真實世界的照片風格差距很大。就像你只吃過食堂的菜，突然要去做一桌家宴——你能做，但味道就是差那麼一口氣。

更麻煩的是，要構建一個"符合人類審美偏好"的訓練數據集，通常需要大量真人去給圖片打分，非常耗時耗力，成本極高。因此，到底怎麼用強化學習的方式來提升圖像編輯效果，業界一直沒有一個系統性的解決方案。這篇論文就是為了填補這個空白而來的。

贊助商廣告

二、HP-Edit：一套三步走的"烘焙改良系統"

研究團隊設計的HP-Edit框架，可以理解為一套讓AI編輯模型從"會做"升級到"做好"的三步改良流程。整個流程環環相扣，每一步都在上一步的基礎上推進。

第一步，是訓練一個"自動品鑑師"，也就是論文中所說的HP-Scorer（人類偏好評分器）。烘焙學徒要進步，需要有人告訴他蛋糕好不好吃，但如果每次都請專業食評家來評分，成本太高。於是研究團隊的做法是：先請少量真人評分員，對每種編輯任務各收集約50到100組樣本，每組樣本由一張原圖、一條修改指令和一張編輯結果圖構成，然後讓真人給每組結果打0到5分的分數。這個0到5分的標準非常清晰：0分代表完全沒按指令改、結果慘不忍睹；1分是有點動作但基本不對；2分是大體方向對但細節差很多；3分是指令基本執行了但看起來不好看；4分是執行好、視覺質量也不錯；5分則是完美執行且效果逼真自然。

有了這批真人打分的樣本之後，研究團隊把一個預訓練好的視覺語言模型（可以理解為一個能"看圖說話"的大型AI）充當這個"品鑑師"，通過精心設計的評分提示詞來模擬人類的打分邏輯。這個提示詞的設計過程非常講究，從一個基礎版本出發，不斷加入針對具體任務的判斷問題，比如對於"顏色更改"任務，會問"目標區域的顏色飽和度和亮度是否符合指令要求？"、"有沒有顏色誤改到了相鄰區域？"，持續打磨直到這個AI品鑑師給出的分數和真人評分高度一致為止。實驗表明，這個HP-Scorer與真人評分的皮爾遜相關係數高達0.89，說明它確實學會了"人的口味"。

第二步，是用這個AI品鑑師來篩選出"最有訓練價值的困難樣本"，構建RealPref-50K數據集。這一步的關鍵洞察在於：現有的圖像編輯模型（如論文中使用的Qwen-Image-Edit-2509）已經相當厲害，大多數簡單任務它都能輕鬆完成，拿滿分。如果拿這些"滿分樣本"來做強化學習訓練，就好比讓學霸反覆做幼兒園的算術題——沒有任何提升空間，模型根本不會進步。因此，研究團隊的策略是：把那些被HP-Scorer打了滿分5分的樣本全部剔除掉，只保留那些"有提升空間"的困難樣本。這樣篩選出來的數據集，就像一套專門針對學霸弱點設計的強化練習題，讓模型每次訓練都能從錯誤中學習。

贊助商廣告

最終的RealPref-50K數據集包含超過55795個編輯樣本，涵蓋八種常見的圖像編輯任務：添加物體、刪除物體、物體替換、背景替換、顏色更改、背景虛化（即攝影中的"景深效果"）、重新打光和風格遷移。所有原始圖片都來自高質量的真實世界開源圖片庫，包括Pixabay、LSDIR和DIV2K等。為了保證數據的多樣性，研究團隊還特別統計了每張圖片與MS-COCO數據集中各個物體類別（如"人"、"車"、"蛋糕"等）的相似度，確保數據集中各類常見物體的分布相對均衡，不會出現某類物體嚴重過多或過少的情況。

第三步，是利用篩選好的數據和HP-Scorer作為獎勵信號，對編輯模型進行強化學習訓練。具體使用的算法叫做Flow-GRPO，這是一種專為流匹配類生成模型設計的在線強化學習方法。可以把這個過程理解為：模型針對同一條編輯指令，同時生成多張不同的結果圖，然後HP-Scorer對每張圖打分，得分高的結果會被"鼓勵"，得分低的結果會被"懲罰"，模型就在這種反覆的對比和糾正中逐漸學會生成更符合人類審美的結果。為了讓獎勵信號更加平滑，研究團隊還用一個S型函數把0到5分的原始分數轉換成0到1之間的獎勵值，參數設置經過了仔細調校。在訓練時，模型的大部分參數是被凍結不動的，只有一個輕量級的LoRA適配器（可以理解為模型頂層的一個"微調旋鈕"，設定為32階）在更新，這樣既能保留模型原有的強大能力，又能有針對性地提升人類偏好對齊效果。

三、RealPref-Bench：一把衡量"好不好看"的公平尺子

研究團隊還為整個領域貢獻了一個新的評測基準，叫做RealPref-Bench。這個基準包含1638個測試樣本，每種編輯任務大約分配200個，同樣保持了物體類別的均衡分布。與以往很多使用合成圖或網路爬取圖片的基準不同，RealPref-Bench里的圖片全部來自真實世界場景，編輯指令也經過了人工核驗，確保它們符合人類的實際使用習慣和審美預期。這把"尺子"的意義在於：它能更準確地衡量一個模型在真實使用場景下的表現，而不只是在精心構建的測試集上刷數字。

贊助商廣告

四、實驗結果：數據說話，進步真實可見

為了驗證HP-Edit的效果，研究團隊把它與當時領域內的多個強基線模型進行了對比，包括Step1X-Edit、BAGEL、X2Edit、UniWorld-V1、OmniGen2、Qwen-Image-Edit（早期版）、FLUX.1-Kontext-Dev，以及未經HP-Edit優化的Qwen-Image-Edit-2509。所有模型都用HP-Scorer（基於GPT-4o實現）在RealPref-Bench上打分，以0到5的分數進行比較。

結果相當清晰。未經優化的Qwen-Image-Edit-2509在所有任務上的綜合得分為4.472，已經是同期最強的基線之一。經過HP-Edit優化之後，同一個模型的綜合得分提升到了4.667，在八個子任務中幾乎全部排名第一。提升最為明顯的幾個任務，恰好是那些對"人眼感受"最敏感的類型：顏色更改從4.358提升到4.750，背景虛化從4.165提升到4.545，重新打光從3.540提升到3.913，背景替換從4.539提升到4.733。這些任務有一個共同特點——它們都需要模型在視覺上做出細膩、自然的調整，既不能改得太少看不出效果，也不能改得太過顯得突兀，恰恰是人類最挑剔的地方。

在另一個獨立的評測平台GEdit-Bench-EN（Step1X-Edit官方基準）上，HP-Edit同樣表現出色，在語義一致性（G_SC）、感知質量（G_PQ）和綜合得分（G_O）三個維度上分別達到8.35、8.54和8.30，全面超越了包括Qwen-Image-Edit-2509在內的所有對比模型。這證明HP-Edit的提升不是針對某一個特定測試集的"刷分"行為，而是真實的能力提升。

此外，研究團隊還在DreamBench++這個更傳統的評測集上進行了對比。在概念保留（衡量原圖的內容是否被正確保留）和提示遵循（衡量修改是否符合指令）兩個維度上，HP-Edit均優於原始基線模型，綜合乘積指標從0.575提升到0.630，整體綜合得分從0.662提升到0.679。

五、用戶真實打分驗證："機器評分"與"人眼評分"高度吻合

再漂亮的自動評分數據，也需要真人驗證。研究團隊招募了五位標註員，對RealPref-Bench中超過1000對編輯結果進行人工評分，評分維度同樣是指令遵循程度和圖像質量，使用同樣的0到5分標準。最終的用戶評分結果和HP-Scorer的自動評分結果呈現出高度的一致性，兩套分數的分布幾乎完全吻合。這意味著HP-Scorer確實是一個可靠的"人類偏好代理人"，用它作為強化學習的獎勵信號是合理的，而不是在自欺欺人。

贊助商廣告

六、消融實驗：拆開每個零件看效果

研究團隊還做了一組"拆零件"實驗，專門分析HP-Edit中每個組件各自貢獻了多少。他們對比了三種組合：第一種是用未篩選的原始數據配合簡單的基礎評分提示；第二種是用篩選後的RealPref-50K數據配合簡單的基礎評分提示；第三種則是完整的HP-Edit，既用篩選數據又用精心設計的任務感知評分提示。

結果非常有說服力。用未篩選數據加基礎評分的組合，綜合得分反而比原始基線模型下降了（4.391 vs. 4.472），說明質量參差不齊的數據不但幫不上忙，反而會干擾訓練。引入篩選後的RealPref-50K數據之後，得分上升到4.577，證明"挑出困難樣本"這一步的價值。再加上精心設計的HP-Scorer之後，得分進一步提升到最終的4.667。從獎勵曲線的變化趨勢上也能看出這個規律：使用原始數據的訓練曲線幾乎一開始就趨於平穩、幾乎沒有上升；使用RealPref-50K的曲線在訓練初期有明顯的上升趨勢；而完整HP-Edit框架下的曲線則呈現出最平穩、最持續的上升軌跡。

研究團隊還對比了GRPO和DPO（另一種常用的偏好學習方法）。DPO依賴離線挖掘勝者和敗者樣本，通常需要反覆採樣和人工篩選，而GRPO則通過在線採樣並實時用HP-Scorer反饋來驅動學習，能更充分地探索偏好空間。實驗結果顯示，DPO方案能將綜合得分從4.472提升到4.521，但仍不及GRPO（HP-Scorer）的4.590，更不及完整HP-Edit的4.667。

七、LoRA秩的選擇：旋鈕調多大最合適

研究團隊還專門測試了不同LoRA秩（可以理解為微調旋鈕的"精細度"）對效果的影響。秩為8時，得分為4.614；秩為32時，得分達到最高的4.667；秩為128時，得分反而下降到4.645。這說明微調旋鈕調得太粗（秩太低）學不到足夠的東西，但調得太細（秩太高）又容易"過度學習"，反而破壞了原模型的通用能力。32這個"黃金秩"在實驗中被確認為最佳選擇。

說到底，HP-Edit這套框架做到的事情，用一句話可以概括：它在不大幅改動AI圖像編輯模型的前提下，用一個聰明的"口味測試員"和一批精心挑選的"有挑戰性的練習題"，讓模型學會了更接近人類審美的圖像編輯方式。無論是背景替換後前景人物的邊緣是否自然、顏色更改時有沒有誤改到其他區域、背景虛化時焦點區域是否真的銳利，這些細節都在HP-Edit的作用下得到了可見的改善。

贊助商廣告

當然，這項研究也坦誠地指出了自身的局限：HP-Edit目前在處理中英文混合的文字編輯任務上仍然有短板，比如"把圖片裡的英文翻譯成中文"這類需求，效果還不夠理想，而且這個問題主要來自底層基礎模型本身的限制，不是HP-Edit框架能單獨解決的。未來的研究方向之一，就是針對這類跨語言編輯場景專門進行改進。

歸根結底，這項研究的價值在於它提供了一條切實可行的路徑：哪怕沒有海量的人工標註數據，也可以通過一個經過仔細校準的自動評分器，把"讓人看了舒服"這件主觀的事情，轉化成可以量化、可以優化的訓練目標。對於普通用戶來說，這意味著你未來在用AI修圖時，有更大的概率得到一個不需要再二次調整、直接就覺得"嗯，就是這個感覺"的結果。感興趣深入了解技術細節的讀者，可以通過論文編號arXiv:2604.19406查閱完整論文。

Q&A

Q1：HP-Edit框架和普通圖像編輯AI的區別是什麼？

A：普通圖像編輯AI通常靠大量"原圖+結果圖"配對數據進行訓練，能完成任務但不一定符合人的審美。HP-Edit在此基礎上增加了一個"後訓練"階段，用一個模擬人類偏好的自動評分器作為獎勵信號，讓模型通過強化學習不斷向"人類覺得好看自然"的方向靠攏，最終輸出結果在視覺質量和指令遵循上都更貼近人的預期。

Q2：RealPref-50K數據集和其他圖像編輯數據集有什麼不同？

A：RealPref-50K最核心的特點有兩個。第一，所有圖片來自真實世界的高質量圖片庫，而不是卡通圖或合成圖，更貼近實際使用場景。第二，數據集專門篩選掉了那些模型已經能輕鬆處理的"簡單樣本"，只保留對模型有挑戰、有學習價值的困難案例，讓訓練效率大幅提升。同時數據集還平衡了不同物體類別的分布，避免某類物體樣本過多影響模型的泛化能力。

Q3：HP-Scorer的評分可以信賴嗎，和真人打分差別大嗎？

A：根據論文中的實驗，HP-Scorer與真人評分的皮爾遜相關係數達到0.89，說明兩者的一致性非常高。研究團隊還在GEdit-Bench數據集上專門做了驗證，散點圖顯示人工評分和HP-Scorer評分高度集中在對角線附近。這意味著HP-Scorer作為人類偏好的代理評分器是可靠的，用它作為強化學習的獎勵信號不會產生明顯的偏差。

贊助商廣告