這項由中央大學(Chung-Ang University)電腦機器學習實驗室(CMLab)與Adobe Research聯合開展的研究,以預印本形式於2026年6月13日發布在arXiv平台,論文編號為arXiv:2606.15158v1。感興趣的讀者可以通過該編號在arXiv上查閱完整原文。
一、一張好圖,為何經過AI處理後反而"面目全非"?
你有沒有遇到過這樣的經歷:手裡有一張非常高清、細節豐富的參考照片,比如你最喜歡的一款手提包、一個精美的陶瓷擺件,或者一隻毛髮清晰的寵物貓,然後把它交給某個AI圖像生成工具,讓AI幫你把這個物體"合成"到另一張場景圖里。結果出來之後,那個物體卻像是蒙了一層薄霧——細節模糊了,顏色也不對,甚至原本的花紋或者圖案都消失了,整體看起來像是一個"假冒品"而不是你提供的那個真實物體。
這種令人沮喪的情況,其實不是AI工具的設計者粗心大意,而是當前幾乎所有"參考圖引導生成"系統都存在的一個根本性缺陷。問題出在哪裡呢?當你把那張高清參考圖交給AI系統時,這個系統在把圖片"餵"給自己的大腦之前,會先把圖片強制縮小到一個固定的低解析度——就好像你給了畫師一張A3大小的精細素描,他卻先把它縮印成一枚郵票,然後再用這枚郵票來臨摹。郵票上的細節早就丟失殆盡了,畫出來的東西自然也就和原圖相差甚遠。
這個被研究團隊稱為"參考圖引導生成內容"(Reference-guided Generated Content,簡稱RefGC)的技術領域,支撐著圖像合成、定製化生成、圖像編輯等大量我們日常使用的AI圖像功能。然而它一直存在著兩個疊加的問題:第一,高清參考圖在進入AI系統之前就被強制壓縮,精細資訊提前丟失;第二,AI在生成過程中還會額外引入它自己的"創作痕跡",也就是各種生成偽影,包括物體身份失真、細節不一致、紋理丟失以及整體質量下降。這兩個問題加在一起,就造成了最終生成圖像與用戶期望之間那道難以彌合的鴻溝。
中央大學和Adobe Research的研究團隊決定從根本上解決這個問題。他們提出了一個全新的任務框架,將其命名為"參考圖引導生成內容的超解析度精煉"(Reference-guided Generated Content Super-Resolution-Refinement),縮寫為RefGC-SR?。這個任務的核心思路是:既然AI生成的圖片又低解析度又有偽影,那為什麼不在AI完成生成之後,再用用戶最初提供的那張高清參考圖來進行"後期修復"呢?就像一位工藝品修復師,手裡拿著原件的高清照片,對著一件被粗糙仿製的複製品進行逐一比對、精心修復,最終讓複製品既恢復高解析度,又在細節上忠實還原原件的精髓。
二、這個問題究竟有多普遍?四種"失真症狀"逐一拆解
為了讓讀者更直觀地理解這個問題的嚴重性,研究團隊總結了AI參考圖引導生成過程中最常見的四種"失真症狀"。
第一種叫做"身份失真"。以一組傳統手工製作的俄羅斯套娃為例,用戶提供了一張套娃的高清圖片,上面有精緻的繪畫細節和特定的面部表情。但AI生成的結果中,套娃的面部特徵完全變了樣,變成了一個完全不同風格的卡通臉,原本那種民族風情的細膩畫工蕩然無存。這就好像你讓畫師畫你家的小狗,結果畫出來的卻是一隻完全不同的狗——品種都錯了。
第二種叫做"細節不一致"。以一罐果醬為例,瓶身上印有特定的營養成分表和品牌標識。AI生成的結果中,這些文字和標識變得模糊不清,甚至出現了亂碼和變形,完全看不出原始資訊。這就像你讓AI幫你複印一份合同,結果複印出來的版本里很多字都印錯了。
第三種叫做"紋理丟失"。以一隻藍紫色的陶瓷兔子擺件為例,表面應該有細膩的陶瓷光澤和微妙的色調變化。但AI生成的版本表面變得平滑而單調,那種獨特的材質感完全消失了,看起來像是用塑料做的。
第四種叫做"整體質量下降"。即便物體的基本形狀大致正確,整張圖片也會顯得模糊、生硬,缺乏真實照片應有的那種質感和生命力,就像一張經過多次翻拍的照片,畫質越來越差。
在這項研究之前,學術界和工業界有沒有其他方法來解決這些問題呢?研究團隊對相關技術做了一次全面的梳理,發現現有方法各自只能解決問題的一個片段,沒有一種方法能夠同時處理所有難題。
普通的圖像超解析度技術(ISR)可以把低清圖片變高清,但它是按照相機拍攝失真的規律設計的,完全不懂得怎麼處理AI生成產生的那種特殊失真。參考圖引導超解析度技術(RefSR)雖然會利用參考圖,但同樣只針對自然圖像的失真,對AI生成內容的特有問題束手無策。生成內容超解析度技術(GCSR)專門針對AI生成圖片,但它不使用任何參考圖,因此無法恢復那些本該來自參考圖的特定細節。而現有的參考圖引導生成內容精煉技術(RefGCR)雖然最接近目標,能用參考圖來修正AI生成的偽影,但它只在固定解析度下工作,無法同時提升圖片清晰度。
研究團隊製作了一張比較表格,展示了所有相關技術類型在四個關鍵維度上的得分情況:是否處理AI生成內容、是否使用高清參考圖、是否提升解析度、是否精煉偽影。結果顯示,只有他們提出的RefGC-SR?在全部四個維度上都打了勾。這個發現說明,他們填補的確實是一個真實存在卻長期被忽視的技術空白。
三、訓練數據從哪來?一套精妙的"配對圖片製造流水線"
任何AI模型的訓練都需要大量的配對數據——也就是"輸入是什麼、期望輸出是什麼"這樣的樣本對。RefGC-SR?任務需要的是一種三元組:一張含有偽影的低解析度AI生成圖(稱為LRGI)、一張高清參考圖(稱為HRRI)、以及一張對應的高解析度真實目標圖(稱為HRGT)。這三張圖必須描述同一個物體實例,但可以來自不同角度、不同背景。
問題在於,這樣的三元組數據根本不存在於現有數據集中。普通超解析度數據集裡的"降質"是人工模擬的模糊和噪聲,不包含真實的AI生成偽影;而現有的AI生成內容數據集又缺乏配套的高清真實目標圖。更麻煩的是,如果直接用現有的AI圖像合成模型來生成LRGI,這些模型會擅自改變物體的姿勢和角度,導致LRGI和HRGT之間的物體姿態不一致——這對於訓練來說是個大問題,因為模型會誤以為自己還需要學習"改變姿態",而不是專注於修復細節和提升解析度。
研究團隊因此設計了一套兩階段的數據構建流水線,來從零開始製造這些三元組數據。
第一階段專注於收集真實世界的HRRI-HRGT配對。團隊從三個高解析度真實圖像和影片數據集中提取素材,分別是:ORIDa(提供物體在不同背景下的真實合成圖片對)、uCO3D(提供同一物體從多個角度拍攝的影片)、以及UltraVideo(提供在自然運動中拍攝的多樣化影片)。對於影片數據,團隊先用一個叫做Qwen3-VL的視覺語言模型來自動篩選出以物體為主體的影片片段,然後進行逐幀的細化篩選,並用SAM3(一種專門用於圖像分割的模型)為物體生成精確的輪廓遮罩。最後,人工審核員對篩選結果進行最終的質量把關和配對確認。這個過程就像在一個巨大的圖書館裡,先讓一個AI助手幫你快速翻閱所有書籍,找出可能有用的頁面,然後再由專業編輯逐一確認。
第二階段負責為每對HRRI-HRGT合成對應的LRGI,這是整套流程中最具創意的部分。研究團隊專門設計了一個叫做DipRefGC(雙聯畫條件參考圖引導生成器)的生成模型。這個模型的核心挑戰是:既要讓生成的LRGI在物體外觀上忠實於HRRI(因為LRGI應該是"試圖參照HRRI生成"的結果),又要讓物體的姿態和角度嚴格對齊HRGT(這樣訓練時模型才能專注於修復,而不是學習改變姿態)。
DipRefGC採用了一種叫做"雙聯畫"的構圖方式——每個條件輸入圖片都被設計成左右兩格拼在一起的樣子,就像博物館裡並排展示的兩幅相關畫作。外觀控制部分使用了一種"修複式控制網路"(Inpainting ControlNet):左格放置從HRRI中提取的物體,右格放置HRGT的背景和一個遮蓋了物體區域的空白遮罩,強迫模型必須依靠左格的HRRI外觀來"填充"右格的空白,從而自然地產生類似真實AI生成的偽影效果。姿態控制部分則使用了另一個"邊緣線條控制網路"(Canny ControlNet):右格展示HRGT中物體區域的輪廓線條,告訴模型"生成的物體必須符合這個形狀"。兩個控制網路分工明確、各司其職,一個管"畫什麼",一個管"怎麼擺"。
這套系統構建在FLUX這個強大的圖像生成模型基礎上,並使用LoRA(一種輕量級微調技術,可以理解為給大模型貼上專用"補丁")來適配雙控制網路。整個DipRefGC在收集到的HRRI-HRGT配對上進行訓練,最終成功生成了姿態一致、包含真實AI偽影的LRGI樣本。
最終,這套流水線產出了40,000組訓練三元組和200組評估三元組,構成了研究團隊所稱的RefGC-SR?數據集——據稱這是該任務領域的第一個真實世界三元組數據集。從DipRefGC的設計方案消融實驗來看,僅僅增加Canny邊緣控制就能將物體遮罩的IoU(一種衡量形狀匹配程度的指標)從0.480提升到0.601,而專門針對合成和定製化兩種場景進行聯合微調則進一步提升了參考圖的身份保留能力,降低了與真實AI生成輸出之間的分布差距。
四、核心模型如何工作?頻率感知讓"粗略輪廓"和"精細紋理"各歸其位
有了數據之後,研究團隊接下來構建了RefGC-SR?模型本身。這個模型建立在一個叫做FLUX-Kontext的擴散變換器(DiT)骨幹模型之上,骨幹模型的所有參數全部凍結不動,只在其中插入可訓練的新模組。
在設計這個模型之前,研究團隊做了兩個重要的"偵察實驗",這兩個發現直接決定了模型的架構設計思路。
第一個發現來自對FLUX-Kontext本身的頻率分析。研究團隊測量了這個大模型在每一層神經網路中處理圖像時,低頻資訊(可以理解為圖像的整體輪廓和大色塊)和高頻資訊(可以理解為圖像的細節紋理和邊緣)各自的能量變化。結果顯示,低頻資訊在模型最開始的約5%的層里就已經迅速穩定下來,說明整體結構是在早期層里形成的;而高頻資訊則要等到最後約10%的層才突然大量出現,說明精細細節是在晚期層里才被添加的。這個發現就像發現了一個畫家的作畫習慣:他總是先用大筆刷確定整體構圖,然後才拿起細筆刷添加細節,從不混淆順序。
第二個發現來自對LRGI、HRRI和HRGT三者之間關係的分析。研究團隊把這三種圖像在模型的"理解空間"(即潛在特徵空間)里進行了相似度比較:當比較所有頻率成分時,LRGI和HRRI與HRGT的相似度沒有明顯規律;但是,當只單獨看低頻成分時,結果非常清晰——LRGI的低頻成分與HRGT非常接近,而HRRI的低頻成分與HRGT差距較大。這說明,從整體結構的角度來看,AI生成的低質量圖片(LRGI)實際上已經和期望目標(HRGT)比較接近了,真正的問題是高頻的細節資訊,而這些細節應該從HRRI里提取,而不是從LRGI里。
基於這兩個發現,研究團隊設計了兩個核心組件。
第一個組件叫做"頻率自適應LoRA專家混合"(FreqMoLE)。如果把模型的每一層比作一個工作崗位,那麼FreqMoLE的做法是在每個崗位上同時安排兩位專家:一位"低頻專家"(專門處理整體輪廓和大結構)和一位"高頻專家"(專門處理精細紋理和細節)。這兩位專家同時工作,但他們的"發言權重"由一個叫做"門控值α"的參數來控制,而且這個權重是隨著層數深度自動變化的:在模型的早期層,門控值接近1.0,幾乎全部聽低頻專家的;到了模型的晚期層,門控值逐漸降到接近0,幾乎全部聽高頻專家的。這種安排完美契合了前面發現的那個"先定結構、後加細節"的規律,讓每位專家在最合適的時機發揮最大作用。門控值在訓練初期被固定住,確保早期層和晚期層的職責分工穩定建立,之後再與兩位專家一起共同優化。
第二個組件叫做"頻率損失"(Lf),這是用來指導模型學習方向的"評分標準"。這個評分標準分為兩部分。低頻部分的評分規則是:模型輸出的低頻成分必須儘量接近HRGT的低頻成分,確保整體結構與期望目標保持一致,評分時只計算物體所在區域的差異(通過遮罩來限定範圍)。高頻部分的評分規則則要巧妙得多:由於HRRI和HRGT拍攝角度不同,無法直接對比像素位置,所以改為比較統計特性——模型輸出的高頻成分,其平均值和方差應當儘量接近HRRI的高頻成分,而不是接近HRGT。這樣,模型就能從HRRI里"借鑑"細節的風格和質感,而不需要死板地照搬HRRI的每一個像素。這個設計類似於讓廚師學習一道菜的"味道風格"而不是死記每個步驟,讓他能在不同食材條件下復現同樣的風味。
在實際訓練中,最終的總體損失函數由三部分組成:來自FLUX-Kontext骨幹的標準流匹配損失(LFM,負責主要的生成質量監督)、來自ImageCritic研究的注意力對齊損失(Laal,負責讓模型正確地把注意力集中在HRRI的物體區域而不是背景),以及研究團隊自己提出的頻率損失(Lf)。這三個評分標準分工協作,分別管控"生成質量"、"參考注意力"和"頻率資訊的來源分配"三個維度。
五、實驗結果如何?數字和眼睛都說了算
研究團隊在兩個測試場景下評估了RefGC-SR?模型的表現:一是自家構建的RefGC-SR?評估基準(200組三元組,來自訓練數據集之外的新樣本),二是更貼近真實使用場景的"野外測試"(用四種真實的AI生成模型——DreamFuse、InsertAnything、FreeCus、PersonalizeAnything——來產生LRGI,共200組樣本)。
在量化指標上,與對比方法的競爭從以下幾個角度展開:CLIP-I分數衡量的是圖像內容相似度,DINO分數衡量的是特徵層面的相似度,PSNR和SSIM衡量的是像素級別的重建精度,LPIPS衡量的是人類感知層面的圖像質量(數值越低越好)。
在RefGC-SR?評估基準上,RefGC-SR?模型以CLIP-I 0.8696、DINO 0.7474、PSNR 17.5148、SSIM 0.6335、LPIPS 0.2746的成績全面超越所有對比方法。最接近的競爭者ImageCritic(CVPR'26)在CLIP-I上達到0.8542,但在DINO(0.7165)和LPIPS(0.2991)上都明顯落後。在野外測試中,RefGC-SR?同樣在所有指標上領先,包括合成任務和定製化任務兩個子場景均保持了這一優勢。
除了數字指標,研究團隊還通過視覺比較展示了差異。從定性結果來看,其他方法普遍存在以下問題:有些方法(如DiT4SR)可以提升解析度,但不能修復生成偽影;有些方法(如ImageCritic)可以修復部分偽影,但圖像會變得過於平滑,細節反而更少;有些方法(如ReFIR)在某些細節區域會出現幻覺,憑空添加不存在的紋理;還有些方法(如OmniPaint)根本沒有有效地利用HRRI資訊來修復生成偽影。RefGC-SR?的輸出則在保持整體場景結構的同時,將HRRI中的細節忠實地轉移到生成圖上。
用戶研究的結果更加直觀。研究團隊邀請了16名參與者,對每個測試樣本的四種方法輸出(一種SR方法、一種RefSR方法、一種RefGCR方法和本研究方法)從"精煉質量"、"細節恢復質量"、"整體質量"三個維度進行評分。結果顯示,RefGC-SR?在所有三個維度上都獲得了最高分(排名第一)的概率高達83%、82%、83%,而其他方法的最高分概率最多只有8%。反過來,RefGC-SR?被評為最差的概率只有3%到4%,而ImageCritic被評為最差的概率高達51%到66%——這與量化指標中ImageCritic排名第二的結果形成了鮮明對比。研究團隊解釋說,這是因為ImageCritic傾向於生成過度平滑的輸出,在像素級指標上表現還不錯,但人類觀察者能明顯感受到細節紋理的喪失,認為這是質量下降。這個發現本身也很有意義:量化指標不一定能完整反映人類感知層面的圖像質量,特別是在需要恢復精細細節的任務中。
六、消融實驗:拆開來看,每個零件都不可或缺
研究團隊還進行了系統性的"拆件測試"(消融實驗),逐一評估FreqMoLE和Lf各自的貢獻。
當兩個組件都去掉時(只保留基礎模型),CLIP-I為0.8437,DINO為0.6870,LPIPS為0.3538。單獨加入Lf時,DINO跳升至0.7386(提升7.5%),LPIPS降至0.2835(改善19.9%),說明頻率損失對物體身份的忠實度和感知質量有顯著貢獻。從視覺上看,沒有Lf時,模型會把HRRI的內容直接"注入"到輸出里,破壞HRGT的整體結構;加入Lf後,模型學會了既保留HRGT的結構,又從HRRI里借鑑高頻細節。單獨加入FreqMoLE時,PSNR提升6.0%,CLIP-I提升2.8%,說明層次化的低頻/高頻專家分工確實有助於提升重建精度。從視覺上看,沒有FreqMoLE時,一個透明玻璃杯在輸出中變成了不透明的;加入FreqMoLE後,模型正確地恢復了透明感,與HRRI和HRGT保持一致。當兩個組件都加入時,所有指標均達到最優:CLIP-I 0.8696、DINO 0.7474、PSNR 17.5148、SSIM 0.6335、LPIPS 0.2746,證明兩者扮演著互補而非重疊的角色。
七、泛化能力:對商業AI大模型同樣有效
研究團隊額外測試了一個很有說服力的場景:如果LRGI是由主流商業AI模型生成的,RefGC-SR?是否仍然有效?他們選取了三款當前廣泛使用的商業模型:Gemini 2.5 Flash Image、GPT-Image 1.5以及開源模型Qwen-Image-Edit,用它們生成LRGI,然後交給RefGC-SR?和其他對比方法處理。
從視覺比較來看,其他方法在面對商業模型輸出時仍然存在各自的固有局限:有的方法無法識別並修復商業模型產生的特有偽影,有的方法在高頻細節上產生幻覺,有的方法根本沒有利用HRRI的資訊。相比之下,RefGC-SR?在三個商業模型的輸出上都展現出穩定的修復和超解析度能力,能夠從HRRI中準確地提取細節資訊並融入到修復後的圖像中。這說明,儘管RefGC-SR?是在自己構建的合成數據上訓練的,它學到的能力具有相當強的泛化性,能夠遷移到它從未見過的商業AI系統的輸出上。
八、這項研究的局限性和未來方向
研究團隊在論文中坦誠地指出了當前工作的主要局限。首先,訓練數據集是用DipRefGC合成的,並非直接從真實RefGC管線中採集的樣本,這意味著數據中的偽影分布可能與真實世界的所有RefGC系統不完全吻合。其次,數據集目前只涵蓋12個物體類別,以物體為中心的場景為主,對於人物、複雜背景或非常規場景的覆蓋還不夠廣泛。第三,RefGC-SR?模型目前綁定在FLUX-Kontext這個特定的骨幹模型上,當HRRI和LRGI之間的視角差異或幾何變形非常大時,模型可能難以正確處理。
研究團隊提出了未來可以改進的幾個方向:直接從多種真實RefGC管線中採集LRGI樣本來擴展數據集的覆蓋範圍、納入更多物體類別和場景類型、將方法擴展到其他DiT骨幹模型,以及引入具有幾何感知能力的參考圖匹配機制來應對大視角差的挑戰。
歸根結底,這項研究從一個看似細小的工程問題出發——AI生成圖像的質量和清晰度不如人意——但它觸及的是整個參考圖引導生成技術生態的一個系統性缺陷。研究團隊沒有試圖修改現有的生成模型,而是提出了一個後處理的新任務框架,用用戶本來就擁有的高清參考圖作為修復的線索,同時完成超解析度和偽影精煉兩件事。這個思路上的轉換——從"改進生成"變為"善用現有資源來修復生成結果"——不僅在技術上取得了有據可查的進展,也為實際應用開闢了一條務實的路徑:用戶不需要等待更好的生成模型,只需在生成之後多走一步,就能顯著提升最終圖像的質量和對參考圖的忠實度。對於那些在電商、設計、個人創作等領域大量使用AI生成圖像的用戶來說,這一步的價值是相當具體和可感知的。有興趣深入了解技術細節的讀者,可以通過arXiv編號2606.15158查閱完整論文。
Q&A
Q1:RefGC-SR?技術解決的核心問題是什麼?
A:RefGC-SR?解決的是AI參考圖引導生成(比如把你的參考產品圖合成到場景里)時產生的兩個疊加問題:一是高清參考圖在進入AI之前就被強制壓縮導致細節丟失,二是AI生成過程本身產生的偽影,比如物體變形、紋理消失等。這套方法在AI生成完成後,用用戶本來就提供的那張高清參考圖來同時修復偽影和提升解析度。
Q2:DipRefGC是做什麼用的,為什麼需要專門設計它?
A:DipRefGC是一個專門用來合成訓練數據的生成模型。訓練RefGC-SR?模型需要大量"低質量AI生成圖、高清參考圖、高質量目標圖"三件套,但這樣的數據根本不存在。直接用現成AI生成模型來造數據的問題是它會改變物體姿態,導致訓練時模型誤學了"糾正姿態"而不是"修復細節",所以研究團隊專門設計DipRefGC來生成姿態嚴格一致、同時包含真實AI偽影的低質量圖片。
Q3:FreqMoLE和普通LoRA微調有什麼不同?
A:普通LoRA只在每一層插入一套可訓練參數。FreqMoLE在每一層插入兩套參數,一套專門處理圖像的整體結構資訊(低頻專家),一套專門處理精細紋理資訊(高頻專家)。兩套參數的"發言權重"隨模型層數自動調整:早期層讓低頻專家主導,晚期層讓高頻專家主導,這樣就和FLUX-Kontext模型本身"先定結構再加細節"的內在規律完美匹配。






