宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

從SD模型到4K照片編輯,NC AI等機構的這項新研究讓圖像"整容"不再是難題

2026年05月04日 首頁 » 熱門科技

這項由NC AI、Medipixel公司、MAUM.AI和EverEx聯合完成的研究,以預印本形式發布於2026年4月11日,論文編號為arXiv:2604.10268,有興趣深入了解的讀者可以通過該編號查詢完整論文。

你有沒有遇到過這樣的煩惱:手裡有一張拍得非常漂亮的4K風景大圖,想用AI軟體把裡面的"櫻花樹"改成"楓樹",結果軟體不是說圖片太大處理不了,就是勉強處理完之後圖片質量慘不忍睹,改完的東西歪七扭八,甚至莫名其妙地出現了好幾棵樹?這種困境,正是這篇研究要正面解決的問題。

高清圖片的AI編輯,聽起來似乎只是一個"放大版本"的問題,但實際情況遠比這複雜。目前最流行的AI圖像生成和編輯工具,比如Stable Diffusion、SDXL、Imagen等,本質上都是在一個特定的"畫布尺寸"下被訓練出來的——通常是512×512像素或1024×1024像素。把這類工具強行用在更大的畫布上,就好比讓一個只練過在A4紙上畫畫的畫家,突然要在整面牆上創作壁畫,結果往往是比例失調、內容重複,整幅畫看上去亂七八糟。

研究團隊提出了一套叫做**EDITCRAFTER**的新方法,專門解決這個"畫幅擴大後AI不知所措"的難題。這套方法的核心在於兩個巧妙的設計:一是"分塊記憶"原圖的方式,二是一種經過特別調整的"引導機制",讓AI在面對大尺寸圖片時也能精準地按照你的文字指令做出修改,而不會東拼西湊、亂加東西。

---

一、為什麼大圖AI編輯這麼難?——畫室太小,壁畫沒法畫

要理解這個問題,可以用一個直觀的比喻來幫助理解:把AI圖像編輯工具比作一個經驗豐富的"裝修畫師",這個畫師從小就在一間固定大小的工作室里練習,所有的技藝都是在那個標準畫布上磨練出來的。

當你突然給他一面巨大的牆(相當於4096×4096像素的高清大圖),叫他把牆上畫的"森林"改成"燃燒的森林",他會怎麼做?如果他不做任何調整,直接把自己的那套小畫布技法搬到大牆上,結果就會出現一個經典問題:他的"眼睛"(也就是模型的感受野,即AI每次能看到的範圍)太小,看不到整幅圖的全貌,於是他會把局部的樹一棵一棵地單獨改,改到後面就忘了前面改成什麼樣了,甚至會在牆的不同區域重複出現一模一樣的"火焰樹"圖案,像印章蓋出來的一樣。

這就是現有主流方案"分塊處理"(patch-wise editing)的致命弱點。有一種叫做CSD的已有方法,同樣是把大圖切成小塊來處理,但它的問題在於:每一塊都用同一個文字指令來引導AI,比如"把森林改成燃燒的森林"。那些根本沒有森林的圖片邊角區域,AI也會硬生生地往裡加火焰和燃燒效果,造成"對象重複"的荒誕結果——比如明明只有一隻老虎,改完之後竟然頭上多了一隻熊貓,身體上爬著一隻考拉。

另一種思路是"縮小再放大":先把大圖縮成小圖,用AI編輯小圖,再用超解析度工具放大回來。這個方法的問題也很明顯——縮小的過程中大量細節丟失了,超解析度工具雖然能讓圖片變大,但它補的細節是"猜"出來的,和原圖的高清紋理相去甚遠。研究團隊在實驗中發現,用這種方法處理後,圖片裡老虎的眼睛會變形扭曲,毛髮的紋理也失真嚴重。

---

二、EDITCRAFTER的第一步秘訣——像考古學家一樣"分塊記錄"原圖資訊

EDITCRAFTER解決這個問題的第一個關鍵動作,叫做"分塊DDIM反轉"(Tiled DDIM Inversion)。

在解釋這個方法之前,先理解一下什麼叫"反轉"。AI圖像生成的過程,可以理解為從一堆隨機噪點(就像電視機沒有信號時的雪花螢幕)出發,一步一步地"去噪",最終生成一張清晰的圖片。"反轉"就是這個過程的逆操作——把一張清晰的圖片,一步一步地"加噪",變回那堆有特定規律的噪點。這個帶規律的噪點,就像是圖片的"基因編碼",包含了圖片原有的結構資訊。之後再從這個"基因編碼"出發,按照新的文字指令重新"去噪"生成圖片,就實現了在保留原圖結構的基礎上做出修改。

問題在於,對於一張4096×4096的大圖,AI畫師的工作室根本放不下這麼大的"畫布"。直接把大圖編碼成"基因",AI會懵掉,生成的"基因編碼"亂七八糟,後續的修改也就無從談起。

研究團隊的解決方案非常聰明,類似考古學家的工作方式:考古學家面對一座巨大的遺址,不會試圖一次性掃描整個遺址,而是把遺址劃分成等大的小區塊,每個區塊單獨精細記錄,最後把所有記錄拼合起來,得到整個遺址的完整資訊。

分塊DDIM反轉的做法完全類似——把大圖切分成若干個和AI訓練尺寸一樣大的小塊,每個小塊單獨進行"反轉"操作,得到每個小塊對應的"基因編碼",然後把所有小塊的"基因編碼"拼合在一起,形成整張大圖的"基因編碼"。

這裡有一個重要的細節:在對每個小塊進行反轉時,研究團隊特意把文字條件的影響關閉了(把引導強度設為零)。這樣做的好處是,反轉過程只是忠實地記錄小塊"本來長什麼樣",而不會受到任何文字描述的干擾,保證了"基因編碼"的純粹性和準確性。

經過這一步,一張4096×4096的大圖,就被轉換成了一份完整的、保留了所有原始細節的"大圖基因編碼",為下一步的精準編輯奠定了基礎。

---

三、EDITCRAFTER的第二步秘訣——給AI畫師換一副"大眼鏡"

有了大圖的"基因編碼"之後,新的問題來了:AI畫師的"眼睛"還是只能看512×512大小的範圍,怎麼讓他看清整張大圖,從而做出全局協調的修改呢?

研究團隊在這裡引入了一個叫做"膨脹卷積"(dilated convolution)的技術,借鑑自另一項叫做ScaleCrafter的研究成果。這個技術可以通俗理解為:給AI畫師換了一副特製的"廣角眼鏡"。

普通的AI畫師用的是標準鏡頭,每次只能清晰地看到面前一小塊區域。換上廣角眼鏡之後,同樣的一雙眼睛,能看到的範圍擴大了好幾倍——雖然距離遠處的細節可能稍微模糊一點,但整體的大局感、結構感有了,畫師就能對整張大圖做出全局協調的判斷和修改,不會再出現各區域各自為政、重複鬧笑話的情況。

具體來說,這副"廣角眼鏡"的工作原理是:在AI網路里處理圖像的"卷積層"(可以理解為AI"觀察"圖像的基本單元)里,把相鄰的感知點之間的間距拉大,讓每個感知點能覆蓋更大範圍的像素。這樣改造之後,不需要重新訓練整個AI模型,就讓它具備了"看大圖"的能力。

然而,直接戴上這副廣角眼鏡的畫師,雖然視野寬了,但去噪的精細度會有所下降——就像戴了廣角眼鏡看書,字看清楚了,但每個字的筆鋒細節可能稍顯模糊。為了兼顧"看得寬"和"看得細",ScaleCrafter的原始方案使用了一種叫NDCFG(噪聲阻尼無分類器引導)的組合機制,同時運用一個"戴眼鏡"的AI和一個"不戴眼鏡"的AI協同工作——前者負責捕捉大結構,後者負責保證細節精度。

但這套機制有一個問題:它本來是為"從頭生成圖片"設計的,引導強度很大,如果直接用來"編輯已有圖片",會把原圖的資訊全部抹掉,完全按照文字指令重新生成一張新圖,而不是在原圖基礎上做局部修改。

---

四、最關鍵的創新——NDCFG++,一個平衡"改變"與"保留"的精妙機制

這就引出了EDITCRAFTER最核心的原創貢獻:**NDCFG++**(流形約束噪聲阻尼無分類器引導)。

用一個更貼近日常的比喻來說明:你把一張舊照片交給一位修圖師,說"幫我把照片裡的櫻花樹改成楓樹"。如果修圖師聽了你的話,直接把整張照片的風格和內容全部重繪,背景的山、地上的草、天空的雲全都換了個樣,你肯定不滿意——你只是想改那棵樹。NDCFG++做的,就是給修圖師裝上一個"克制開關",讓他在做改動時儘可能保留原圖里不需要變的東西,只精準地修改你指定的內容。

從技術角度看,NDCFG++的核心設計有兩個關鍵區別於原版NDCFG的地方。

第一個區別是"引導強度"。原版方案用的引導強度通常是7.5,相當於修圖師聽到你的指令後全力以赴地按照文字描述重繪。NDCFG++把引導強度限制在0到1之間的一個小值(實驗中默認設為0.5),相當於告訴修圖師"你改,但只改一半力度,其餘的保持原樣"。這樣,修改後的圖片既能體現文字指令的意圖,又不會把原圖完全面目全非。從數學上講,原版方案的引導是"外推"——跑到原始圖像分布的外面去,容易產生不自然的結果;而小引導強度的NDCFG++是"內插"——在原始圖像分布的內部進行調整,結果更穩定、更自然,更不容易偏離真實圖像應有的樣子。

第二個區別是"重新加噪"的方式。在去噪過程中,每一步都需要預測當前圖像的噪聲,然後根據這個噪聲更新圖像。原版方案在更新圖像時,用的是"戴廣角眼鏡的AI"預測的噪聲;而NDCFG++改為使用"不戴眼鏡的普通AI"預測的噪聲來做這一步。這個改變類似於:讓一個負責宏觀布局的助理畫師(廣角眼鏡版)規劃整體方向,但具體下筆、補充細節的動作,由另一個更擅長精細描繪的助理(普通版)來執行。這樣的分工使得整個去噪的軌跡更加平滑,中間步驟中圖像的變化更自然,最終結果里原圖的語義資訊保留得更完整。

此外,NDCFG++只在去噪過程的前半段發揮作用(具體在時間步數小於等於某個閾值τ時)。前半段是"大框架"確定的階段,這時候特別需要克制,避免大幅偏離原圖的整體結構;後半段進入細節精修階段,則切換回標準的CFG++方式,確保最終細節的質量。

---

五、實驗怎麼做的,效果如何?——真刀真槍的比較測試

研究團隊用兩種主流的Stable Diffusion版本做了測試:SD 2.1(訓練解析度512×512)和SDXL 1.0(訓練解析度1024×1024)。他們分別把這兩個模型應用到訓練解析度的4倍、8倍和16倍的圖片上,也就是說SD 2.1最高處理到2048×2048,SDXL最高處理到4096×4096。

為了評測效果,研究團隊專門整理了一套測試數據集,用一個高質量圖像生成工具(UltraPixel)生成了30張不同場景的高清圖片,覆蓋方形圖和寬幅全景圖兩種比例,針對每張圖設計了多個編輯指令(比如"把老虎改成熊貓"、"把櫻花樹改成楓樹"等),總共形成150對圖片與編輯指令的組合。

評分標準從三個維度展開。一是ImageReward(圖像獎勵分),這個指標是一個專門模擬人類審美偏好的評分模型,得分越高意味著結果越符合人類的期待。二是HPSv2(人類偏好分),同樣是基於人類評分數據訓練的評估工具,從另一個角度衡量輸出質量。三是CLIPScore(語義匹配分),衡量編輯後的圖片與文字指令之間的語義吻合度,得分越高代表AI對文字指令的執行越準確。

在所有解析度、所有模型版本的測試中,EDITCRAFTER的三項得分均全面超越唯一已有的高解析度圖像編輯方法CSD。以SD 2.1的16倍解析度(也就是2048×2048)測試為例,EDITCRAFTER的ImageReward得分達到1.6689,CSD僅有0.6304;HPSv2得分分別是0.3017對0.2934;CLIPScore分別是35.3194對32.7795。差距相當明顯。

研究團隊還邀請了112位真實用戶通過亞馬遜MTurk平台進行了主觀評測,讓用戶在EDITCRAFTER和CSD的結果中選擇更喜歡的那個。結果顯示,有72.61%的用戶更偏好EDITCRAFTER的結果。

另一方面,研究團隊也和"縮小編輯再放大"的路線做了對比——具體是用InfEdit做512×512的圖片編輯,再用StableSR做16倍超解析度放大。在4倍和16倍的測試場景下,對比數據顯示EDITCRAFTER的ImageReward和CLIPScore均超出了這個組合方案,而在主觀用戶評測中,也有61.12%的用戶偏好EDITCRAFTER,更有高達92.38%的用戶在EDITCRAFTER與ProxEdit+StableSR的對比中選擇了前者。從質化的觀察來看,"縮小編輯再放大"方案的致命傷是細節失真——虎眼變形、毛髮扭曲,這些只有在原始高清解析度下才有的精細資訊,在經歷了縮小和放大的兩輪折騰後已經蕩然無存。

---

六、消融實驗——一步步拆開看,每個組件的貢獻有多大?

研究團隊還做了一系列"拆零件"測試(消融實驗),目的是驗證EDITCRAFTER中每個設計環節的實際作用。

他們分別測試了三種配置:第一種是單獨使用ScaleCrafter的原版方案(即有分塊反轉、有廣角眼鏡,但沒有NDCFG++的克制機制,用原版大引導強度);第二種是有分塊反轉和廣角眼鏡,但完全去掉NDCFG++(即τ=0,全程用標準CFG++);第三種是完整的EDITCRAFTER方案。

從數字上看,在SD 2.1的16倍解析度測試中,第一種方案的ImageReward僅有1.2595,低於第二種方案的1.6273,而完整方案進一步達到1.6689。HPSv2和CLIPScore同樣遵循類似的遞增趨勢。

從直觀的圖片效果來看,差別更為明顯:去掉NDCFG++克制機制之後,雖然文字指令得到了執行(比如"把狗改成貓"),但貓頭出現的位置和原圖狗頭的位置偏差很大,整體感覺突兀;背景和物體紋理也出現了明顯的改變,比如水滴的圖案和顏色花紋都被破壞了。而加上NDCFG++之後,貓頭精確地出現在原圖狗頭的位置,背景和紋理細節得到完整保留,修改效果乾淨自然。

---

七、實際運行情況——不需要高端設備,普通顯卡就能跑

這項研究還有一個值得關注的實用資訊:所有實驗均在一塊RTX 4090顯卡上完成,顯存占用從1024×1024解析度的3.8GB,到4096×4096解析度的18.2GB不等。對於研究者和專業用戶來說,這意味著不需要購置特別昂貴的伺服器級顯卡,一張高端消費級顯卡就足以運行這套方法。

此外,這套方法完全不需要對AI模型做任何重新訓練或微調,所有改動都是在推理階段(也就是實際運行圖像處理時)完成的,開箱即用。

---

說到底,EDITCRAFTER解決的是一個非常現實的問題:我們手裡的高清圖片越來越多,但現有的AI編輯工具大多被"鎖"在了幾年前訓練時用的那個小解析度框框裡。研究團隊的工作證明了,不需要重新訓練一個全新的大模型,只需要對現有模型的使用方式做一些聰明的改造,就能讓它處理原來完全無法勝任的超高清圖片編輯任務。

兩個關鍵創新形成了整個系統的骨幹:分塊DDIM反轉保證了原圖資訊在"翻譯"成AI可處理格式時不會失真,NDCFG++則在編輯過程中精準地平衡了"按文字指令改變"和"保留原圖細節"之間的張力。這兩者缺一不可,缺了前者原圖資訊丟失,缺了後者編輯結果就會失控。

這對攝影師、設計師、數字內容創作者來說是一個好消息:未來處理4K乃至更高解析度圖片的AI編輯,或許不再需要先把照片"壓扁"再"拉伸"的迂迴做法了。當然,目前這套方法還有一些局限,比如在引導強度很低時(λ=0),重建出來的圖片並不完全等同於原圖,只是接近;在某些複雜的編輯場景下,效果也可能因圖片內容而異。這些都是未來可以繼續改進的方向。

有興趣進一步了解這套方法細節的讀者,可以通過論文編號arXiv:2604.10268查閱完整原文。

---

Q&A

Q1:EDITCRAFTER能在普通電腦上運行嗎?

A:EDITCRAFTER的所有實驗都在單張RTX 4090消費級顯卡上完成,處理1024×1024解析度的圖片只需3.8GB顯存,處理4096×4096的4K圖片需要18.2GB顯存。這套方法不需要重新訓練模型,直接在現有Stable Diffusion或SDXL模型上運行,因此對硬體的要求相對可控,並不需要專業伺服器級設備。

Q2:EDITCRAFTER和直接把圖片縮小編輯再放大的方法有什麼本質區別?

A:縮小再放大的路線會在縮小時丟失大量高清細節,超解析度放大時靠"猜"來補充細節,導致眼睛變形、毛髮失真等問題。EDITCRAFTER全程在原始高解析度下操作,通過分塊記錄原圖資訊和精準引導機制,保留了原圖的所有高清紋理,編輯結果更自然真實。

Q3:分塊DDIM反轉為什麼要關閉文字條件的影響?

A:分塊反轉的目的是把原圖"翻譯"成AI可處理的噪聲編碼,這個過程需要儘可能忠實地記錄原圖本來的樣子。如果在反轉時讓文字描述參與進來,編碼會受到文字內容的干擾,原圖資訊就會被污染,後續的編輯就無法在真實的原圖基礎上進行了。關閉文字條件確保了編碼的純粹性。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新