從SD模型到4K照片編輯，NC AI等機構的這項新研究讓圖像"整容"不再是難題

這項由NC AI、Medipixel公司、MAUM.AI和EverEx聯合完成的研究，以預印本形式發布於2026年4月11日，論文編號為arXiv:2604.10268，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

你有沒有遇到過這樣的煩惱：手裡有一張拍得非常漂亮的4K風景大圖，想用AI軟體把裡面的"櫻花樹"改成"楓樹"，結果軟體不是說圖片太大處理不了，就是勉強處理完之後圖片質量慘不忍睹，改完的東西歪七扭八，甚至莫名其妙地出現了好幾棵樹？這種困境，正是這篇研究要正面解決的問題。

高清圖片的AI編輯，聽起來似乎只是一個"放大版本"的問題，但實際情況遠比這複雜。目前最流行的AI圖像生成和編輯工具，比如Stable Diffusion、SDXL、Imagen等，本質上都是在一個特定的"畫布尺寸"下被訓練出來的——通常是512×512像素或1024×1024像素。把這類工具強行用在更大的畫布上，就好比讓一個只練過在A4紙上畫畫的畫家，突然要在整面牆上創作壁畫，結果往往是比例失調、內容重複，整幅畫看上去亂七八糟。

研究團隊提出了一套叫做**EDITCRAFTER**的新方法，專門解決這個"畫幅擴大後AI不知所措"的難題。這套方法的核心在於兩個巧妙的設計：一是"分塊記憶"原圖的方式，二是一種經過特別調整的"引導機制"，讓AI在面對大尺寸圖片時也能精準地按照你的文字指令做出修改，而不會東拼西湊、亂加東西。

---

一、為什麼大圖AI編輯這麼難？——畫室太小，壁畫沒法畫

要理解這個問題，可以用一個直觀的比喻來幫助理解：把AI圖像編輯工具比作一個經驗豐富的"裝修畫師"，這個畫師從小就在一間固定大小的工作室里練習，所有的技藝都是在那個標準畫布上磨練出來的。

當你突然給他一面巨大的牆（相當於4096×4096像素的高清大圖），叫他把牆上畫的"森林"改成"燃燒的森林"，他會怎麼做？如果他不做任何調整，直接把自己的那套小畫布技法搬到大牆上，結果就會出現一個經典問題：他的"眼睛"（也就是模型的感受野，即AI每次能看到的範圍）太小，看不到整幅圖的全貌，於是他會把局部的樹一棵一棵地單獨改，改到後面就忘了前面改成什麼樣了，甚至會在牆的不同區域重複出現一模一樣的"火焰樹"圖案，像印章蓋出來的一樣。

贊助商廣告

這就是現有主流方案"分塊處理"（patch-wise editing）的致命弱點。有一種叫做CSD的已有方法，同樣是把大圖切成小塊來處理，但它的問題在於：每一塊都用同一個文字指令來引導AI，比如"把森林改成燃燒的森林"。那些根本沒有森林的圖片邊角區域，AI也會硬生生地往裡加火焰和燃燒效果，造成"對象重複"的荒誕結果——比如明明只有一隻老虎，改完之後竟然頭上多了一隻熊貓，身體上爬著一隻考拉。

另一種思路是"縮小再放大"：先把大圖縮成小圖，用AI編輯小圖，再用超解析度工具放大回來。這個方法的問題也很明顯——縮小的過程中大量細節丟失了，超解析度工具雖然能讓圖片變大，但它補的細節是"猜"出來的，和原圖的高清紋理相去甚遠。研究團隊在實驗中發現，用這種方法處理後，圖片裡老虎的眼睛會變形扭曲，毛髮的紋理也失真嚴重。

---

二、EDITCRAFTER的第一步秘訣——像考古學家一樣"分塊記錄"原圖資訊

EDITCRAFTER解決這個問題的第一個關鍵動作，叫做"分塊DDIM反轉"（Tiled DDIM Inversion）。

在解釋這個方法之前，先理解一下什麼叫"反轉"。AI圖像生成的過程，可以理解為從一堆隨機噪點（就像電視機沒有信號時的雪花螢幕）出發，一步一步地"去噪"，最終生成一張清晰的圖片。"反轉"就是這個過程的逆操作——把一張清晰的圖片，一步一步地"加噪"，變回那堆有特定規律的噪點。這個帶規律的噪點，就像是圖片的"基因編碼"，包含了圖片原有的結構資訊。之後再從這個"基因編碼"出發，按照新的文字指令重新"去噪"生成圖片，就實現了在保留原圖結構的基礎上做出修改。

問題在於，對於一張4096×4096的大圖，AI畫師的工作室根本放不下這麼大的"畫布"。直接把大圖編碼成"基因"，AI會懵掉，生成的"基因編碼"亂七八糟，後續的修改也就無從談起。

研究團隊的解決方案非常聰明，類似考古學家的工作方式：考古學家面對一座巨大的遺址，不會試圖一次性掃描整個遺址，而是把遺址劃分成等大的小區塊，每個區塊單獨精細記錄，最後把所有記錄拼合起來，得到整個遺址的完整資訊。

贊助商廣告

分塊DDIM反轉的做法完全類似——把大圖切分成若干個和AI訓練尺寸一樣大的小塊，每個小塊單獨進行"反轉"操作，得到每個小塊對應的"基因編碼"，然後把所有小塊的"基因編碼"拼合在一起，形成整張大圖的"基因編碼"。

這裡有一個重要的細節：在對每個小塊進行反轉時，研究團隊特意把文字條件的影響關閉了（把引導強度設為零）。這樣做的好處是，反轉過程只是忠實地記錄小塊"本來長什麼樣"，而不會受到任何文字描述的干擾，保證了"基因編碼"的純粹性和準確性。

經過這一步，一張4096×4096的大圖，就被轉換成了一份完整的、保留了所有原始細節的"大圖基因編碼"，為下一步的精準編輯奠定了基礎。

---

三、EDITCRAFTER的第二步秘訣——給AI畫師換一副"大眼鏡"

有了大圖的"基因編碼"之後，新的問題來了：AI畫師的"眼睛"還是只能看512×512大小的範圍，怎麼讓他看清整張大圖，從而做出全局協調的修改呢？

研究團隊在這裡引入了一個叫做"膨脹卷積"（dilated convolution）的技術，借鑑自另一項叫做ScaleCrafter的研究成果。這個技術可以通俗理解為：給AI畫師換了一副特製的"廣角眼鏡"。

普通的AI畫師用的是標準鏡頭，每次只能清晰地看到面前一小塊區域。換上廣角眼鏡之後，同樣的一雙眼睛，能看到的範圍擴大了好幾倍——雖然距離遠處的細節可能稍微模糊一點，但整體的大局感、結構感有了，畫師就能對整張大圖做出全局協調的判斷和修改，不會再出現各區域各自為政、重複鬧笑話的情況。

具體來說，這副"廣角眼鏡"的工作原理是：在AI網路里處理圖像的"卷積層"（可以理解為AI"觀察"圖像的基本單元）里，把相鄰的感知點之間的間距拉大，讓每個感知點能覆蓋更大範圍的像素。這樣改造之後，不需要重新訓練整個AI模型，就讓它具備了"看大圖"的能力。

然而，直接戴上這副廣角眼鏡的畫師，雖然視野寬了，但去噪的精細度會有所下降——就像戴了廣角眼鏡看書，字看清楚了，但每個字的筆鋒細節可能稍顯模糊。為了兼顧"看得寬"和"看得細"，ScaleCrafter的原始方案使用了一種叫NDCFG（噪聲阻尼無分類器引導）的組合機制，同時運用一個"戴眼鏡"的AI和一個"不戴眼鏡"的AI協同工作——前者負責捕捉大結構，後者負責保證細節精度。

贊助商廣告

但這套機制有一個問題：它本來是為"從頭生成圖片"設計的，引導強度很大，如果直接用來"編輯已有圖片"，會把原圖的資訊全部抹掉，完全按照文字指令重新生成一張新圖，而不是在原圖基礎上做局部修改。

---

四、最關鍵的創新——NDCFG++，一個平衡"改變"與"保留"的精妙機制

這就引出了EDITCRAFTER最核心的原創貢獻：**NDCFG++**（流形約束噪聲阻尼無分類器引導）。

用一個更貼近日常的比喻來說明：你把一張舊照片交給一位修圖師，說"幫我把照片裡的櫻花樹改成楓樹"。如果修圖師聽了你的話，直接把整張照片的風格和內容全部重繪，背景的山、地上的草、天空的雲全都換了個樣，你肯定不滿意——你只是想改那棵樹。NDCFG++做的，就是給修圖師裝上一個"克制開關"，讓他在做改動時儘可能保留原圖里不需要變的東西，只精準地修改你指定的內容。

從技術角度看，NDCFG++的核心設計有兩個關鍵區別於原版NDCFG的地方。

第一個區別是"引導強度"。原版方案用的引導強度通常是7.5，相當於修圖師聽到你的指令後全力以赴地按照文字描述重繪。NDCFG++把引導強度限制在0到1之間的一個小值（實驗中默認設為0.5），相當於告訴修圖師"你改，但只改一半力度，其餘的保持原樣"。這樣，修改後的圖片既能體現文字指令的意圖，又不會把原圖完全面目全非。從數學上講，原版方案的引導是"外推"——跑到原始圖像分布的外面去，容易產生不自然的結果；而小引導強度的NDCFG++是"內插"——在原始圖像分布的內部進行調整，結果更穩定、更自然，更不容易偏離真實圖像應有的樣子。

第二個區別是"重新加噪"的方式。在去噪過程中，每一步都需要預測當前圖像的噪聲，然後根據這個噪聲更新圖像。原版方案在更新圖像時，用的是"戴廣角眼鏡的AI"預測的噪聲；而NDCFG++改為使用"不戴眼鏡的普通AI"預測的噪聲來做這一步。這個改變類似於：讓一個負責宏觀布局的助理畫師（廣角眼鏡版）規劃整體方向，但具體下筆、補充細節的動作，由另一個更擅長精細描繪的助理（普通版）來執行。這樣的分工使得整個去噪的軌跡更加平滑，中間步驟中圖像的變化更自然，最終結果里原圖的語義資訊保留得更完整。

贊助商廣告

此外，NDCFG++只在去噪過程的前半段發揮作用（具體在時間步數小於等於某個閾值τ時）。前半段是"大框架"確定的階段，這時候特別需要克制，避免大幅偏離原圖的整體結構；後半段進入細節精修階段，則切換回標準的CFG++方式，確保最終細節的質量。

---

五、實驗怎麼做的，效果如何？——真刀真槍的比較測試

研究團隊用兩種主流的Stable Diffusion版本做了測試：SD 2.1（訓練解析度512×512）和SDXL 1.0（訓練解析度1024×1024）。他們分別把這兩個模型應用到訓練解析度的4倍、8倍和16倍的圖片上，也就是說SD 2.1最高處理到2048×2048，SDXL最高處理到4096×4096。

為了評測效果，研究團隊專門整理了一套測試數據集，用一個高質量圖像生成工具（UltraPixel）生成了30張不同場景的高清圖片，覆蓋方形圖和寬幅全景圖兩種比例，針對每張圖設計了多個編輯指令（比如"把老虎改成熊貓"、"把櫻花樹改成楓樹"等），總共形成150對圖片與編輯指令的組合。

評分標準從三個維度展開。一是ImageReward（圖像獎勵分），這個指標是一個專門模擬人類審美偏好的評分模型，得分越高意味著結果越符合人類的期待。二是HPSv2（人類偏好分），同樣是基於人類評分數據訓練的評估工具，從另一個角度衡量輸出質量。三是CLIPScore（語義匹配分），衡量編輯後的圖片與文字指令之間的語義吻合度，得分越高代表AI對文字指令的執行越準確。

在所有解析度、所有模型版本的測試中，EDITCRAFTER的三項得分均全面超越唯一已有的高解析度圖像編輯方法CSD。以SD 2.1的16倍解析度（也就是2048×2048）測試為例，EDITCRAFTER的ImageReward得分達到1.6689，CSD僅有0.6304；HPSv2得分分別是0.3017對0.2934；CLIPScore分別是35.3194對32.7795。差距相當明顯。

研究團隊還邀請了112位真實用戶通過亞馬遜MTurk平台進行了主觀評測，讓用戶在EDITCRAFTER和CSD的結果中選擇更喜歡的那個。結果顯示，有72.61%的用戶更偏好EDITCRAFTER的結果。

贊助商廣告

另一方面，研究團隊也和"縮小編輯再放大"的路線做了對比——具體是用InfEdit做512×512的圖片編輯，再用StableSR做16倍超解析度放大。在4倍和16倍的測試場景下，對比數據顯示EDITCRAFTER的ImageReward和CLIPScore均超出了這個組合方案，而在主觀用戶評測中，也有61.12%的用戶偏好EDITCRAFTER，更有高達92.38%的用戶在EDITCRAFTER與ProxEdit+StableSR的對比中選擇了前者。從質化的觀察來看，"縮小編輯再放大"方案的致命傷是細節失真——虎眼變形、毛髮扭曲，這些只有在原始高清解析度下才有的精細資訊，在經歷了縮小和放大的兩輪折騰後已經蕩然無存。

---

六、消融實驗——一步步拆開看，每個組件的貢獻有多大？

研究團隊還做了一系列"拆零件"測試（消融實驗），目的是驗證EDITCRAFTER中每個設計環節的實際作用。

他們分別測試了三種配置：第一種是單獨使用ScaleCrafter的原版方案（即有分塊反轉、有廣角眼鏡，但沒有NDCFG++的克制機制，用原版大引導強度）；第二種是有分塊反轉和廣角眼鏡，但完全去掉NDCFG++（即τ=0，全程用標準CFG++）；第三種是完整的EDITCRAFTER方案。

從數字上看，在SD 2.1的16倍解析度測試中，第一種方案的ImageReward僅有1.2595，低於第二種方案的1.6273，而完整方案進一步達到1.6689。HPSv2和CLIPScore同樣遵循類似的遞增趨勢。

從直觀的圖片效果來看，差別更為明顯：去掉NDCFG++克制機制之後，雖然文字指令得到了執行（比如"把狗改成貓"），但貓頭出現的位置和原圖狗頭的位置偏差很大，整體感覺突兀；背景和物體紋理也出現了明顯的改變，比如水滴的圖案和顏色花紋都被破壞了。而加上NDCFG++之後，貓頭精確地出現在原圖狗頭的位置，背景和紋理細節得到完整保留，修改效果乾淨自然。

---

七、實際運行情況——不需要高端設備，普通顯卡就能跑

這項研究還有一個值得關注的實用資訊：所有實驗均在一塊RTX 4090顯卡上完成，顯存占用從1024×1024解析度的3.8GB，到4096×4096解析度的18.2GB不等。對於研究者和專業用戶來說，這意味著不需要購置特別昂貴的伺服器級顯卡，一張高端消費級顯卡就足以運行這套方法。

贊助商廣告

此外，這套方法完全不需要對AI模型做任何重新訓練或微調，所有改動都是在推理階段（也就是實際運行圖像處理時）完成的，開箱即用。

---

說到底，EDITCRAFTER解決的是一個非常現實的問題：我們手裡的高清圖片越來越多，但現有的AI編輯工具大多被"鎖"在了幾年前訓練時用的那個小解析度框框裡。研究團隊的工作證明了，不需要重新訓練一個全新的大模型，只需要對現有模型的使用方式做一些聰明的改造，就能讓它處理原來完全無法勝任的超高清圖片編輯任務。

兩個關鍵創新形成了整個系統的骨幹：分塊DDIM反轉保證了原圖資訊在"翻譯"成AI可處理格式時不會失真，NDCFG++則在編輯過程中精準地平衡了"按文字指令改變"和"保留原圖細節"之間的張力。這兩者缺一不可，缺了前者原圖資訊丟失，缺了後者編輯結果就會失控。

這對攝影師、設計師、數字內容創作者來說是一個好消息：未來處理4K乃至更高解析度圖片的AI編輯，或許不再需要先把照片"壓扁"再"拉伸"的迂迴做法了。當然，目前這套方法還有一些局限，比如在引導強度很低時（λ=0），重建出來的圖片並不完全等同於原圖，只是接近；在某些複雜的編輯場景下，效果也可能因圖片內容而異。這些都是未來可以繼續改進的方向。

有興趣進一步了解這套方法細節的讀者，可以通過論文編號arXiv:2604.10268查閱完整原文。

---

Q&A

Q1：EDITCRAFTER能在普通電腦上運行嗎？

A：EDITCRAFTER的所有實驗都在單張RTX 4090消費級顯卡上完成，處理1024×1024解析度的圖片只需3.8GB顯存，處理4096×4096的4K圖片需要18.2GB顯存。這套方法不需要重新訓練模型，直接在現有Stable Diffusion或SDXL模型上運行，因此對硬體的要求相對可控，並不需要專業伺服器級設備。

Q2：EDITCRAFTER和直接把圖片縮小編輯再放大的方法有什麼本質區別？

A：縮小再放大的路線會在縮小時丟失大量高清細節，超解析度放大時靠"猜"來補充細節，導致眼睛變形、毛髮失真等問題。EDITCRAFTER全程在原始高解析度下操作，通過分塊記錄原圖資訊和精準引導機制，保留了原圖的所有高清紋理，編輯結果更自然真實。

贊助商廣告

Q3：分塊DDIM反轉為什麼要關閉文字條件的影響？

A：分塊反轉的目的是把原圖"翻譯"成AI可處理的噪聲編碼，這個過程需要儘可能忠實地記錄原圖本來的樣子。如果在反轉時讓文字描述參與進來，編碼會受到文字內容的干擾，原圖資訊就會被污染，後續的編輯就無法在真實的原圖基礎上進行了。關閉文字條件確保了編碼的純粹性。