這項由香港大學、中國科學院瀋陽自動化研究所、香港中文大學及加州大學聖克魯茲分校聯合開展的研究,以預印本形式於2026年5月31日發布,論文編號為arXiv:2606.01048,有興趣深入了解的讀者可通過該編號查閱完整論文。
當你把一張模糊的照片交給AI,讓它還原成清晰的版本,這件事聽起來很簡單,背後卻是一套極為複雜的"翻譯工程"。AI需要理解模糊圖片的內容,再把它"翻譯"成另一種狀態——清晰的圖片。這種工作被研究者稱為"圖像到圖像翻譯",它涵蓋了去除霧霾、去除雨水、低光照增強、圖像修復、超解析度等你在日常生活中可能會遇到的種種圖像處理需求。
這支來自多所頂尖高校和研究機構的研究團隊,發現了現有技術中一個被長期忽視的問題,並提出了一套全新的解決方案,將這類圖像翻譯工作做得更准、更省力、更節省數據。他們把這套方案命名為DRDD(解耦殘差去噪擴散模型)。
一、圖像翻譯,究竟是在翻譯什麼
以去霧為例——你拍了一張霧天的城市照片,畫面朦朦朧朧,看不清樓宇的輪廓。AI圖像翻譯的任務,就是把這張"霧天版本"轉換成"晴天版本"。從數學角度看,這是把一種圖像分布映射到另一種圖像分布的過程,兩種分布之間存在顯著的差異,這種差異被稱為"領域差距"。
當你只需要處理一種任務——比如專門去霧——這個問題相對容易解決,因為模型只需要學會一種特定的轉換規則。然而,現實世界中的需求遠比這複雜:同一張照片可能同時有霧、有雨、還光線昏暗;而且不同場景下的照片——比如醫學影像、衛星遙感圖、普通照片——即便是同一類型的噪聲,也呈現出截然不同的視覺特徵。
正因如此,研究者們希望打造一種"全能翻譯官":一個模型能同時處理多種不同的圖像翻譯任務,面對不同領域的圖片都能從容應對。這種設想在現實中面臨兩大攔路虎。其一是不同任務之間的"領域差距"太大,模型學起來非常困難;其二是收集大量成對的"壞圖與好圖"數據極為耗時耗力,而訓練這類模型通常需要海量的配對數據。
這篇論文的核心貢獻,就是找到了一把同時打開這兩道鎖的鑰匙。
二、擴散模型:AI世界裡的"加噪-去噪"魔法
在理解DRDD之前,需要先了解它所依託的技術基礎——擴散模型。近年來,擴散模型已經成為AI圖像生成領域的明星技術,Stable Diffusion、DALL-E等產品背後都有它的身影。
擴散模型的工作原理可以用一個調色遊戲來理解。假設你有一桶純白顏料(代表清晰的目標圖片),每次往裡面加入一點點灰色粉末(代表高斯噪聲),最終整桶顏料變成了均勻的灰色(代表純噪聲)。訓練過程中,AI學習的是如何"反向操作"——從一桶灰色顏料出發,一步步推斷出原來的純白顏料長什麼樣。當你給AI一張霧天照片,AI就從這張照片出發(而不是從純灰顏料出發),逐步推算出對應的晴天版本。
這套框架被應用到圖像翻譯任務後,研究者注意到了一個關鍵細節:在這個"加噪-去噪"的過程中,噪聲和圖像內容的變化是同時發生的,纏繞在一起,你中有我、我中有你。每走一步,模型既在去除噪聲,又在調整圖像語義內容。研究團隊把這種方式稱為"耦合擴散過程"。
三、一個被忽視的發現:噪聲竟然是"領域調解員"
在梳理既有方法的過程中,這支研究團隊發現了一個此前從未被系統闡述過的現象:往圖片裡加入一定量的高斯噪聲,不僅僅是"弄髒圖片"那麼簡單,它還能悄悄拉近不同類型圖片之間的距離。
回到調色遊戲的比喻:假設你有三桶顏料,分別是鮮紅色、深藍色和亮黃色——代表三種差異極大的圖像領域,比如醫學影像、衛星圖像和普通照片。在沒有添加任何東西的情況下,這三桶顏料的顏色差異顯而易見。但如果你往每桶顏料里都加入同等量的白色粉末(噪聲),三桶顏料的顏色都會向同一個方向靠攏,變得比原來更相似——雖然還不完全一樣,但差距已經明顯縮小了。
研究團隊用嚴格的數學語言(KL散度,即衡量兩種分布相似程度的指標)證明了這一點:向兩種不同的分布各自注入同等的高斯噪聲之後,它們之間的距離必然比注入噪聲之前更小。這個結論被寫成了論文中的"命題3.1",並附有完整的數學證明。
他們還用實驗驗證了這一理論:把去霧、去雨、去雪三種任務的圖片特徵分別用t-SNE(一種把高維數據可視化成二維圖的方法)畫出來,可以清楚地看到,在沒有加噪聲的情況下,三種任務的圖片在特徵空間裡涇渭分明、各成一團;加入噪聲之後,三團數據明顯靠攏,邊界模糊了很多。
這個現象被研究團隊命名為"領域調和"。這一屬性對"全能翻譯官"的目標極為重要——如果噪聲能幫不同領域的圖片"消除隔閡",那麼模型學習統一的翻譯規則就會容易得多。
然而,問題也隨之而來:在現有的耦合擴散框架中,噪聲和內容變化同步進行、同步消除。這意味著當模型完成翻譯任務時,噪聲帶來的"領域調和"效果也一同消失了。好比你費盡心思把三桶顏料調成了相近的顏色,結果在最關鍵的調色步驟中,又把白色粉末給逐漸抖落了,導致你調色的時候它們又恢復了原來的差距。這讓耦合模型在面對多任務、多領域翻譯時,始終無法充分利用這種調和效果。
四、DRDD的核心創新:把一件事拆成兩件事來做
發現問題之後,研究團隊提出了解決方案——把原來"一步走"的擴散過程,拆分成"兩步走"的解耦過程。這就是DRDD的本質。
在調色遊戲的框架里,可以這樣理解這個拆分。原本的做法是:邊往顏料里加白色粉末,邊調整顏色色相(內容轉換),最後同時把粉末抖掉、把顏色調對。DRDD的做法則是:第一步,先把白色粉末加進去,等所有領域的顏料都向著相似的方向靠攏(這是"噪聲擴散階段");第二步,在顏料已經含有白色粉末的狀態下,專心調整色相、完成內容轉換(這是"殘差擴散階段");最後,再把白色粉末去掉,得到最終乾淨的顏色(這是"去噪階段")。
具體到數學上,前向(訓練)過程分成兩個獨立階段。第一階段是隨機噪聲擴散:從目標圖片出發,一步步往裡加高斯噪聲,直到圖片變成一張"帶噪聲的目標圖",噪聲量由一個可以控制的係數決定。第二階段是確定性殘差擴散:從"帶噪聲的目標圖"出發,把目標圖和源圖之間的差異(稱為"殘差",可以理解為翻譯任務所需改變的內容)一點點疊加進去,最終得到一張"帶噪聲的源圖"。
而逆向(推理)過程與之對稱,也分兩個階段。第一階段是殘差去除:從"帶噪聲的源圖"出發,在噪聲保持固定不變的狀態下,逐步剔除殘差,將圖片翻譯成"帶噪聲的目標圖"——整個核心的語義翻譯工作,都在這個噪聲存在的環境下完成,因此領域調和和流形提升的效果得以全程保持。第二階段是去噪精修:從"帶噪聲的目標圖"出發,通過一個專門的去噪網路,把噪聲去掉,得到最終乾淨的目標圖。
這種拆分帶來了兩個顯著好處。第一,語義翻譯始終在有噪聲的環境下進行,領域調和效果貫穿整個最關鍵的翻譯步驟,不會中途消失,從而大幅降低了模型學習統一翻譯規則的難度。第二,去噪階段只需要目標領域的圖片,完全不需要配對的源-目標圖片對,這意味著可以用網際網路上海量的無標註普通圖片來訓練這個階段,大幅降低了對配對訓練數據的依賴。
五、模型是怎麼被訓練出來的
兩個階段分別對應兩個獨立的神經網路,各自負責一項專門的工作,訓練目標也完全不同。
去噪網路的訓練目標非常單純:給定一張加了噪聲的目標圖片和時間步,學會把噪聲預測出來。訓練數據只需要大量乾淨的目標領域圖片——加噪過程可以在訓練時動態生成,不需要任何配對的壞圖。這使得去噪網路可以用ImageNet等大型公開圖片數據集預訓練,再遷移到具體任務上,大大提升了數據效率。
殘差去除網路的訓練目標則是:給定一張帶噪聲的源圖、原始的源圖(即退化圖)和時間步,學會預測出"殘差"(即源圖和目標圖之間的差異)。這個階段確實需要配對數據,但得益於領域調和效果,模型學習起來比傳統方法更容易,在配對數據稀缺的情況下表現也更穩定。
在推理時,整個過程的起點是一張待處理的源圖(比如一張模糊的照片)加上隨機採樣的噪聲,先通過殘差去除階段得到帶噪聲的翻譯結果,再通過去噪階段得到最終的乾淨圖片。整個推理過程只需要很少的步數——實驗中每個階段只用2步,總共4步就能完成,推理速度非常快。
研究團隊還推導出了這個框架與主流擴散模型範式的兼容性,包括DDPM(去噪擴散概率模型)、DDIM(確定性推理版本)以及基於隨機微分方程的SDE擴散模型,都可以採用解耦思路改造。這意味著DRDD不是一個封閉的、只能用於特定場景的方案,而是一種可以廣泛應用於現有擴散模型體系的通用改進思路。
六、多項任務的實戰檢驗
研究團隊在一系列基準測試上對DRDD進行了全面評估,涵蓋多任務統一修復、多領域單任務修復、單任務單領域修復、數據效率分析等多個維度。
在"All-in-One-5"這個包含5種退化任務(低光照增強、去雨、去噪、去模糊、去霧)的綜合基準上,DRDD在絕大多數任務和指標上達到了當前最優水平。尤其是在感知質量指標LPIPS(數值越低代表視覺效果越接近人眼感受)和FID(衡量生成圖片與真實圖片整體分布距離的指標)上,DRDD的優勢最為明顯——平均LPIPS為0.073,平均FID為18.3,均顯著優於對比的所有方法。這說明DRDD生成的圖片不僅像素上接近真實,視覺感受也更自然、更真實。
在更複雜的"CDD-11"數據集上,該數據集包含11種退化條件(包括各種複合退化,比如同時有低光照和霧,或同時有霧和雨),DRDD在大多數類別上也優於近期最強競爭對手。特別是在複合退化場景下——多種損壞同時出現的情況——DRDD的優勢更加突出,而其他方法在複合場景下普遍出現明顯的性能下滑。這正好印證了領域調和在面對多樣化退化時的價值。
研究團隊還專門構建了一個新基準,叫做MNMD(多噪聲多領域),覆蓋自然圖像、醫學影像、遙感圖像三個領域,並加入了高斯噪聲、椒鹽噪聲、泊松噪聲等多種類型的噪聲。在這個基準上,DRDD在三個領域全部取得了最高SSIM(結構相似性指標,數值越高越好)和最低LPIPS,證明了其在跨領域翻譯中的穩定性。
在單任務單領域的測試中,DRDD在圖像修復(CelebA-HQ人臉數據集,中心遮擋和不規則遮擋兩種模式)、超解析度(FFHQ人臉數據集,16×16輸入還原為128×128輸出)、圖像去雨、低光照增強等任務上,也均表現出與最新技術相當甚至更優的性能,證明解耦思路對單任務場景同樣有效,不只是多任務場景下的特殊招數。
七、用更少的數據,做更好的事
數據效率是DRDD另一個重要的優勢。研究團隊通過數據刪減實驗來驗證這一點:分別只使用25%、50%、75%和100%的訓練數據,對比DRDD和其他方法在不同數據量下的性能表現。
在低光照增強任務和三任務統一修復(All-in-One-3)任務上,結果非常清晰:隨著訓練數據的減少,所有方法的性能都會下降,但DRDD的下降幅度遠小於其他方法。以低光照增強為例,當訓練數據減少到25%時,DRDD的SSIM僅從0.881下降到0.850,而其他方法的下降幅度大得多。這種穩健性來源於去噪網路可以用ImageNet預訓練權重初始化,即便配對訓練數據很少,去噪部分的能力也基本不受影響。
這一特性對實際應用有非常直接的意義:在很多現實場景中,配對的退化圖-乾淨圖數據極難獲取(比如特定設備拍攝的醫學影像),而無標註的乾淨目標圖相對容易收集。DRDD的框架天然地利用了這種數據不對稱性,讓有限的配對數據發揮出更大的價值。
八、噪聲加多少才合適
在DRDD中,噪聲的注入量是一個關鍵參數——加太少,領域調和效果不夠明顯;加太多,圖片被破壞得太厲害,給殘差去除階段造成額外負擔。
研究團隊為此構建了一套理論框架,定義了兩個距離指標。第一個指標衡量加噪後源領域分布與目標領域分布之間的距離(這個距離越小越好,說明領域調和效果越強);第二個指標衡量加噪後的源領域與原始源領域之間的距離(這個距離越小越好,說明輸入圖片被破壞的程度越小)。隨著噪聲量增大,兩個指標都會單調上升,呈現出一種此消彼長的矛盾關係。
研究團隊將這兩個指標歸一化後加權求和,得到一個綜合目標函數,通過最小化這個函數來尋找最優噪聲量,權重參數λ可以根據具體任務調節。在All-in-One-5數據集上,理論計算給出的最優噪聲強度(β)約為1.1到1.2。實驗驗證的結果高度吻合:模型在噪聲強度為1.0時達到最優性能,在0.8到1.3的範圍內表現都很穩定,超出這個範圍後性能才開始明顯下滑。這套理論框架不僅為DRDD提供了參數選擇的依據,也為類似任務提供了可參考的分析工具。
九、讓一個框架兼容更多模型
研究團隊還專門測試了解耦思路與另一類主流擴散模型——基於SDE(隨機微分方程)的擴散模型——的兼容性,以IR-SDE為基礎進行了改造,得到了解耦版本De-IRSDE。
在圖像修復(CelebA-HQ)、去雨(Rain100)和去噪(BSD400)三項任務上,De-IRSDE的表現全面超越或持平於原始IR-SDE:修復任務的LPIPS從0.0517降到0.0490,FID從15.14降到15.10;去雨任務的PSNR從27.2提升到28.1,SSIM從0.856提升到0.862;去噪任務的LPIPS略有上升但FID從33.29大幅改善至31.87。這組結果證明,解耦思路不是專為某種特定擴散框架定製的技巧,而是一種具有普遍適用性的範式改進。
十、消融實驗:每個組件都在發揮作用
為了驗證DRDD各個組成部分的必要性,研究團隊還設計了一系列對照實驗。
去掉去噪網路的版本(殘差去除結束後直接用數學方法減去噪聲)性能明顯下滑,驗證了專門的去噪網路確實有不可替代的作用——因為在殘差去除過程中,模型對噪聲部分也有一定影響,簡單減去原始噪聲無法得到乾淨的結果。
用在不同數據集上訓練的去噪網路(比如只用三任務數據訓練的去噪網路,搭配五任務殘差去除網路)表現也不錯,驗證了去噪網路確實具有跨任務遷移能力,不需要與殘差去除網路使用完全相同的訓練數據。
把兩個階段合併成參數量相當的單網路(耦合基線)的版本,則在多個任務上性能均不如DRDD,證明解耦本身帶來的結構優勢不能被簡單地用增加參數量來彌補。
此外,研究團隊還測試了不同採樣步數對性能的影響,結果顯示2步和10步的性能幾乎沒有差異,證明DRDD在極少步數下就能達到最優效果,推理效率非常高。
在計算資源方面,DRDD的輕量版(DRDD-S,殘差去除網路7M參數,去噪網路35M參數)每張圖推理延遲僅0.33秒,遠低於大多數對比方法;標準版(DRDD-L)延遲也只有0.55秒,同時在所有指標上均優於參數量更大、延遲更高的競爭對手。
歸根結底,DRDD這項研究的意義在於,它用一個相當簡潔的洞察——"噪聲不只是噪聲,它還是領域之間的調解員"——撬動了擴散模型在圖像翻譯領域的一個根本性局限。把噪聲管理和語義翻譯分開處理,不僅讓模型在多任務場景下學得更輕鬆,還讓訓練數據的需求量大幅降低,這兩點對於把AI圖像處理技術推向更廣泛、更實用的場景,都具有切實的價值。
從更長遠的視角看,這種思路不只限於圖像修復,任何需要跨領域映射的視覺任務——醫學圖像分析、衛星圖像處理、工業檢測圖像增強——都可能從類似的框架中受益。當配對數據極度稀缺時,能夠充分利用無標註數據的方法往往能走得更遠。這項研究為如何設計這類方法提供了一條新的思路,值得關注這一領域的研究者和工程師仔細研讀原文。
Q&A
Q1:DRDD模型在處理圖像翻譯時,為什麼要把擴散過程拆成兩個獨立階段?
A:因為在原有的單階段擴散過程中,噪聲和圖像內容的轉換是同步進行、同步消除的。研究團隊發現,噪聲本身具有"領域調和"的作用,能讓不同類型圖片的特徵分布靠近,從而降低模型學習統一翻譯規則的難度。但在耦合模式下,這種好處會在翻譯還沒完成時就被一併消除。把噪聲管理和語義翻譯拆分成兩個獨立階段,就能讓調和效果在整個核心翻譯過程中持續存在。
Q2:DRDD為什麼能在訓練數據很少的情況下仍然表現穩定?
A:DRDD的去噪網路在訓練時完全不需要配對的"壞圖-好圖"數據,只需要大量乾淨的目標圖片就夠了。這些圖片在網路上隨處可得,甚至可以直接用ImageNet等大型公開數據集的預訓練權重來初始化。因此,即便配對訓練數據只剩25%,去噪部分的能力幾乎不受影響,整體性能的下降幅度遠小於其他依賴全量配對數據的方法。
Q3:DRDD中噪聲注入量的多少對結果有多大影響?
A:噪聲量的選擇確實很關鍵,但在合理範圍內表現相當穩定。實驗顯示,噪聲強度在0.8到1.3之間時,模型性能最優且變化不大;超出這個範圍後性能才開始明顯下滑。研究團隊還提供了一套理論公式,通過平衡"領域調和效果"和"輸入圖片被破壞程度"兩個指標,可以針對具體數據集計算出推薦的最優噪聲量,無需完全依賴經驗調參。






