香港大學聯手中科院：讓AI「翻譯」圖片的方式，從此徹底不同了

這項由香港大學、中國科學院瀋陽自動化研究所、香港中文大學及加州大學聖克魯茲分校聯合開展的研究，以預印本形式於2026年5月31日發布，論文編號為arXiv:2606.01048，有興趣深入了解的讀者可通過該編號查閱完整論文。

贊助商廣告

當你把一張模糊的照片交給AI，讓它還原成清晰的版本，這件事聽起來很簡單，背後卻是一套極為複雜的"翻譯工程"。AI需要理解模糊圖片的內容，再把它"翻譯"成另一種狀態——清晰的圖片。這種工作被研究者稱為"圖像到圖像翻譯"，它涵蓋了去除霧霾、去除雨水、低光照增強、圖像修復、超解析度等你在日常生活中可能會遇到的種種圖像處理需求。

這支來自多所頂尖高校和研究機構的研究團隊，發現了現有技術中一個被長期忽視的問題，並提出了一套全新的解決方案，將這類圖像翻譯工作做得更准、更省力、更節省數據。他們把這套方案命名為DRDD（解耦殘差去噪擴散模型）。

一、圖像翻譯，究竟是在翻譯什麼

以去霧為例——你拍了一張霧天的城市照片，畫面朦朦朧朧，看不清樓宇的輪廓。AI圖像翻譯的任務，就是把這張"霧天版本"轉換成"晴天版本"。從數學角度看，這是把一種圖像分布映射到另一種圖像分布的過程，兩種分布之間存在顯著的差異，這種差異被稱為"領域差距"。

當你只需要處理一種任務——比如專門去霧——這個問題相對容易解決，因為模型只需要學會一種特定的轉換規則。然而，現實世界中的需求遠比這複雜：同一張照片可能同時有霧、有雨、還光線昏暗；而且不同場景下的照片——比如醫學影像、衛星遙感圖、普通照片——即便是同一類型的噪聲，也呈現出截然不同的視覺特徵。

正因如此，研究者們希望打造一種"全能翻譯官"：一個模型能同時處理多種不同的圖像翻譯任務，面對不同領域的圖片都能從容應對。這種設想在現實中面臨兩大攔路虎。其一是不同任務之間的"領域差距"太大，模型學起來非常困難；其二是收集大量成對的"壞圖與好圖"數據極為耗時耗力，而訓練這類模型通常需要海量的配對數據。

贊助商廣告

這篇論文的核心貢獻，就是找到了一把同時打開這兩道鎖的鑰匙。

二、擴散模型：AI世界裡的"加噪-去噪"魔法

在理解DRDD之前，需要先了解它所依託的技術基礎——擴散模型。近年來，擴散模型已經成為AI圖像生成領域的明星技術，Stable Diffusion、DALL-E等產品背後都有它的身影。

擴散模型的工作原理可以用一個調色遊戲來理解。假設你有一桶純白顏料（代表清晰的目標圖片），每次往裡面加入一點點灰色粉末（代表高斯噪聲），最終整桶顏料變成了均勻的灰色（代表純噪聲）。訓練過程中，AI學習的是如何"反向操作"——從一桶灰色顏料出發，一步步推斷出原來的純白顏料長什麼樣。當你給AI一張霧天照片，AI就從這張照片出發（而不是從純灰顏料出發），逐步推算出對應的晴天版本。

這套框架被應用到圖像翻譯任務後，研究者注意到了一個關鍵細節：在這個"加噪-去噪"的過程中，噪聲和圖像內容的變化是同時發生的，纏繞在一起，你中有我、我中有你。每走一步，模型既在去除噪聲，又在調整圖像語義內容。研究團隊把這種方式稱為"耦合擴散過程"。

三、一個被忽視的發現：噪聲竟然是"領域調解員"

在梳理既有方法的過程中，這支研究團隊發現了一個此前從未被系統闡述過的現象：往圖片裡加入一定量的高斯噪聲，不僅僅是"弄髒圖片"那麼簡單，它還能悄悄拉近不同類型圖片之間的距離。

回到調色遊戲的比喻：假設你有三桶顏料，分別是鮮紅色、深藍色和亮黃色——代表三種差異極大的圖像領域，比如醫學影像、衛星圖像和普通照片。在沒有添加任何東西的情況下，這三桶顏料的顏色差異顯而易見。但如果你往每桶顏料里都加入同等量的白色粉末（噪聲），三桶顏料的顏色都會向同一個方向靠攏，變得比原來更相似——雖然還不完全一樣，但差距已經明顯縮小了。

研究團隊用嚴格的數學語言（KL散度，即衡量兩種分布相似程度的指標）證明了這一點：向兩種不同的分布各自注入同等的高斯噪聲之後，它們之間的距離必然比注入噪聲之前更小。這個結論被寫成了論文中的"命題3.1"，並附有完整的數學證明。

贊助商廣告

他們還用實驗驗證了這一理論：把去霧、去雨、去雪三種任務的圖片特徵分別用t-SNE（一種把高維數據可視化成二維圖的方法）畫出來，可以清楚地看到，在沒有加噪聲的情況下，三種任務的圖片在特徵空間裡涇渭分明、各成一團；加入噪聲之後，三團數據明顯靠攏，邊界模糊了很多。

這個現象被研究團隊命名為"領域調和"。這一屬性對"全能翻譯官"的目標極為重要——如果噪聲能幫不同領域的圖片"消除隔閡"，那麼模型學習統一的翻譯規則就會容易得多。

然而，問題也隨之而來：在現有的耦合擴散框架中，噪聲和內容變化同步進行、同步消除。這意味著當模型完成翻譯任務時，噪聲帶來的"領域調和"效果也一同消失了。好比你費盡心思把三桶顏料調成了相近的顏色，結果在最關鍵的調色步驟中，又把白色粉末給逐漸抖落了，導致你調色的時候它們又恢復了原來的差距。這讓耦合模型在面對多任務、多領域翻譯時，始終無法充分利用這種調和效果。

四、DRDD的核心創新：把一件事拆成兩件事來做

發現問題之後，研究團隊提出了解決方案——把原來"一步走"的擴散過程，拆分成"兩步走"的解耦過程。這就是DRDD的本質。

在調色遊戲的框架里，可以這樣理解這個拆分。原本的做法是：邊往顏料里加白色粉末，邊調整顏色色相（內容轉換），最後同時把粉末抖掉、把顏色調對。DRDD的做法則是：第一步，先把白色粉末加進去，等所有領域的顏料都向著相似的方向靠攏（這是"噪聲擴散階段"）；第二步，在顏料已經含有白色粉末的狀態下，專心調整色相、完成內容轉換（這是"殘差擴散階段"）；最後，再把白色粉末去掉，得到最終乾淨的顏色（這是"去噪階段"）。

具體到數學上，前向（訓練）過程分成兩個獨立階段。第一階段是隨機噪聲擴散：從目標圖片出發，一步步往裡加高斯噪聲，直到圖片變成一張"帶噪聲的目標圖"，噪聲量由一個可以控制的係數決定。第二階段是確定性殘差擴散：從"帶噪聲的目標圖"出發，把目標圖和源圖之間的差異（稱為"殘差"，可以理解為翻譯任務所需改變的內容）一點點疊加進去，最終得到一張"帶噪聲的源圖"。

贊助商廣告

而逆向（推理）過程與之對稱，也分兩個階段。第一階段是殘差去除：從"帶噪聲的源圖"出發，在噪聲保持固定不變的狀態下，逐步剔除殘差，將圖片翻譯成"帶噪聲的目標圖"——整個核心的語義翻譯工作，都在這個噪聲存在的環境下完成，因此領域調和和流形提升的效果得以全程保持。第二階段是去噪精修：從"帶噪聲的目標圖"出發，通過一個專門的去噪網路，把噪聲去掉，得到最終乾淨的目標圖。

這種拆分帶來了兩個顯著好處。第一，語義翻譯始終在有噪聲的環境下進行，領域調和效果貫穿整個最關鍵的翻譯步驟，不會中途消失，從而大幅降低了模型學習統一翻譯規則的難度。第二，去噪階段只需要目標領域的圖片，完全不需要配對的源-目標圖片對，這意味著可以用網際網路上海量的無標註普通圖片來訓練這個階段，大幅降低了對配對訓練數據的依賴。

五、模型是怎麼被訓練出來的

兩個階段分別對應兩個獨立的神經網路，各自負責一項專門的工作，訓練目標也完全不同。

去噪網路的訓練目標非常單純：給定一張加了噪聲的目標圖片和時間步，學會把噪聲預測出來。訓練數據只需要大量乾淨的目標領域圖片——加噪過程可以在訓練時動態生成，不需要任何配對的壞圖。這使得去噪網路可以用ImageNet等大型公開圖片數據集預訓練，再遷移到具體任務上，大大提升了數據效率。

殘差去除網路的訓練目標則是：給定一張帶噪聲的源圖、原始的源圖（即退化圖）和時間步，學會預測出"殘差"（即源圖和目標圖之間的差異）。這個階段確實需要配對數據，但得益於領域調和效果，模型學習起來比傳統方法更容易，在配對數據稀缺的情況下表現也更穩定。

在推理時，整個過程的起點是一張待處理的源圖（比如一張模糊的照片）加上隨機採樣的噪聲，先通過殘差去除階段得到帶噪聲的翻譯結果，再通過去噪階段得到最終的乾淨圖片。整個推理過程只需要很少的步數——實驗中每個階段只用2步，總共4步就能完成，推理速度非常快。

贊助商廣告

研究團隊還推導出了這個框架與主流擴散模型範式的兼容性，包括DDPM（去噪擴散概率模型）、DDIM（確定性推理版本）以及基於隨機微分方程的SDE擴散模型，都可以採用解耦思路改造。這意味著DRDD不是一個封閉的、只能用於特定場景的方案，而是一種可以廣泛應用於現有擴散模型體系的通用改進思路。

六、多項任務的實戰檢驗

研究團隊在一系列基準測試上對DRDD進行了全面評估，涵蓋多任務統一修復、多領域單任務修復、單任務單領域修復、數據效率分析等多個維度。

在"All-in-One-5"這個包含5種退化任務（低光照增強、去雨、去噪、去模糊、去霧）的綜合基準上，DRDD在絕大多數任務和指標上達到了當前最優水平。尤其是在感知質量指標LPIPS（數值越低代表視覺效果越接近人眼感受）和FID（衡量生成圖片與真實圖片整體分布距離的指標）上，DRDD的優勢最為明顯——平均LPIPS為0.073，平均FID為18.3，均顯著優於對比的所有方法。這說明DRDD生成的圖片不僅像素上接近真實，視覺感受也更自然、更真實。

在更複雜的"CDD-11"數據集上，該數據集包含11種退化條件（包括各種複合退化，比如同時有低光照和霧，或同時有霧和雨），DRDD在大多數類別上也優於近期最強競爭對手。特別是在複合退化場景下——多種損壞同時出現的情況——DRDD的優勢更加突出，而其他方法在複合場景下普遍出現明顯的性能下滑。這正好印證了領域調和在面對多樣化退化時的價值。

研究團隊還專門構建了一個新基準，叫做MNMD（多噪聲多領域），覆蓋自然圖像、醫學影像、遙感圖像三個領域，並加入了高斯噪聲、椒鹽噪聲、泊松噪聲等多種類型的噪聲。在這個基準上，DRDD在三個領域全部取得了最高SSIM（結構相似性指標，數值越高越好）和最低LPIPS，證明了其在跨領域翻譯中的穩定性。

在單任務單領域的測試中，DRDD在圖像修復（CelebA-HQ人臉數據集，中心遮擋和不規則遮擋兩種模式）、超解析度（FFHQ人臉數據集，16×16輸入還原為128×128輸出）、圖像去雨、低光照增強等任務上，也均表現出與最新技術相當甚至更優的性能，證明解耦思路對單任務場景同樣有效，不只是多任務場景下的特殊招數。

贊助商廣告

七、用更少的數據，做更好的事

數據效率是DRDD另一個重要的優勢。研究團隊通過數據刪減實驗來驗證這一點：分別只使用25%、50%、75%和100%的訓練數據，對比DRDD和其他方法在不同數據量下的性能表現。

在低光照增強任務和三任務統一修復（All-in-One-3）任務上，結果非常清晰：隨著訓練數據的減少，所有方法的性能都會下降，但DRDD的下降幅度遠小於其他方法。以低光照增強為例，當訓練數據減少到25%時，DRDD的SSIM僅從0.881下降到0.850，而其他方法的下降幅度大得多。這種穩健性來源於去噪網路可以用ImageNet預訓練權重初始化，即便配對訓練數據很少，去噪部分的能力也基本不受影響。

這一特性對實際應用有非常直接的意義：在很多現實場景中，配對的退化圖-乾淨圖數據極難獲取（比如特定設備拍攝的醫學影像），而無標註的乾淨目標圖相對容易收集。DRDD的框架天然地利用了這種數據不對稱性，讓有限的配對數據發揮出更大的價值。

八、噪聲加多少才合適

在DRDD中，噪聲的注入量是一個關鍵參數——加太少，領域調和效果不夠明顯；加太多，圖片被破壞得太厲害，給殘差去除階段造成額外負擔。

研究團隊為此構建了一套理論框架，定義了兩個距離指標。第一個指標衡量加噪後源領域分布與目標領域分布之間的距離（這個距離越小越好，說明領域調和效果越強）；第二個指標衡量加噪後的源領域與原始源領域之間的距離（這個距離越小越好，說明輸入圖片被破壞的程度越小）。隨著噪聲量增大，兩個指標都會單調上升，呈現出一種此消彼長的矛盾關係。

研究團隊將這兩個指標歸一化後加權求和，得到一個綜合目標函數，通過最小化這個函數來尋找最優噪聲量，權重參數λ可以根據具體任務調節。在All-in-One-5數據集上，理論計算給出的最優噪聲強度（β）約為1.1到1.2。實驗驗證的結果高度吻合：模型在噪聲強度為1.0時達到最優性能，在0.8到1.3的範圍內表現都很穩定，超出這個範圍後性能才開始明顯下滑。這套理論框架不僅為DRDD提供了參數選擇的依據，也為類似任務提供了可參考的分析工具。

贊助商廣告

九、讓一個框架兼容更多模型

研究團隊還專門測試了解耦思路與另一類主流擴散模型——基於SDE（隨機微分方程）的擴散模型——的兼容性，以IR-SDE為基礎進行了改造，得到了解耦版本De-IRSDE。

在圖像修復（CelebA-HQ）、去雨（Rain100）和去噪（BSD400）三項任務上，De-IRSDE的表現全面超越或持平於原始IR-SDE：修復任務的LPIPS從0.0517降到0.0490，FID從15.14降到15.10；去雨任務的PSNR從27.2提升到28.1，SSIM從0.856提升到0.862；去噪任務的LPIPS略有上升但FID從33.29大幅改善至31.87。這組結果證明，解耦思路不是專為某種特定擴散框架定製的技巧，而是一種具有普遍適用性的範式改進。

十、消融實驗：每個組件都在發揮作用

為了驗證DRDD各個組成部分的必要性，研究團隊還設計了一系列對照實驗。

去掉去噪網路的版本（殘差去除結束後直接用數學方法減去噪聲）性能明顯下滑，驗證了專門的去噪網路確實有不可替代的作用——因為在殘差去除過程中，模型對噪聲部分也有一定影響，簡單減去原始噪聲無法得到乾淨的結果。

用在不同數據集上訓練的去噪網路（比如只用三任務數據訓練的去噪網路，搭配五任務殘差去除網路）表現也不錯，驗證了去噪網路確實具有跨任務遷移能力，不需要與殘差去除網路使用完全相同的訓練數據。

把兩個階段合併成參數量相當的單網路（耦合基線）的版本，則在多個任務上性能均不如DRDD，證明解耦本身帶來的結構優勢不能被簡單地用增加參數量來彌補。

此外，研究團隊還測試了不同採樣步數對性能的影響，結果顯示2步和10步的性能幾乎沒有差異，證明DRDD在極少步數下就能達到最優效果，推理效率非常高。

在計算資源方面，DRDD的輕量版（DRDD-S，殘差去除網路7M參數，去噪網路35M參數）每張圖推理延遲僅0.33秒，遠低於大多數對比方法；標準版（DRDD-L）延遲也只有0.55秒，同時在所有指標上均優於參數量更大、延遲更高的競爭對手。

贊助商廣告

歸根結底，DRDD這項研究的意義在於，它用一個相當簡潔的洞察——"噪聲不只是噪聲，它還是領域之間的調解員"——撬動了擴散模型在圖像翻譯領域的一個根本性局限。把噪聲管理和語義翻譯分開處理，不僅讓模型在多任務場景下學得更輕鬆，還讓訓練數據的需求量大幅降低，這兩點對於把AI圖像處理技術推向更廣泛、更實用的場景，都具有切實的價值。

從更長遠的視角看，這種思路不只限於圖像修復，任何需要跨領域映射的視覺任務——醫學圖像分析、衛星圖像處理、工業檢測圖像增強——都可能從類似的框架中受益。當配對數據極度稀缺時，能夠充分利用無標註數據的方法往往能走得更遠。這項研究為如何設計這類方法提供了一條新的思路，值得關注這一領域的研究者和工程師仔細研讀原文。

Q&A

Q1：DRDD模型在處理圖像翻譯時，為什麼要把擴散過程拆成兩個獨立階段？

A：因為在原有的單階段擴散過程中，噪聲和圖像內容的轉換是同步進行、同步消除的。研究團隊發現，噪聲本身具有"領域調和"的作用，能讓不同類型圖片的特徵分布靠近，從而降低模型學習統一翻譯規則的難度。但在耦合模式下，這種好處會在翻譯還沒完成時就被一併消除。把噪聲管理和語義翻譯拆分成兩個獨立階段，就能讓調和效果在整個核心翻譯過程中持續存在。

Q2：DRDD為什麼能在訓練數據很少的情況下仍然表現穩定？

A：DRDD的去噪網路在訓練時完全不需要配對的"壞圖-好圖"數據，只需要大量乾淨的目標圖片就夠了。這些圖片在網路上隨處可得，甚至可以直接用ImageNet等大型公開數據集的預訓練權重來初始化。因此，即便配對訓練數據只剩25%，去噪部分的能力幾乎不受影響，整體性能的下降幅度遠小於其他依賴全量配對數據的方法。

Q3：DRDD中噪聲注入量的多少對結果有多大影響？

A：噪聲量的選擇確實很關鍵，但在合理範圍內表現相當穩定。實驗顯示，噪聲強度在0.8到1.3之間時，模型性能最優且變化不大；超出這個範圍後性能才開始明顯下滑。研究團隊還提供了一套理論公式，通過平衡"領域調和效果"和"輸入圖片被破壞程度"兩個指標，可以針對具體數據集計算出推薦的最優噪聲量，無需完全依賴經驗調參。

贊助商廣告