多倫多大學與Adobe聯手攻克AI作畫的「複印機」難題：讓大模型真正「讀懂」你的參考圖

這項由多倫多大學、Vector研究院與Adobe公司聯合開展的研究，以預印本形式於2026年5月25日發布在arXiv平台，論文編號為arXiv:2605.26111v1。感興趣的讀者可通過該編號在arXiv官網上查閱完整論文。

贊助商廣告

你有沒有試過這樣一件事：把一張自己喜歡的背包照片發給AI，讓它幫你生成"這個背包放在雪地里"的圖片，結果AI給你的，是把那張原圖直接挪到雪地背景上——背包的角度、擺放方式，甚至光影細節，和參考圖幾乎一模一樣，像是用PS拼接出來的？這就是業內人士頭疼已久的"複印機問題"，學術上叫做"copy-paste artifact"，即AI生成時對參考圖的機械性複製。

這個問題的根源，在於現有的AI圖片生成技術通常把"文字描述"和"參考圖片"當成兩條平行的輸入線路分開處理，彼此之間缺乏真正的溝通與理解。文字走文字的路，圖片走圖片的路，兩者在最後關頭才被硬拼在一起。這就好比你讓兩個從未見過面的廚師——一個只負責看菜譜，一個只負責看食材——來合作做一道菜，他們各做各的，最終端上桌的東西往往貌合神離。

多倫多大學的研究團隊換了一種思路：與其讓文字和圖片各走各的路，不如請一個"通才大廚"——也就是多模態大語言模型（Multimodal Large Language Model，簡稱MLLM）——同時看菜譜和食材，在腦海中將兩者融合理解，再指揮圖片生成引擎去完成創作。這篇研究的核心貢獻，正是在於提出了一套讓MLLM與圖片生成擴散模型協同工作的完整方案，方案中包含一個名為"雙層聚合器"（Dual Layer Aggregation，簡稱DLA）的新模組，以及一套多階段去噪推理策略。實驗結果表明，這套方案在減少"複印機"問題的同時，還大幅提升了AI對複雜指令的理解能力。

一、為什麼AI總在"複印"參考圖，問題出在哪裡

回到那個廚師的比喻。傳統做法中，AI處理"參考圖"時，主要依賴一種叫做VAE（Variational Autoencoder，變分自編碼器）的工具。VAE的強項是忠實地記錄圖片的視覺細節——顏色、紋理、形狀，這些它都記得一清二楚。但它有個致命弱點：它不懂語言，也不懂上下文推理。當你說"背包放在雪地里，周圍有陽光"，VAE無法真正理解"陽光"這個詞意味著背包應該從雪地上投下一道陰影，意味著背包表面的反光應該變強，意味著整體色調應該偏暖。它只知道"這裡有個背包，把它挪過去"。

贊助商廣告

與此同時，近年來崛起的MLLM——比如你可能聽說過的GPT-4o、Claude、Gemini這類"能看圖又能聊天"的大模型——擁有很強的跨模態理解能力。它們能同時讀懂圖片和文字，能把"戴眼鏡的狗"這個概念正確拆解為"一隻狗"加上"一副眼鏡戴在它臉上"，而不會把眼鏡貼到背景牆上。這種理解能力，正是解決"複印機"問題的關鍵。

然而，直接把MLLM接進圖片生成流程並不是一件簡單的事。已經有一些團隊嘗試過，比如DreamEngine、Qwen-Image、EasyRef等系統，它們把MLLM的輸出接入擴散模型（一種主流的圖片生成框架）。但這些方案大多只使用MLLM最後一層的特徵——相當於只聽大廚最後的總結意見，而忽略了他在烹飪過程中每一步積累的細節判斷。結果是文字理解好了一些，但圖像的細節保真度——也就是"這個背包到底長什麼樣"——卻變差了。

這個矛盾揭示了一個深層問題：MLLM在處理圖片時，越是深層（靠後）的神經網路層，越傾向於保留高層次的語義資訊（"這是個背包"），而越是淺層（靠前）的層，越傾向於保留低層次的視覺細節（"背包上有這種花紋、這種縫線"）。如果只取最後一層，細節就丟了；如果只取前幾層，語義理解又不夠。這就像一部小說，只讀最後一頁的總結，你知道大意，但錯過了所有精彩的人物細節；只讀前幾頁，你知道人物長什麼樣，卻不知道故事走向。

二、雙層聚合器：讓大模型的每一層"心聲"都被聽見

研究團隊設計的DLA模組，核心思想是"把每一層都納入考量，但文字和圖片要分開處理"。

先說"把每一層都納入考量"這部分。DLA的基礎單元叫做LAP（Layerwise Attention Pooling，逐層注意力池化）。它的工作原理可以用一個投票機制來理解：MLLM有28層神經網路，每一層對同一張參考圖都有自己的"看法"——淺層說"我看到了紅色斜紋布料"，中層說"我看到了一個有拉鏈的袋子"，深層說"這是個登山背包"。LAP模組會給這28層的"看法"各自分配一個權重，然後加權綜合成一個統一的表達，送進圖片生成引擎。這個權重本身也是通過訓練學出來的，所以模型會自動學會"在這個任務里，哪幾層的意見最值得參考"。

贊助商廣告

但研究團隊很快發現，一個LAP模組同時處理文字特徵和圖片特徵時，會出現相互干擾的問題。實驗中他們畫出了這個矛盾：單個LAP訓練過程中，模型要麼在圖片保真度上表現好，要麼在文字跟隨度上表現好，兩者很難同時達到峰值，就像天平的兩端，壓低一頭另一頭就翹起來。進一步分析注意力分布圖可以發現，文字內容和圖片內容在不同層上的活躍模式截然不同——它們需要兩套不同的"層選策略"。

於是雙層聚合器（DLA）應運而生：兩個獨立的LAP模組，一個專門處理文字特徵，一個專門處理圖片特徵。文字LAP專注於"這段話的語義在哪幾層最完整"，圖片LAP專注於"這張參考圖的視覺細節在哪幾層最清晰"。兩者互不干擾，各司其職。

這裡有個容易被忽視的妙處：雖然兩個LAP分開處理，但並不意味著文字和圖片資訊完全隔離。MLLM本身在處理輸入時，已經讓文字和圖片的資訊在各層之間相互滲透——圖片的token（資訊單元）已經吸收了文字的語境，文字的token也已經受到了圖片內容的影響。所以DLA的兩個分支處理的，其實是已經"互相了解過"的文字特徵和圖片特徵，不需要再做額外的跨模態融合。這個設計既高效，又避免了重複勞動。

在實驗中，研究團隊對InternVL3-8B這個MLLM的28層進行了系統分析，把它們分為早期層（0-9層）、中期層（10-19層）和晚期層（20-28層）三組，逐一測試不同層組合的效果。結果發現，對圖片特徵而言，早期層尤為關鍵——一旦隱藏早期層，圖片保真度（DINO-I指標）會急劇下降，幅度高達0.14到0.26分；而對文字特徵而言，晚期層更為重要，但即便隱藏晚期層，模型依然能從其他層中召回足夠的語義資訊，下降幅度相對有限。這個發現與直覺一致：MLLM的早期層更像是"視覺感官"，晚期層更像是"語言理解中樞"，兩者的功能分工明確。

三、多階段去噪：讓生成過程像寫文章一樣"先立意再雕琢"

贊助商廣告

解決了特徵提取的問題，研究團隊還面臨另一個挑戰：如何把MLLM的語義理解能力和VAE的視覺細節保真能力有機結合，而不是讓兩者相互搶戲？

他們的答案是多階段去噪策略（Multi-stage Timestep-aware Denoising）。這個策略的靈感來自擴散模型本身的工作機制——擴散模型生成圖片時，是從一團隨機噪聲開始，一步一步"去噪"，逐漸浮現出圖片的輪廓、顏色，最終到精細的紋理細節。這個過程天然是"從粗到細"的，就像寫一篇文章，先確定主題和結構，再填充段落內容，最後打磨用詞。

研究團隊把這個去噪過程劃分為三個階段。第一階段是"立意期"（早期步驟，時間步t較大），此時圖片還是一團噪聲，最需要的是確定整體構圖和語義方向——"這張圖里有個背包，它在雪地里，旁邊有陽光"。這個階段完全由MLLM的特徵來引導，因為MLLM最擅長理解這種高層次的意圖。第二階段是"充實期"（中期步驟），圖片的大致輪廓已經出現，需要在保持語義正確的同時，開始引入背包的具體外觀細節——花紋、材質、顏色。這個階段MLLM和VAE同時發力，共同引導生成過程。第三階段是"雕琢期"（晚期步驟），圖片的整體已經成形，剩下的是精細化處理——背包的每一根縫線、每一處反光。這個階段完全交給VAE，因為它在捕捉這種低層次視覺細節上無人能及。

用數學語言描述，就是定義了兩個時間閾值τ?和τ?（在實驗中分別設為0.95和0.85），當時間步t≥τ?時只用MLLM，當τ?≤t

實驗證明，這套策略還給用戶帶來了額外的靈活性：提高閾值（比如τ?=0.97，τ?=0.90）會讓MLLM主導更長時間，生成圖片的背包細節更忠實於參考圖，但姿態變化較少；降低閾值（比如τ?=0.85，τ?=0.75）則會讓VAE更早介入，生成圖片更有創意、姿態變化更豐富，但背包的一些細節可能略有出入。用戶可以根據自己的需求自由調節，這種可控性在實際應用中非常有價值。

贊助商廣告

四、兩階段訓練：先學"看懂"，再學"畫細"

把MLLM和VAE的特徵同時送入圖片生成模型，還有一個隱患：VAE的特徵天生是為"重建圖片"優化的，資訊密度極高，一旦和MLLM的特徵同台競爭，模型很可能"偷懶"，直接依賴VAE提供的視覺資訊，而忽視MLLM的語義理解能力。結果是，MLLM在早期去噪步驟中根本沒能學會如何引導生成，等到晚期VAE再去"補救"，已經來不及了——圖片的整體構圖和語義方向在早期就已經跑偏，後面怎麼細化都無濟於事。

為了解決這個問題，研究團隊設計了兩階段訓練策略。第一階段先隱藏VAE，只用MLLM特徵來訓練整個系統，持續25,000步。這個階段的目標是讓模型學會單獨依靠MLLM來完成"語義理解+初步身份識別"的任務。經過這個階段，MLLM已經發展出足夠強的身份保真能力，能夠在早期去噪步驟中正確設定圖片的方向和主題。第二階段再引入VAE，聯合訓練所有組件，持續10,000步，讓模型學會把MLLM的高層理解和VAE的低層細節有機配合。

訓練在8塊英偉達多倫多大學與Adobe聯手攻克AI作畫的複印機難題讓大模型真正讀懂你的參考圖 H100 GPU上完成，學習率固定為1e-5。MLLM（InternVL3-8B）本身的權重在訓練中是凍結的，只有接入擴散模型（FLUX.1 dev）的適配層（LoRA，秩為512）在更新。這意味著整個系統的參數更新量相對可控，訓練效率較高。

消融實驗清楚地驗證了這個設計的必要性。如果直接把兩個信號源放在一起從頭訓練（單階段訓練），不論是否開啟多階段去噪，效果都明顯劣於兩階段訓練方案：DINO-I指標（衡量圖片身份相似度的主要指標）從0.7482下降到0.7184，甚至在單階段+多階段去噪的配置下進一步跌落至0.5763。這個數字差異背後，是生成圖片中背包的花紋變得模糊、顏色發生漂移的視覺劣化。

五、實驗驗證：數字和圖片都說話

研究團隊在DreamBench這個業內標準測試集上進行了系統評估，同時還額外測試了XVerseBench和多主體測試集LAMICBench。

贊助商廣告

在DreamBench上，標準評估指標包括三個維度：DINO-I（用DINO特徵衡量生成圖片與參考圖的主體相似度）、CLIP-I（用CLIP特徵衡量視覺相似度）、CLIP-T（衡量圖片與文字描述的匹配程度）。這套指標可以簡單理解為：DINO-I和CLIP-I測的是"背包畫得像不像"，CLIP-T測的是"有沒有放到雪地里"。

論文的完整結果表格顯示，只使用MLLM特徵（不加VAE）的版本，DINO-I為0.6788，CLIP-I為0.8228，CLIP-T為0.2988，已經與同樣使用公開數據集訓練的UNO系統（DINO-I=0.6860，CLIP-I=0.8161，CLIP-T=0.3071）相當甚至在某些指標上略有超越。加入VAE的完整版本則進一步提升到DINO-I=0.7482，CLIP-I=0.8443，CLIP-T=0.3010，綜合性能與使用私有高質量數據集訓練的DreamO（DINO-I=0.7537）、USO（DINO-I=0.7478）、UMO（DINO-I=0.7481）等頂尖方案持平，而這些方案的數據優勢是本研究所不具備的。

為了量化"複印機"問題，研究團隊設計了一套新的評估指標。他們使用一個叫做Orient Anything的工具來估計參考圖和生成圖中主體的方位角和極角，然後計算兩者之間的平均差異——差異越大，說明生成的姿態越多樣，"複印機"問題越輕微。此外他們還提出了"召回率"（Recall@k°）指標：在生成的圖片中，有多大比例的主體與參考圖的朝向差異小於k°（這部分被認為是"複製"的）。論文中報告的是k分別取5°、10°、15°、20°時的平均召回率，數值越低越好。

結果是：研究團隊的方案在方位角差異上達到25.7°，極角差異為10.4°，平均召回率為0.349，明顯優於DreamO（方位角22.1°，召回率0.372）、USO（方位角20.8°，召回率0.401）、Qwen-Image（方位角17.6°，召回率0.460）和OmniGen2（方位角22.6°，召回率0.486）。簡單說：在其他方案里，平均約有40%-48%的生成圖片與參考圖朝向幾乎一致；而在本方案中，這個比例降到了35%，主體展現出了更豐富的姿態變化。

為了評估多模態推理能力，研究團隊還專門構建了一個包含350個樣本的測試集，設計了一批需要跨模態概念綁定的複雜指令。比如，參考圖是一隻戴帽子的貓，但指令說"一隻狗戴著帽子"——正確的生成結果應該是生成一隻狗，並把帽子戴在狗身上，而不是生成一隻貓（只看圖）或生成一隻不戴帽子的狗（只看文字）。在這個測試集上，本方案的CLIP-T得分為0.3208，明顯高於UNO（0.2851）、DreamO（0.2888）和Qwen-Image（0.3099）。

贊助商廣告

人工評估方面，研究團隊在DreamBench++測試集上引入了七種不同架構和規模的大語言模型評分，包括GPT-4o、Gemma 3 27B、Gemini 2.5 Flash、Gemini 3 Flash、Qwen3-VL-30B、Qwen3-VL-235B和Mistral Small 3.2-24B，對生成圖片在形狀、顏色、紋理、面部特徵等維度的保真度進行0-4分的綜合評定。七個評估模型的平均分中，本方案達到3.010，高於DreamO的2.838、USO的2.800和UNO的2.539。

用戶調研方面，30名志願者對從DreamBench和XVerseBench隨機抽取的10個樣本進行1-10分的主觀評分，共收集1,500票。結果顯示本方案平均得分7.26，高於USO（6.74）、DreamO（6.31）、XVerse（5.75）和UMO（6.02）。

六、深挖細節：那些讓研究更紮實的補充實驗

論文的附錄部分包含了大量額外的實驗分析，值得單獨介紹，因為這些分析揭示了方法設計背後更深層的邏輯。

關於不同MLLM骨幹網路的魯棒性，研究團隊測試了InternVL3-2B、Qwen2.5-VL-3B和Qwen2.5-VL-7B三種替代方案。結果顯示各方案的性能差異不大，Qwen2.5-VL系列在文字跟隨上略有優勢但視覺理解稍弱，InternVL3-2B以明顯更少的參數量取得了與8B模型接近的結果，是性價比較高的輕量化替代方案。這說明DLA框架具有良好的通用性，不強依賴特定的MLLM架構。

關於推理時的層隱藏實驗，研究團隊在已訓練完成的模型上，逐組隱藏圖片LAP和文字LAP的不同層，觀察指標變化。實驗結果驗證了前面提到的層功能分區：隱藏圖片LAP的早期層（0-9層）導致DINO-I驟降0.14；隱藏圖片LAP的所有層（等於完全關掉圖片通道），DINO-I下跌0.33，圖片生成質量嚴重劣化。相比之下，隱藏文字LAP的晚期層只導致CLIP-T下降約0.05，模型能從其他層"找補"回來。有趣的是，當文字LAP被部分隱藏時，圖片LAP的DINO-I反而略有提升（0.01-0.08），這說明兩條通路在競爭計算資源，減少一方的"話語權"反而讓另一方發揮得更充分，進一步印證了DLA分離處理設計的合理性。

贊助商廣告

關於多主體生成的擴展實驗，研究團隊在公開的兩主體數據集MUSAR-Gen（不足3萬張圖片對）上進行了輕量級微調，然後測試多主體場景下的生成效果。結果表明，即便在如此有限的多主體數據條件下，本方案在多主體DreamBench樣本上的表現依然優於UNO、DreamO和UMO，尤其在主體身份分離和概念綁定準確性上表現突出——這正是MLLM語義理解能力的直接體現。

訓練數據的使用方面也值得一提：整個實驗只使用了公開數據集UNO-1M，經過MLLM質量篩選後保留約40萬個圖片對。相比之下，DreamO、USO等方案使用了私有的高質量數據集，這在業界被普遍認為是影響最終效果的重要因素。在此約束條件下，本方案仍能達到與之相當甚至更高的評分，說明方法本身的設計具有較強的數據效率。

說到底，這項研究做的事情，是給AI圖片生成這位"畫師"裝上了一對真正能讀懂意圖的眼睛，而不是只會翻拍參考圖的相機。通過讓MLLM的每一層都參與決策、讓文字和圖片特徵在專屬通道里各自發光、再用多階段去噪策略在創作過程中有序調度兩種資訊源，研究團隊找到了一條兼顧"理解複雜指令"與"忠實保留主體細節"的可行路徑。

這項技術離普通人的日常並不遙遠——電商賣家想生成產品在各種場景下的展示圖、設計師想對一個方案進行多角度的視覺探索、遊戲開發者想快速生成某個角色在不同場景中的表現，這些需求都會直接受益於"複印機"問題的改善。當然，研究本身也坦誠地指出了現有局限：MLLM的文字表示空間與擴散模型原本使用的T5文本編碼空間之間還存在對齊缺口，需要更大規模的文字-圖片數據和計算資源來補足；多主體生成的系統性研究也因為公開數據稀缺而未能充分展開。

不過研究團隊相信，隨著計算資源和數據條件的改善，MLLM驅動的圖片生成系統有望在文字跟隨能力上取得更大突破，甚至從根本上改變"AI畫師"與用戶意圖之間的協作方式。有興趣深入探索的讀者，可以通過arXiv編號2605.26111檢索完整論文，並訪問研究團隊的項目主頁了解更多視覺對比案例。

贊助商廣告

Q&A

Q1：copy-paste artifact（複印機問題）在AI圖片生成中具體是什麼表現？

A：這個問題指的是AI在根據參考圖生成新圖片時，傾向於直接複製參考圖中主體的姿態、角度和視覺細節，而不是根據文字指令創造性地調整。比如你給一張背包正面照，讓AI生成"背包在雪地里"，結果AI只是把那張正面照的背包貼到雪地背景上，背包的朝向和姿態與參考圖幾乎完全一致，缺乏真實感和創意變化。

Q2：雙層聚合器DLA為什麼要把文字特徵和圖片特徵分開處理，合併處理不行嗎？

A：研究團隊通過實驗發現，用單個聚合器同時處理文字和圖片特徵時，模型會在"圖片保真度"和"文字跟隨度"之間產生權衡矛盾，優化其中一個往往會削弱另一個。分析注意力分布圖後發現，文字內容和圖片內容在MLLM不同層上的活躍模式截然不同，說明兩者需要不同的層選策略。分開處理後，每個模組可以專注於自己最擅長的維度，兩者最終再合流進入擴散模型，效果明顯優於合併處理。

Q3：多階段去噪中的時間閾值τ?和τ?對生成結果有什麼影響，用戶可以自己調嗎？

A：可以調節，而且調節效果很直觀。提高兩個閾值（比如0.97和0.90），意味著MLLM主導的"語義期"更長，生成的主體外觀更忠實於參考圖，但姿態變化較少；降低閾值（比如0.85和0.75），VAE更早接管，生成圖片的創意姿態更多樣，但部分細節可能與參考圖有一定出入。研究團隊在論文中提供了不同參數配置下的對比圖，供用戶根據自己的需求進行調整，整體性能在合理參數範圍內保持穩定。