這項由多倫多大學、Vector研究院與Adobe公司聯合開展的研究,以預印本形式於2026年5月25日發布在arXiv平台,論文編號為arXiv:2605.26111v1。感興趣的讀者可通過該編號在arXiv官網上查閱完整論文。
你有沒有試過這樣一件事:把一張自己喜歡的背包照片發給AI,讓它幫你生成"這個背包放在雪地里"的圖片,結果AI給你的,是把那張原圖直接挪到雪地背景上——背包的角度、擺放方式,甚至光影細節,和參考圖幾乎一模一樣,像是用PS拼接出來的?這就是業內人士頭疼已久的"複印機問題",學術上叫做"copy-paste artifact",即AI生成時對參考圖的機械性複製。
這個問題的根源,在於現有的AI圖片生成技術通常把"文字描述"和"參考圖片"當成兩條平行的輸入線路分開處理,彼此之間缺乏真正的溝通與理解。文字走文字的路,圖片走圖片的路,兩者在最後關頭才被硬拼在一起。這就好比你讓兩個從未見過面的廚師——一個只負責看菜譜,一個只負責看食材——來合作做一道菜,他們各做各的,最終端上桌的東西往往貌合神離。
多倫多大學的研究團隊換了一種思路:與其讓文字和圖片各走各的路,不如請一個"通才大廚"——也就是多模態大語言模型(Multimodal Large Language Model,簡稱MLLM)——同時看菜譜和食材,在腦海中將兩者融合理解,再指揮圖片生成引擎去完成創作。這篇研究的核心貢獻,正是在於提出了一套讓MLLM與圖片生成擴散模型協同工作的完整方案,方案中包含一個名為"雙層聚合器"(Dual Layer Aggregation,簡稱DLA)的新模組,以及一套多階段去噪推理策略。實驗結果表明,這套方案在減少"複印機"問題的同時,還大幅提升了AI對複雜指令的理解能力。
一、為什麼AI總在"複印"參考圖,問題出在哪裡
回到那個廚師的比喻。傳統做法中,AI處理"參考圖"時,主要依賴一種叫做VAE(Variational Autoencoder,變分自編碼器)的工具。VAE的強項是忠實地記錄圖片的視覺細節——顏色、紋理、形狀,這些它都記得一清二楚。但它有個致命弱點:它不懂語言,也不懂上下文推理。當你說"背包放在雪地里,周圍有陽光",VAE無法真正理解"陽光"這個詞意味著背包應該從雪地上投下一道陰影,意味著背包表面的反光應該變強,意味著整體色調應該偏暖。它只知道"這裡有個背包,把它挪過去"。
與此同時,近年來崛起的MLLM——比如你可能聽說過的GPT-4o、Claude、Gemini這類"能看圖又能聊天"的大模型——擁有很強的跨模態理解能力。它們能同時讀懂圖片和文字,能把"戴眼鏡的狗"這個概念正確拆解為"一隻狗"加上"一副眼鏡戴在它臉上",而不會把眼鏡貼到背景牆上。這種理解能力,正是解決"複印機"問題的關鍵。
然而,直接把MLLM接進圖片生成流程並不是一件簡單的事。已經有一些團隊嘗試過,比如DreamEngine、Qwen-Image、EasyRef等系統,它們把MLLM的輸出接入擴散模型(一種主流的圖片生成框架)。但這些方案大多只使用MLLM最後一層的特徵——相當於只聽大廚最後的總結意見,而忽略了他在烹飪過程中每一步積累的細節判斷。結果是文字理解好了一些,但圖像的細節保真度——也就是"這個背包到底長什麼樣"——卻變差了。
這個矛盾揭示了一個深層問題:MLLM在處理圖片時,越是深層(靠後)的神經網路層,越傾向於保留高層次的語義資訊("這是個背包"),而越是淺層(靠前)的層,越傾向於保留低層次的視覺細節("背包上有這種花紋、這種縫線")。如果只取最後一層,細節就丟了;如果只取前幾層,語義理解又不夠。這就像一部小說,只讀最後一頁的總結,你知道大意,但錯過了所有精彩的人物細節;只讀前幾頁,你知道人物長什麼樣,卻不知道故事走向。
二、雙層聚合器:讓大模型的每一層"心聲"都被聽見
研究團隊設計的DLA模組,核心思想是"把每一層都納入考量,但文字和圖片要分開處理"。
先說"把每一層都納入考量"這部分。DLA的基礎單元叫做LAP(Layerwise Attention Pooling,逐層注意力池化)。它的工作原理可以用一個投票機制來理解:MLLM有28層神經網路,每一層對同一張參考圖都有自己的"看法"——淺層說"我看到了紅色斜紋布料",中層說"我看到了一個有拉鏈的袋子",深層說"這是個登山背包"。LAP模組會給這28層的"看法"各自分配一個權重,然後加權綜合成一個統一的表達,送進圖片生成引擎。這個權重本身也是通過訓練學出來的,所以模型會自動學會"在這個任務里,哪幾層的意見最值得參考"。
但研究團隊很快發現,一個LAP模組同時處理文字特徵和圖片特徵時,會出現相互干擾的問題。實驗中他們畫出了這個矛盾:單個LAP訓練過程中,模型要麼在圖片保真度上表現好,要麼在文字跟隨度上表現好,兩者很難同時達到峰值,就像天平的兩端,壓低一頭另一頭就翹起來。進一步分析注意力分布圖可以發現,文字內容和圖片內容在不同層上的活躍模式截然不同——它們需要兩套不同的"層選策略"。
於是雙層聚合器(DLA)應運而生:兩個獨立的LAP模組,一個專門處理文字特徵,一個專門處理圖片特徵。文字LAP專注於"這段話的語義在哪幾層最完整",圖片LAP專注於"這張參考圖的視覺細節在哪幾層最清晰"。兩者互不干擾,各司其職。
這裡有個容易被忽視的妙處:雖然兩個LAP分開處理,但並不意味著文字和圖片資訊完全隔離。MLLM本身在處理輸入時,已經讓文字和圖片的資訊在各層之間相互滲透——圖片的token(資訊單元)已經吸收了文字的語境,文字的token也已經受到了圖片內容的影響。所以DLA的兩個分支處理的,其實是已經"互相了解過"的文字特徵和圖片特徵,不需要再做額外的跨模態融合。這個設計既高效,又避免了重複勞動。
在實驗中,研究團隊對InternVL3-8B這個MLLM的28層進行了系統分析,把它們分為早期層(0-9層)、中期層(10-19層)和晚期層(20-28層)三組,逐一測試不同層組合的效果。結果發現,對圖片特徵而言,早期層尤為關鍵——一旦隱藏早期層,圖片保真度(DINO-I指標)會急劇下降,幅度高達0.14到0.26分;而對文字特徵而言,晚期層更為重要,但即便隱藏晚期層,模型依然能從其他層中召回足夠的語義資訊,下降幅度相對有限。這個發現與直覺一致:MLLM的早期層更像是"視覺感官",晚期層更像是"語言理解中樞",兩者的功能分工明確。
三、多階段去噪:讓生成過程像寫文章一樣"先立意再雕琢"
解決了特徵提取的問題,研究團隊還面臨另一個挑戰:如何把MLLM的語義理解能力和VAE的視覺細節保真能力有機結合,而不是讓兩者相互搶戲?
他們的答案是多階段去噪策略(Multi-stage Timestep-aware Denoising)。這個策略的靈感來自擴散模型本身的工作機制——擴散模型生成圖片時,是從一團隨機噪聲開始,一步一步"去噪",逐漸浮現出圖片的輪廓、顏色,最終到精細的紋理細節。這個過程天然是"從粗到細"的,就像寫一篇文章,先確定主題和結構,再填充段落內容,最後打磨用詞。
研究團隊把這個去噪過程劃分為三個階段。第一階段是"立意期"(早期步驟,時間步t較大),此時圖片還是一團噪聲,最需要的是確定整體構圖和語義方向——"這張圖里有個背包,它在雪地里,旁邊有陽光"。這個階段完全由MLLM的特徵來引導,因為MLLM最擅長理解這種高層次的意圖。第二階段是"充實期"(中期步驟),圖片的大致輪廓已經出現,需要在保持語義正確的同時,開始引入背包的具體外觀細節——花紋、材質、顏色。這個階段MLLM和VAE同時發力,共同引導生成過程。第三階段是"雕琢期"(晚期步驟),圖片的整體已經成形,剩下的是精細化處理——背包的每一根縫線、每一處反光。這個階段完全交給VAE,因為它在捕捉這種低層次視覺細節上無人能及。
用數學語言描述,就是定義了兩個時間閾值τ?和τ?(在實驗中分別設為0.95和0.85),當時間步t≥τ?時只用MLLM,當τ?≤t
實驗證明,這套策略還給用戶帶來了額外的靈活性:提高閾值(比如τ?=0.97,τ?=0.90)會讓MLLM主導更長時間,生成圖片的背包細節更忠實於參考圖,但姿態變化較少;降低閾值(比如τ?=0.85,τ?=0.75)則會讓VAE更早介入,生成圖片更有創意、姿態變化更豐富,但背包的一些細節可能略有出入。用戶可以根據自己的需求自由調節,這種可控性在實際應用中非常有價值。
四、兩階段訓練:先學"看懂",再學"畫細"
把MLLM和VAE的特徵同時送入圖片生成模型,還有一個隱患:VAE的特徵天生是為"重建圖片"優化的,資訊密度極高,一旦和MLLM的特徵同台競爭,模型很可能"偷懶",直接依賴VAE提供的視覺資訊,而忽視MLLM的語義理解能力。結果是,MLLM在早期去噪步驟中根本沒能學會如何引導生成,等到晚期VAE再去"補救",已經來不及了——圖片的整體構圖和語義方向在早期就已經跑偏,後面怎麼細化都無濟於事。
為了解決這個問題,研究團隊設計了兩階段訓練策略。第一階段先隱藏VAE,只用MLLM特徵來訓練整個系統,持續25,000步。這個階段的目標是讓模型學會單獨依靠MLLM來完成"語義理解+初步身份識別"的任務。經過這個階段,MLLM已經發展出足夠強的身份保真能力,能夠在早期去噪步驟中正確設定圖片的方向和主題。第二階段再引入VAE,聯合訓練所有組件,持續10,000步,讓模型學會把MLLM的高層理解和VAE的低層細節有機配合。
訓練在8塊英偉達
H100 GPU上完成,學習率固定為1e-5。MLLM(InternVL3-8B)本身的權重在訓練中是凍結的,只有接入擴散模型(FLUX.1 dev)的適配層(LoRA,秩為512)在更新。這意味著整個系統的參數更新量相對可控,訓練效率較高。
消融實驗清楚地驗證了這個設計的必要性。如果直接把兩個信號源放在一起從頭訓練(單階段訓練),不論是否開啟多階段去噪,效果都明顯劣於兩階段訓練方案:DINO-I指標(衡量圖片身份相似度的主要指標)從0.7482下降到0.7184,甚至在單階段+多階段去噪的配置下進一步跌落至0.5763。這個數字差異背後,是生成圖片中背包的花紋變得模糊、顏色發生漂移的視覺劣化。
五、實驗驗證:數字和圖片都說話
研究團隊在DreamBench這個業內標準測試集上進行了系統評估,同時還額外測試了XVerseBench和多主體測試集LAMICBench。
在DreamBench上,標準評估指標包括三個維度:DINO-I(用DINO特徵衡量生成圖片與參考圖的主體相似度)、CLIP-I(用CLIP特徵衡量視覺相似度)、CLIP-T(衡量圖片與文字描述的匹配程度)。這套指標可以簡單理解為:DINO-I和CLIP-I測的是"背包畫得像不像",CLIP-T測的是"有沒有放到雪地里"。
論文的完整結果表格顯示,只使用MLLM特徵(不加VAE)的版本,DINO-I為0.6788,CLIP-I為0.8228,CLIP-T為0.2988,已經與同樣使用公開數據集訓練的UNO系統(DINO-I=0.6860,CLIP-I=0.8161,CLIP-T=0.3071)相當甚至在某些指標上略有超越。加入VAE的完整版本則進一步提升到DINO-I=0.7482,CLIP-I=0.8443,CLIP-T=0.3010,綜合性能與使用私有高質量數據集訓練的DreamO(DINO-I=0.7537)、USO(DINO-I=0.7478)、UMO(DINO-I=0.7481)等頂尖方案持平,而這些方案的數據優勢是本研究所不具備的。
為了量化"複印機"問題,研究團隊設計了一套新的評估指標。他們使用一個叫做Orient Anything的工具來估計參考圖和生成圖中主體的方位角和極角,然後計算兩者之間的平均差異——差異越大,說明生成的姿態越多樣,"複印機"問題越輕微。此外他們還提出了"召回率"(Recall@k°)指標:在生成的圖片中,有多大比例的主體與參考圖的朝向差異小於k°(這部分被認為是"複製"的)。論文中報告的是k分別取5°、10°、15°、20°時的平均召回率,數值越低越好。
結果是:研究團隊的方案在方位角差異上達到25.7°,極角差異為10.4°,平均召回率為0.349,明顯優於DreamO(方位角22.1°,召回率0.372)、USO(方位角20.8°,召回率0.401)、Qwen-Image(方位角17.6°,召回率0.460)和OmniGen2(方位角22.6°,召回率0.486)。簡單說:在其他方案里,平均約有40%-48%的生成圖片與參考圖朝向幾乎一致;而在本方案中,這個比例降到了35%,主體展現出了更豐富的姿態變化。
為了評估多模態推理能力,研究團隊還專門構建了一個包含350個樣本的測試集,設計了一批需要跨模態概念綁定的複雜指令。比如,參考圖是一隻戴帽子的貓,但指令說"一隻狗戴著帽子"——正確的生成結果應該是生成一隻狗,並把帽子戴在狗身上,而不是生成一隻貓(只看圖)或生成一隻不戴帽子的狗(只看文字)。在這個測試集上,本方案的CLIP-T得分為0.3208,明顯高於UNO(0.2851)、DreamO(0.2888)和Qwen-Image(0.3099)。
人工評估方面,研究團隊在DreamBench++測試集上引入了七種不同架構和規模的大語言模型評分,包括GPT-4o、Gemma 3 27B、Gemini 2.5 Flash、Gemini 3 Flash、Qwen3-VL-30B、Qwen3-VL-235B和Mistral Small 3.2-24B,對生成圖片在形狀、顏色、紋理、面部特徵等維度的保真度進行0-4分的綜合評定。七個評估模型的平均分中,本方案達到3.010,高於DreamO的2.838、USO的2.800和UNO的2.539。
用戶調研方面,30名志願者對從DreamBench和XVerseBench隨機抽取的10個樣本進行1-10分的主觀評分,共收集1,500票。結果顯示本方案平均得分7.26,高於USO(6.74)、DreamO(6.31)、XVerse(5.75)和UMO(6.02)。
六、深挖細節:那些讓研究更紮實的補充實驗
論文的附錄部分包含了大量額外的實驗分析,值得單獨介紹,因為這些分析揭示了方法設計背後更深層的邏輯。
關於不同MLLM骨幹網路的魯棒性,研究團隊測試了InternVL3-2B、Qwen2.5-VL-3B和Qwen2.5-VL-7B三種替代方案。結果顯示各方案的性能差異不大,Qwen2.5-VL系列在文字跟隨上略有優勢但視覺理解稍弱,InternVL3-2B以明顯更少的參數量取得了與8B模型接近的結果,是性價比較高的輕量化替代方案。這說明DLA框架具有良好的通用性,不強依賴特定的MLLM架構。
關於推理時的層隱藏實驗,研究團隊在已訓練完成的模型上,逐組隱藏圖片LAP和文字LAP的不同層,觀察指標變化。實驗結果驗證了前面提到的層功能分區:隱藏圖片LAP的早期層(0-9層)導致DINO-I驟降0.14;隱藏圖片LAP的所有層(等於完全關掉圖片通道),DINO-I下跌0.33,圖片生成質量嚴重劣化。相比之下,隱藏文字LAP的晚期層只導致CLIP-T下降約0.05,模型能從其他層"找補"回來。有趣的是,當文字LAP被部分隱藏時,圖片LAP的DINO-I反而略有提升(0.01-0.08),這說明兩條通路在競爭計算資源,減少一方的"話語權"反而讓另一方發揮得更充分,進一步印證了DLA分離處理設計的合理性。
關於多主體生成的擴展實驗,研究團隊在公開的兩主體數據集MUSAR-Gen(不足3萬張圖片對)上進行了輕量級微調,然後測試多主體場景下的生成效果。結果表明,即便在如此有限的多主體數據條件下,本方案在多主體DreamBench樣本上的表現依然優於UNO、DreamO和UMO,尤其在主體身份分離和概念綁定準確性上表現突出——這正是MLLM語義理解能力的直接體現。
訓練數據的使用方面也值得一提:整個實驗只使用了公開數據集UNO-1M,經過MLLM質量篩選後保留約40萬個圖片對。相比之下,DreamO、USO等方案使用了私有的高質量數據集,這在業界被普遍認為是影響最終效果的重要因素。在此約束條件下,本方案仍能達到與之相當甚至更高的評分,說明方法本身的設計具有較強的數據效率。
說到底,這項研究做的事情,是給AI圖片生成這位"畫師"裝上了一對真正能讀懂意圖的眼睛,而不是只會翻拍參考圖的相機。通過讓MLLM的每一層都參與決策、讓文字和圖片特徵在專屬通道里各自發光、再用多階段去噪策略在創作過程中有序調度兩種資訊源,研究團隊找到了一條兼顧"理解複雜指令"與"忠實保留主體細節"的可行路徑。
這項技術離普通人的日常並不遙遠——電商賣家想生成產品在各種場景下的展示圖、設計師想對一個方案進行多角度的視覺探索、遊戲開發者想快速生成某個角色在不同場景中的表現,這些需求都會直接受益於"複印機"問題的改善。當然,研究本身也坦誠地指出了現有局限:MLLM的文字表示空間與擴散模型原本使用的T5文本編碼空間之間還存在對齊缺口,需要更大規模的文字-圖片數據和計算資源來補足;多主體生成的系統性研究也因為公開數據稀缺而未能充分展開。
不過研究團隊相信,隨著計算資源和數據條件的改善,MLLM驅動的圖片生成系統有望在文字跟隨能力上取得更大突破,甚至從根本上改變"AI畫師"與用戶意圖之間的協作方式。有興趣深入探索的讀者,可以通過arXiv編號2605.26111檢索完整論文,並訪問研究團隊的項目主頁了解更多視覺對比案例。
Q&A
Q1:copy-paste artifact(複印機問題)在AI圖片生成中具體是什麼表現?
A:這個問題指的是AI在根據參考圖生成新圖片時,傾向於直接複製參考圖中主體的姿態、角度和視覺細節,而不是根據文字指令創造性地調整。比如你給一張背包正面照,讓AI生成"背包在雪地里",結果AI只是把那張正面照的背包貼到雪地背景上,背包的朝向和姿態與參考圖幾乎完全一致,缺乏真實感和創意變化。
Q2:雙層聚合器DLA為什麼要把文字特徵和圖片特徵分開處理,合併處理不行嗎?
A:研究團隊通過實驗發現,用單個聚合器同時處理文字和圖片特徵時,模型會在"圖片保真度"和"文字跟隨度"之間產生權衡矛盾,優化其中一個往往會削弱另一個。分析注意力分布圖後發現,文字內容和圖片內容在MLLM不同層上的活躍模式截然不同,說明兩者需要不同的層選策略。分開處理後,每個模組可以專注於自己最擅長的維度,兩者最終再合流進入擴散模型,效果明顯優於合併處理。
Q3:多階段去噪中的時間閾值τ?和τ?對生成結果有什麼影響,用戶可以自己調嗎?
A:可以調節,而且調節效果很直觀。提高兩個閾值(比如0.97和0.90),意味著MLLM主導的"語義期"更長,生成的主體外觀更忠實於參考圖,但姿態變化較少;降低閾值(比如0.85和0.75),VAE更早接管,生成圖片的創意姿態更多樣,但部分細節可能與參考圖有一定出入。研究團隊在論文中提供了不同參數配置下的對比圖,供用戶根據自己的需求進行調整,整體性能在合理參數範圍內保持穩定。






