這項由香港科技大學與微眾銀行聯合開展的研究,以預印本形式發布於2026年5月,論文編號為arXiv:2605.15167,感興趣的讀者可以通過該編號在arXiv平台查閱完整原文。
你有沒有想過,用完全憑空捏造出來的"假圖片"去訓練一個AI,結果它的表現居然比用精心收集的真實數據訓練出來的版本還要好?這聽起來像是在作弊,或者至少像是某種走捷徑的僥倖,但香港科技大學的研究團隊用紮實的實驗告訴我們:這件事是真的,而且背後有很清晰的道理。
研究的出發點,來自一個每天都在發生卻容易被忽視的困境。當你用Adobe Photoshop製作一張海報,或者用PowerPoint拼出一頁幻燈片,你的工作過程是分層的——背景是一層,人物圖片是一層,文字標題又是另一層,每一層都可以單獨移動、修改和替換。然而,當你把這個作品導出成一張JPG或PNG圖片,所有這些層就被壓扁、融合成了一張平面圖像,再也分不開了。就好像你花了好幾個小時做了一份精美的千層蛋糕,結果把它塞進一台榨汁機,出來的就只有一杯混合液體,每一層的獨立性都消失了。
這個"壓扁"問題在AI生成圖像大行其道的今天變得越來越棘手。各種AI工具能夠輕鬆生成漂亮的廣告圖、社交媒體配圖和設計作品,但這些生成物同樣是壓扁的、無法分層編輯的。假如你想把AI生成的海報里的背景換掉,或者調整其中一塊文字的位置,往往需要從頭重做,或者依賴那些效果並不穩定的生成式編輯工具,一不小心就會破壞旁邊不想動的部分。研究團隊把這個難題稱為"最後一公里"問題——AI的生成能力已經很強了,但從生成結果到真正可編輯的設計文件,中間這最後一公里的路依然崎嶇難走。
解決這個問題的思路,是訓練一個能夠"逆向操作榨汁機"的AI模型——給它一張壓扁的圖片,讓它自動還原出原本的各個獨立圖層,每一層都是帶有透明通道的RGBA格式,可以單獨提取和編輯。這個任務被稱為"圖層分解",聽起來很酷,但訓練這樣一個模型需要大量的標註數據:你得告訴模型,這張圖里哪一塊是背景層,哪一塊是前景人物層,哪一塊是文字層,以及每一層的精確邊界在哪裡。
問題就卡在這裡了。這類數據極其稀缺。真正分好層的平面設計文件通常保存在設計師的私有電腦里,或者鎖在公司的內部系統中,公開數據集少得可憐。目前學界常用的幾個數據集,比如Crello大約只有2.3萬個樣本,另一個叫做PrismLayersPro的數據集也只有2萬個樣本,而且後者還是"半合成"的——布局框架來自真實設計文件,但裡面的視覺內容是AI生成的。相比之下,訓練文字生成圖像的大型模型動輒需要幾十億張圖片,這個量級的差距實在太懸殊了。
於是研究團隊提出了一個大膽的方案:既然真實數據收集不來,就乾脆自己造一個完全合成的數據集,叫做SynLayers,然後用它來訓練模型,看看效果究竟怎麼樣。這個想法的核心賭注是:平面設計的圖層分解,可能並不像自然照片的圖層分離那麼複雜,因為設計元素本來就是被人為安排成模組化、相互獨立的組件,不像真實場景里的物體會有複雜的光影融合和遮擋關係,所以合成數據有可能足夠接近真實情況。
一、從零搭建一個"圖片工廠"——SynLayers數據集是怎麼造出來的
造假圖不是隨便找幾張圖片拼在一起那麼簡單。研究團隊為SynLayers設計了一條精心規劃的流水線,整個過程就像是在經營一家專業的圖片拼貼工廠,每道工序都有嚴格的質檢標準。
工廠的原材料來自多個渠道。首先,團隊使用了PrismLayersPro數據集中的設計樣本作為"底板",從中保留背景層和部分前景元素,確保合成圖片具有基本的設計感和結構合理性。在這個底板之上,他們還會從其他設計樣本中抽取額外的前景元素,把不同來源的設計零件混搭在一起,增加視覺多樣性。
除了這些設計素材,工廠還會按照一定概率往畫布上添加三類輔助元素。有60%的概率,流水線會從LAION這個龐大的開源圖文數據集中裁取一張圖片,縮放到畫布面積的30%到40%大小,貼進來充當前景物體。有35%的概率,流水線會渲染一個文字圖層,大小占畫布的60%到80%,並通過分析圖層的透明通道來精確確定文字的實際邊界框。還有一定概率,流水線會用一個叫AlphaVAE的工具生成帶透明背景的前景物體,每張圖最多加三個這樣的物體。
把這些元素往畫布上擺放,不是隨便找個地方扔進去,而是有一套專門設計的"最小重疊算法"。對於每個待放置的圖層,程序會隨機採樣多達300個候選位置,然後選出與已有圖層重疊面積最小的那個位置。如果存在完全不重疊的候選位置,就優先選它;實在沒法完全避開,就選重疊最少的那個。這個設計的目的是讓每個圖層都儘可能清晰可辨,避免圖層之間互相遮擋得太厲害,讓模型難以學習。
光有合理的布局還不夠,每張合成圖片還需要配上一段文字描述,因為用於訓練的基礎模型在生成圖層時需要文字指令來理解每個圖層是什麼內容。團隊採用了一個兩步走的方案來生成這些描述。第一步,他們把畫布劃分成3×3的九宮格,按照閱讀順序從左到右、從上到下遍歷每個格子,把每個格子裡的圖層位置和內容拼接成一段原始說明,比如"左上角:文字;中心:貨車;右下角:棕櫚樹"。這段原始描述很流水賬,邏輯散亂,讀起來生硬。第二步,他們用一個視覺語言模型(Qwen2.5-VL-3B)對這段描述進行潤色,結合實際的合成圖片,把原始說明改寫成100到140個詞的流暢段落,前40個詞提供整體概覽,後面60到100個詞詳述各個圖層的細節和畫面中可見的文字內容。最終輸出的描述既自然可讀,又包含了模型訓練所需的精確內容資訊。
整個工廠運行在1024×1024像素的畫布上,用了64個並行進程來提速,最終生產出了50萬張帶有完整圖層標註的合成設計圖片。這個體量,比現有的任何公開平面設計圖層數據集都要大出幾十倍。
二、讓模型學會"自動解謎"——自動化推理輸入的生成
訓練好的模型在實際使用時還面臨一個工程問題:它需要用戶告訴它每張圖里大概有哪些圖層、每個圖層大致在哪裡(也就是邊界框),才能開始工作。在學術實驗裡,這些資訊可以直接從數據集的標註里取用,但現實中拿到一張不認識的圖片,你總不能要求用戶先手工畫好所有邊界框再提交吧。
為了解決這個自動化問題,研究團隊訓練了一個額外的視覺語言模型來擔任"前置偵察員"的角色。這個偵察員的任務是看著一張輸入圖片,自動輸出兩件事:一段描述整體畫面的文字說明,以及畫面中每個可見圖層的邊界框坐標。訓練數據正好可以從SynLayers里直接取用,每張合成圖片都已經有了完整的描述文字和圖層坐標,把它們格式化成對話指令格式,就能用來微調模型。
具體用的是阿里巴巴開源的Qwen3-VL-8B-Instruct模型,通過一種叫做LoRA的參數高效微調方法進行訓練,只在原模型基礎上增加了少量額外參數,訓練成本比從頭訓練低得多。訓練過程在4塊英偉達
H20 GPU上進行,整個超參數配置包括:LoRA的秩設為8,學習率1.5×10??,使用餘弦學習率調度,訓練3輪,輸入圖像解析度1024×1024,批次大小64。
訓練完成後,這個偵察員模型的表現相當不錯。在200張測試圖片上,它識別圖層位置的精確率達到91.26%,召回率82.34%,F1分數86.57%(這三個指標綜合衡量"找得準不準、找得全不全")。更值得一提的是,對於那些成功找到的圖層,它定位的準確性非常高——平均中心點誤差只有3.66像素(在1024像素寬的畫布上,相當於0.0025的相對誤差),幾乎精確到位。
圖片描述的質量同樣過得去。研究團隊用GPT-4.1作為評判官,對200個預測描述評分,總分100分,平均得了80.77分。描述在覆蓋畫面主要內容(4.34/5分)、與參考描述對齊(4.28/5分)和語言流暢性(4.975/5分)方面表現優秀,主要扣分點是對畫面中可見文字的轉錄準確性(3.46/5分),有時會把文字抄錯或者自己添加一些不存在的細節。
三、真刀真槍地比一比——合成數據到底管不管用
有了數據集和自動化輸入生成器,研究團隊終於可以回答那個最核心的問題了:用純合成數據訓練出來的模型,能打敗用真實/半真實數據訓練出來的競爭對手嗎?
基礎框架選用了目前最先進的圖層分解方法CLD(可控圖層分解模型),它本身建立在一個叫FLUX.1[dev]的高質量圖像生成模型之上,通過LoRA微調的方式來學習圖層分解任務。所有參與比較的模型都用完全一樣的訓練設置,唯一的變量就是訓練數據來源,這樣得出的性能差異才能真正反映數據質量的影響。
最直接的那場對比是這樣的:用18000張PrismLayersPro半合成數據訓練一個模型,同時用18000張SynLayers純合成數據訓練另一個模型,然後在同一個測試集上比較結果。測試指標分三類:圖層質量(PSNR越高越好,FID越低越好,SSIM越高越好)、布局準確性(IoU交並比、精確率、召回率、F1分數)、合成圖像質量(同樣用PSNR、SSIM、FID)。
結果是:SynLayers版本全面勝出或持平。圖層PSNR從26.22提升到了27.23,合成SSIM從0.944提升到了0.950,圖層FID從6.62降到了6.18,合成FID從12.50降到了13.21。布局指標方面,Mask IoU從0.910提升到了0.919,F1從0.948提升到了0.954。這些提升幅度雖然看起來不大,但在這個領域內是有實質意義的改進,而且是在數據量完全相同的條件下實現的。
這個結果從直覺上來說可能讓人費解:憑空捏造出來的圖片,怎麼能比有真實設計基礎的圖片訓練效果更好?研究團隊的解釋是,平面設計本身就是一種高度模組化、元素相互獨立的創作形式——設計師本來就把每個元素當作一個獨立的組件來對待,不像自然照片裡的物體會有複雜的光影融合。因此合成數據在模擬這種"獨立性"上並不會有本質性的失真,同時合成數據在分布的多樣性和圖層邊界的清晰度上反而可能優於真實數據。
除了與PrismLayersPro的對比,研究團隊還把SynLayers版本與另一個競爭對手Qwen-Image-Layered進行了比較。這個對手是一個更重型的擴散模型方案,圖層級別的PSNR只有13.80,FID高達198.34,與SynLayers版本的27.16和5.97相比差距懸殊。問題出在Qwen-Image-Layered的工作方式上:它需要預先告訴它要生成多少個圖層,而且傾向於把一個語義元素拆分成多個碎片,造成嚴重的過分割問題。即便給它餵正確的圖層數量作為提示,它也難以產生有意義的分解結果。相比之下,基於CLD框架、由自動偵察員模型提供輸入的方案在靈活性和準確性上都有明顯優勢。
四、數據越多,效果就越好嗎?——關於規模縮放的反直覺發現
科學界有一個廣為人知的"規模定律":對於語言模型和圖像模型來說,訓練數據越多,模型性能就越好,而且這種改善往往是穩定可預期的。研究團隊自然也想驗證:在圖層分解這個任務上,把SynLayers的規模從1千張擴大到50萬張,模型會不會持續變強?
答案是:不完全是這樣。實驗結果呈現出一種"先漲後平"甚至"先漲後波動"的模式,而不是單調上升的直線。從1千張擴展到18千張這個區間,性能提升明顯且穩定,幾乎每增加一批數據都能帶來可見的改善。但跨過某個門檻之後,繼續加數據的收益開始遞減,甚至某些指標會出現小幅下滑。具體來看,圖層FID在20千張時達到最低點5.97,合成FID在30千張時達到最低點10.35,此後兩個指標都在這個水平附近波動,擴大到10萬、50萬張並沒有進一步降低。
從500K規模模型的訓練曲線來看,這個過程分兩個階段。前期(約從10K步到40K步檢查點),合成PSNR從29.24急劇攀升到30.89,同期FID也快速下降,這說明模型在快速吸收數據中的有效資訊。進入後期,這兩項指標都穩定下來,FID甚至在50K步附近出現了短暫的反彈,升到18.25,隨後又緩慢回落,在20到22附近波動。研究團隊把40K到60K步這個窗口定義為"最優權衡區",既保證了圖像重建質量,又維持了分布層面的真實感。
這個"約在50K樣本時開始飽和"的結論,對實際應用有很實用的指導意義。它告訴我們:如果你想用SynLayers這類合成數據訓練圖層分解模型,大約5萬張圖片就夠了,再多也不會有顯著收益,可以把更多資源投入到數據質量或模型架構的優化上,而不是無限堆數據量。
五、合成數據的隱形優勢——平衡圖層數量的分布
研究團隊還發現了合成數據相對於真實數據的另一個優勢,這個優勢比較低調,但在實際應用中相當重要:合成數據可以精確控制不同圖層數量的樣本比例,而真實數據集往往嚴重失衡。
回頭看PrismLayersPro的數據分布:在18千張訓練樣本里,圖層數在6到10之間的樣本有8923張,而圖層數在16到20之間的只有959張,21到25之間的只有249張,26層以上的更是只有126張。也就是說,複雜設計(圖層多的情況)在訓練數據里嚴重欠代表,模型在面對高複雜度任務時自然表現較差。
SynLayers通過程序化生成,可以人為控制各個複雜度區間的樣本量,讓分布更均勻一些。實驗結果證實了這個優勢:把測試集按圖層數量分成四個區間(1到7層、8到9層、10到12層、13到35層),分別比較SynLayers版本和PrismLayersPro版本的表現,SynLayers版本在所有四個區間都持平或領先,尤其是在最複雜的13到35層區間,Mask IoU從0.901提升到了0.910,合成PSNR從29.48提升到了30.25。這說明合成數據不僅整體上更好,對於困難案例的幫助尤為突出。
在真實世界場景的泛化能力測試上,研究團隊還準備了一個包含147張圖片的"分布外"測試集——這些是真實的平面設計圖片,來源和風格跟訓練數據完全不同,而且沒有圖層級別的標註,所以只能測試合成圖像的質量。在完全由自動偵察員模型生成輸入的條件下,SynLayers版本的PSNR從28.74提升到29.35,FID從44.23大幅降低到35.40,而Qwen-Image-Layered在這個測試集上的FID急劇飆升到64.30,顯示出在真實世界場景中的脆弱性。
從視覺效果來看,SynLayers版本在字體分解上尤為清晰——"Merry Christmas"這樣的藝術字層,字符邊界更乾淨,筆畫細節更清晰;前景物體的邊緣也更準確,出現在字母內部的"藍色斑塊"這類偽影更少。在複雜的真實海報(如電影宣傳物料和活動資訊圖)上,對人物頭部、複雜背景和疊加文字的分解質量也明顯優於對比方法。
說到底,這項來自香港科技大學與微眾銀行的研究,用一系列嚴格的實驗回答了一個看起來有點顛覆常識的問題:在平面設計這個領域,純粹靠程序捏造出來的數據,不僅可以取代費時費力收集的真實數據,有時候效果還更好。核心原因在於平面設計本身的特殊性——設計本來就是有意為之的模組化拼接,不像自然場景中物體之間千絲萬縷的光影聯繫,合成數據不會引入嚴重的"領域錯位"。此外,合成數據解決了現實中真實分層設計數據極度稀缺這個幾乎無法繞開的瓶頸,而且可以按需調節各種複雜度場景的比例,避免真實數據集中常見的分布失衡問題。
當然,這項研究也有很坦誠的局限性。目前的合成流水線還沒法模擬專業設計軟體里那些複雜的混合模式和特效,比如"正片疊底"或者"發光邊緣"這類處理。自動偵察員模型依然只能輸出矩形邊界框,遇到不規則形狀或者高度重疊的元素時表現會打折扣。現有評估也缺乏對"實際可編輯性"的人工評測,畢竟PSNR和FID這些數字指標並不能完美反映設計師在真實編輯場景下的使用體驗。未來要走的路還很長,但這個方向的可行性已經被清楚地驗證了。如果你對這項研究的完整技術細節感興趣,可以在arXiv上通過編號2605.15167找到原論文。
Q&A
Q1:SynLayers數據集是怎麼生成的,有什麼特別之處?
A:SynLayers是通過程序化流水線自動生成的平面設計圖層數據集,工作原理是把來自多個來源的圖層素材按照"最小重疊算法"拼貼到1024×1024的畫布上,再用視覺語言模型自動生成配套文字描述。特別之處在於它完全不依賴人工標註的真實設計文件,可以無限擴展規模,目前已生成50萬張樣本,是現有同類公開數據集體量的幾十倍。
Q2:用合成數據訓練圖層分解模型為什麼能比真實數據效果好?
A:平面設計本身就是模組化的——設計師主動把每個元素做成獨立的組件,元素之間沒有自然照片裡那種複雜的光影融合,所以合成數據對設計圖層的模擬不會產生嚴重失真。同時合成數據的圖層邊界更清晰、各複雜度樣本分布更均衡,這些特性反過來讓模型訓練更充分,尤其在處理複雜設計(多圖層)時優勢更明顯。
Q3:圖層分解模型在實際使用中需要用戶提供什麼資訊?
A:原始CLD框架需要用戶提供每個圖層的邊界框坐標和整體圖片描述,這在實際場景中操作門檻很高。研究團隊通過額外微調Qwen3-VL-8B模型解決了這個問題,用戶只需提供一張普通的平面設計圖片,這個"偵察員"模型就會自動預測出所有圖層的邊界框和整體描述,再傳給圖層分解模型處理,整個過程完全自動化。






