阿里巴巴的"萬能插件板"：讓AI繪圖的各種控制能力不再各自為戰

這項由阿里巴巴集團ModelScope團隊完成的研究，以預印本形式於2026年4月27日發布在arXiv平台，論文編號為arXiv:2604.24351v1，研究方向屬於電腦科學中的機器學習領域。所有相關代碼、模型和數據集均已開源，感興趣的讀者可通過上述編號檢索完整論文。

贊助商廣告

**一、故事從一個真實的煩惱開始**

假設你是一位設計師，需要用AI生成一批圖片。你希望畫面構圖精準，同時顏色偏暖，還要有某種特定的藝術風格——這三個需求同時存在。按照現有的做法，你需要分別找到三個不同的"控制工具"，而這三個工具往往由不同的研究團隊開發，格式不兼容，安裝方式各異，組合使用時還可能相互衝突。最終，要麼你得請一位專業的工程師幫你把這些工具強行焊在一起，要麼你只能妥協，放棄其中一兩個需求。

這種困境並非個例，而是整個AI繪圖行業的普遍現狀。過去幾年裡，研究者們開發出了大量控制AI繪圖的方法——有的能控制畫面結構，有的能調整風格，有的能根據參考圖片生成內容——但這些方法幾乎都是孤立的"孤島系統"，有各自的訓練邏輯、參數格式和接入方式。就像一個廚房裡擺滿了來自不同品牌的廚具，每一件都很好用，但插頭不兼容，操作手冊語言不通，想同時開動根本無從下手。

正是為了解決這個問題，阿里巴巴的研究團隊提出了一套名為**Diffusion Templates（擴散模板）**的統一插件框架。這套框架的核心思想，是給AI繪圖模型的所有"控制能力"定義一個統一的標準接口——就像現代手機使用統一的USB-C接口，不管你接的是耳機、充電器還是硬碟，都用同一個口，不再需要一抽屜的轉接頭。

**二、現有AI繪圖控制方法：百花齊放卻各自為戰**

在深入了解這套新框架之前，有必要先看看現在的AI繪圖控制技術到底長什麼樣。

目前最主流的擴散模型——也就是Stable Diffusion、FLUX等AI繪圖的"底層引擎"——本身已經相當強大，能根據文字描述生成高質量圖片。但僅靠文字描述，往往不夠精確。於是研究者們陸續開發了各種"附加控制"工具。

贊助商廣告

ControlNet是其中最知名的一類：它給AI繪圖模型額外安裝了一條"可訓練的旁支線路"，讓你可以用線稿、深度圖、人體姿態圖等視覺資訊來精確控制生成圖片的構圖和結構。LoRA則是另一種思路：它通過極少量的額外參數，讓模型"學會"某種特定風格或內容，比如某個特定人物的面孔或某種繪畫風格，訓練成本低、效果好，已經成為個性化定製的標配。IP-Adapter則專注於圖片風格和內容的參考，允許你提供一張參考圖，讓AI生成與之相似的內容，同時還能用文字調整細節。

這些方法各有所長，但共同的問題在於：它們都是為特定的底層模型量身定製的，訓練腳本、參數格式、運行時接入方式全都不同。想換一個底層模型，就得重新適配。想把兩三種控制方式同時用，就得手動處理它們之間的衝突。這使得整個可控AI繪圖的生態系統"強大但碎片化"——就像一個功能齊全但零件來自不同廠家的工具箱，每次使用前都要花大量時間拼裝。

**三、統一插件框架的核心思想：三個部件，一套邏輯**

Diffusion Templates框架的設計哲學，借鑑了大語言模型（也就是ChatGPT那類AI）領域已經成熟的"插件"概念。在那個領域，一個強大的基礎模型可以通過標準化接口接入各種外部工具——搜尋引擎、計算器、代碼執行器——而不需要修改模型本身。研究團隊把這個思路遷移到AI繪圖領域，但並非簡單類比，而是著眼於一個非常實際的目標：一旦各種控制能力通過穩定接口暴露出來，訓練、復用、組合和維護就都變得容易了。

整個框架圍繞三個核心組件構建，三者之間的關係就像一條流水線。

第一個組件叫做**模板模型（Template Model）**。這是真正承擔"學習控制能力"任務的神經網路模型。它的職責是接收各種各樣的控制輸入——可能是一張深度圖、一個表示亮度的數字、一張參考圖片，或者其他任何形式的控制信號——然後把這些輸入轉化成一種標準化的中間表示。每個模板模型的架構不受限制，可以是任何形式的神經網路，只要最終輸出符合標準格式即可。

贊助商廣告

第二個組件叫做**模板緩存（Template Cache）**。這是連接"控制能力"和"底層繪圖模型"的標準化接口，也是整個框架最關鍵的設計。模板緩存的格式被定義為底層擴散模型管道可以直接接受的輸入參數的子集，這樣新能力的接入就不需要修改模型的核心計算邏輯，只需要擴展參數就夠了。研究團隊目前推薦兩種具體的緩存格式：一種是**KV緩存**，另一種是**LoRA**。KV緩存是注意力機制計算中儲存"鍵值對"的中間結果，把控制資訊注入到這裡，可以直接影響生成過程，而且天然支持多個控制信號的拼接合併，就像把多張便利貼同時貼在同一塊白板上。LoRA則是前面提到的低秩參數調整方法，在這裡被當作一種"傳遞能力的數據格式"來使用，而不僅僅是一種固定的模型組件。

第三個組件叫做**模板管道（Template Pipeline）**。它負責統籌調度：加載一個或多個模板模型，分別運行它們得到各自的模板緩存，然後按照緩存類型合併（KV緩存直接在序列維度拼接，LoRA在秩維度拼接），最後把合併後的緩存和正常的文字提示一起送入底層擴散模型進行生成。模板模型本身不參與底層模型的疊代去噪過程，只在外部運行一次，因此額外計算開銷很小。為了節省顯存，管道還支持按需加載，即用到哪個模板模型才把它加載進顯存，用完釋放，這樣同時啟用很多個控制能力也不會導致顯存爆炸。

模板模型的訓練方式也遵循成熟的範式：基礎模型的參數完全凍結，只訓練新引入的旁支分支，訓練目標和底層模型的預訓練損失函數保持一致。訓練過程分為兩個階段：第一階段不涉及梯度計算，只做數據預處理和特徵提取，結果可以緩存復用；第二階段才是真正的梯度優化，這樣可以避免重複計算，提高訓練效率。

**四、十種控制能力的模型動物園：從簡單到複雜的全面驗證**

為了證明這套框架不只是理論上好看，研究團隊在FLUX.2-klein-base-4B這個底層模型之上，實際訓練和發布了十種不同類型的模板模型，覆蓋了從最基礎的視覺屬性到複雜圖像理解的廣泛場景。下面按照從簡單到複雜的順序，逐一了解這十種能力。

贊助商廣告

**五、構圖控制：讓AI嚴格按照你的草圖來畫**

最直觀的控制需求，莫過於控制畫面的空間結構——物體在哪裡、怎麼擺放、比例如何。這個方向最早由ControlNet系統化，研究團隊在同樣的思路下訓練了一個結構控制模板模型，但做了一個關鍵改變：不再用"殘差分支注入"的方式傳遞控制信號，而是通過KV緩存來傳遞結構資訊。

這個模型支持四種結構控制條件：深度圖、輪廓線圖、人體姿態圖和法線圖。深度圖描述了畫面中各元素的遠近關係，輪廓線圖勾勒了物體的邊緣輪廓，人體姿態圖標註了人物的關鍵骨骼點，法線圖則記錄了物體表面的朝向資訊。給定同一張深度圖，換上不同的文字提示，就能生成結構相同但內容各異的圖片——比如同一隻貓的輪廓，搭配"被彩色魔法粒子環繞"的提示生成一張奇幻風格圖，搭配"沐浴在明亮陽光中"的提示生成一張寫實風格圖，兩張圖的貓的姿態和構圖完全一致，只有畫面氛圍截然不同。

**六、亮度與色彩調整：用一個數字微調畫面基調**

如果想要生成的圖片整體偏亮一些，或者顏色偏暖一些，最簡單粗暴的做法是直接調整RGB像素值。但這樣做的問題是畫面會失真，就像把照片亮度調到最高時那種"過曝"的感覺。研究團隊因此訓練了專門的亮度調整模板模型和顏色調整模板模型。

亮度模型的架構非常輕量，借鑑了團隊此前開發的AttriCtrl方法，只包含一個位置編碼層和幾個全連接層。訓練時，控制信號是一個歸一化到0到1之間的標量，代表圖片平均RGB強度。輸入0.3生成偏暗的畫面，輸入0.7生成明亮的場景，模型會相應地調整全局光照、畫面氛圍乃至場景構成，而不只是機械地調整像素亮度，同時保持與文字提示的一致性。

顏色調整模型在亮度模型的基礎上更進一步：控制信號不再是單一標量，而是三個數字，分別對應R、G、B三個顏色通道的平均值。提供暖色調的十六進制色值#D0B98A，生成的圖片就會整體偏黃褐色調；提供冷色調的#5EA3AE，畫面就會向青藍色調偏移。值得注意的是，這種控制是"軟性的"而非精確匹配——生成圖片不會像調色盤一樣嚴絲合縫地對應指定顏色，而是在顏色偏好、畫面真實感和文字提示對齊之間找到自然的平衡點，這反而讓結果更加自然。

贊助商廣告

**七、圖像編輯加速：讓"改圖"不再慢如蝸牛**

AI繪圖模型的一個重要用途是圖像編輯：給定一張原圖和一段描述變化的文字，生成修改後的圖片。比如"給這隻貓戴上一頂帽子"或者"讓貓回頭看向右邊"。

底層模型本身支持這個功能，但有個明顯的性能瓶頸：編輯任務需要同時處理原始圖片和目標圖片，序列長度大約是純文字到圖片任務的兩倍，導致計算量急劇增加，速度很慢。研究團隊的解決思路是：訓練一個圖像編輯模板模型，把底層模型對"如何處理圖像編輯"的能力"轉移"到模板路徑中，讓生成時不再需要以完整的雙倍序列長度進行計算。

實驗結果表明，這個模板模型在編輯質量上達到了與底層模型直接編輯相當的水平，而推理速度提升了約1.8倍。這不是精度的折中，而是通過框架設計實現的真實加速。

**八、超解析度：讓模糊的圖片變得銳利**

超解析度是指把低解析度的模糊圖片放大成高解析度清晰圖片的技術。這個方向有專門的成熟工具（如Real-ESRGAN），研究團隊訓練超解析度模板模型的目的主要是驗證框架的任務覆蓋能力，而非與專業工具競爭。

這個模型的架構與圖像編輯模板模型相同。使用方式是：先把低解析度圖片用雙線性插值放大到目標解析度（這一步很快，只是簡單的像素插值，畫面依然模糊），然後讓模板模型補全缺失的高頻細節。實驗顯示即便在大倍率放大時，輸出圖片依然相當清晰，但速度不及專用的超解析度工具。

**九、銳度增強與美學對齊：從像素到感受的跨越**

研究團隊在輕量級架構能否控制更高層次的視覺感受這個問題上進行了兩個有趣的實驗。

銳度控制的信號來源於邊緣密度：對圖片做Canny邊緣檢測，統計邊緣像素占總像素的比例，對這個比例做分位數歸一化後作為控制輸入。清晰的圖片通常包含更豐富的高頻邊緣資訊，因此這個統計量是相對銳度的合理代理。輸入值設為0.1時生成的圖片畫面柔和，邊緣模糊；設為0.8時生成的圖片結構清晰，細節豐富。

贊助商廣告

美學對齊則更加複雜，因為"好不好看"這件事很難用數字量化。亮度、顏色、銳度都可以直接從圖片裡測量，但審美偏好通常只能通過人類比較來評估：兩張圖哪個更好看？現有數據集如GenAI-Arena和Pick-a-Pic提供的正是這種"成對比較"的標註，而不是連續的評分數據。

為此，研究團隊放棄了KV緩存，轉而使用LoRA作為這個任務的能力載體。他們構建了一個90對圖片的小數據集，用偏好值來調節LoRA的強度，並用此前研究（ArtAug）中開發的差分訓練策略來訓練對應的模板模型。結果令人滿意：美學尺度設為0時圖片正常，設為1.0時光線更柔和、構圖更討喜，設為2.5時模型甚至會自行添加粉色花朵等裝飾元素——儘管訓練時只用了0、0.5和1.0三個值，模型卻能外推到訓練範圍之外，呈現出合理的連續變化。這提供了初步證據，表明模板模型可以用於人類審美偏好的對齊，未來有更系統研究的空間。

**十、內容參考與本地修復：圖像級控制的深水區**

建立在美學對齊實驗之上，研究團隊進一步開發了一個圖像到LoRA的內容參考模板模型。這個模型用SigLIP2作為圖像編碼器，把輸入的參考圖片編碼為視覺特徵，再通過若干全連接層映射到LoRA權重。換句話說，它可以把一張參考圖"翻譯"成一組LoRA參數，這些參數注入底層模型後，會讓生成結果受到參考圖的影響。

有趣的是，這種影響的具體內容並不固定：有時候模型主要繼承了參考圖的整體視覺風格，有時候它更傾向於保留參考圖中人物的姿態和服裝。這種不可精確控制的靈活性使得這個模型展現出一種獨特的參考生成範式，具體機制和邊界條件還有很多值得探索的空間。

本地修復則是另一類專用任務：給定原圖和一個指定區域的遮罩，只修改遮罩內的區域，遮罩外的內容保持不變。研究團隊訓練了專門的本地修復模板模型，但純粹依靠模型學習無法百分之百保證遮罩外區域完全不變。框架的優勢在此時體現出來：可以在管道層面施加"硬約束"——每一步去噪之後，直接把遮罩外區域替換為原圖的VAE編碼，強制保持一致。這種"模型軟控制+管道硬約束"的組合方案，讓本地修復既自然又精確。

贊助商廣告

**十一、年齡控制：把同樣的架構用到人臉上**

最後一個案例研究是人像年齡控制，訓練數據來自IMDB-WIKI人臉數據集。這個模型採用與亮度調整完全相同的輕量級架構，控制信號是10到90的標量年齡值。由於原始數據集在不同年齡段的分布極不均勻，團隊對不同年齡區間做了重採樣來平衡訓練數據。

生成結果顯示年齡的變化是連續且自然的：年齡值設為20時呈現年輕面孔，設為50時出現中年特徵，設為80時皺紋明顯增多，而整體人物身份和畫面質量保持穩定。這個實驗直接證明了，從控制低層視覺屬性（亮度）到控制語義更豐富的人類特徵（年齡），同樣的標量控制公式都能有效工作。

**十二、多能力融合：真正的"拼插"時刻**

框架的核心價值之一在於多個模板模型的協同工作。研究團隊展示了幾組融合案例：超解析度和銳度增強同時啟用，生成更高解析度且細節更清晰的圖片；結構控制、圖像編輯和顏色調整三者融合，生成具有指定構圖、特定風格和指定色調的藝術畫；結構控制、銳度增強和美學對齊三者疊加，生成更符合人類審美偏好的渲染結果；本地修復、圖像編輯和亮度調整組合，對圖片的特定區域進行風格局部變換。

融合機制根據緩存類型自動確定：KV緩存在序列維度拼接，LoRA在秩維度拼接，不同格式的緩存則各自獨立激活，不需要強行統一格式。由於模板模型不進入底層模型的去噪循環，顯存占用不會隨著模板數量的增加而大幅上升，按需加載機制進一步保證了實用性。

**十三、這項研究的意義與坦誠的局限**

研究團隊在論文中坦率地承認，Diffusion Templates目前仍是一個原型框架，當前的展示以定性案例為主，缺乏系統的量化評估。未來需要在標準化基準上測量各個模板模型的控制精度、組合效果、跨底層模型的遷移性和推理效率，才能更嚴格地評估這套框架的實際價值。

贊助商廣告

此外，KV緩存和LoRA雖然目前是可用且有效的接口，但對不同的模型架構和任務類型未必都是最優選擇。未來還需要探索其他可能的緩存格式，以在效率、兼容性和控制力之間找到更好的平衡。

將框架擴展到影片生成模型也是重要的方向。圖片生成和影片生成的底層機制有相通之處，但影片還涉及時間一致性、運動模式等新維度，如何在這些維度上定義和傳遞可復用的控制能力，是值得深入研究的問題。

說到底，Diffusion Templates做的事情可以用一句話概括：它試圖給AI繪圖的控制能力建立一套通用語言，讓來自不同地方、用不同方式實現的控制工具，能夠以統一的方式被訓練、被加載、被組合。這不是一項讓AI"更聰明"的研究，而是一項讓AI繪圖生態"更有序"的工程實踐。對於普通用戶來說，它意味著未來使用AI作圖時，同時控制構圖、顏色、風格、清晰度這些需求，將會像手機插上充電器一樣自然，而不再需要工程師在背後反覆拼裝轉接頭。

研究的所有代碼、模型權重和訓練數據集均已開源，有興趣深入了解技術細節的讀者可以通過論文編號arXiv:2604.24351檢索完整論文和相關資源。

---

**Q&A**

Q1：Diffusion Templates框架中的"模板緩存"到底是什麼？

A：模板緩存是連接控制模型和底層繪圖模型的標準化接口，相當於一個通用數據格式。控制模型把各種控制信號（比如深度圖、顏色值、參考圖片）轉換成這種格式，底層繪圖模型直接讀取。目前主要支持兩種格式：KV緩存（直接影響注意力計算的中間數據）和LoRA（輕量級模型參數調整），兩者都不需要修改底層繪圖模型的核心邏輯。

Q2：Diffusion Templates和ControlNet有什麼區別？

A：ControlNet是一種具體的控制方法，只針對特定的底層模型，用殘差分支的方式注入控制信號，架構和接入方式固定。Diffusion Templates是一套框架，不規定具體的控制方法和架構，而是定義了一個通用接口，各種控制方法（包括類似ControlNet的結構控制）都可以按這個接口實現，從而實現統一加載和自由組合，多個控制能力可以同時工作。

贊助商廣告

Q3：Diffusion Templates的多個控制能力同時使用會不會很占內存？

A：不會大幅增加內存占用，這是框架設計的優勢之一。因為模板模型不參與底層繪圖模型的疊代去噪循環，只在外部運行一次並輸出緩存數據。框架還支持按需加載，用到哪個模板模型才把它加載進顯存，用完即釋放。多個KV緩存通過序列拼接合併，不會導致顯存隨模板數量線性增長。