當AI「畫師」學會同時駕馭多個角色——英國金斯頓大學團隊提出的智能拼圖新方案

這項由英國金斯頓大學網路與數字媒體系領導的研究，成果以預印本形式發布於2026年6月，論文編號為arXiv:2606.03792，感興趣的讀者可通過該編號在arXiv平台查閱完整原文。

贊助商廣告

**當"畫師AI"面臨多重身份的考驗**

假設你是一位專業攝影師，有人請你拍一張照片：畫面里要有特定的明星臉孔、特定的服裝品牌、特定的森林背景、還要拿著特定款式的雨傘。每一個元素你單獨拍都能拍得很好，但要把它們同時塞進一張完美的照片裡，難度就完全不同了——人臉可能變形，衣服可能面目全非，背景可能跟人物格格不入。這正是當前AI圖像生成技術面臨的核心難題之一。

近年來，以Stable Diffusion為代表的擴散模型（可以簡單理解為"一種通過不斷去除噪點來生成圖像的AI系統"）在圖像生成領域表現出色。為了讓這類AI認識某個特定概念——比如某位明星的長相、某件衣服的款式——研究者們發展出了一種叫做LoRA（低秩適配）的技術。LoRA的工作原理有點像給AI老師發一本薄薄的專題補習手冊：不需要重新培訓整個AI，只需要在原有模型旁邊附加一小組輕量級參數，就能讓AI記住這個新概念。這種方式既省時省力，效果又不錯，因此在AI圖像定製領域非常流行。

然而，單個LoRA只能認識單個概念。現實世界的圖像往往包含多重元素，於是"多概念定製"的需求應運而生。當你把多個LoRA同時接入AI時，問題就來了：不同LoRA之間會相互"干擾"，就像多位廚師同時在同一口鍋里炒菜，各自的調料相互混淆，最終端出來的菜既不像這道也不像那道。這種現象在學界被稱為"干擾"問題，是當前多概念定製研究的主要障礙。

金斯頓大學的研究團隊針對這一問題，提出了一套既簡潔又有效的解決方案。他們的核心創新在於：與其讓所有LoRA平等地參與圖像生成，不如根據每個LoRA對應的概念在當前文字描述（即"提示詞"）中的語義重要程度，給它們分配不同的"話語權"。這個思路聽起來樸素，但在多LoRA組合生成這個領域裡，還是頭一次被系統地探索和驗證。

贊助商廣告

**一、LoRA拼圖遊戲：從單塊到多塊的挑戰**

要理解這項研究的價值，先得弄清楚LoRA是怎麼工作的，以及把多個LoRA拼在一起時會出現什麼狀況。

把AI圖像生成模型比作一個極其複雜的"視覺翻譯機器"——你輸入一段文字，它輸出一張圖像。這台機器內部有數以億計的參數，就像無數個精密旋鈕，共同決定了輸出圖像的每一個細節。訓練一個LoRA，就是在這台機器旁邊安裝一組小型"調節器"，這組調節器專門針對某個特定概念（比如某位明星）進行微調，讓機器在看到與該概念相關的指令時，能更準確地呈現出那個概念的視覺特徵。整個過程不動原機器的旋鈕，只調節外掛的小裝置，因此效率極高。

生成一張圖像時，AI並不是"一蹴而就"的。擴散模型的工作方式更像是一位雕塑家從一塊粗糙的石頭開始，一刀一刀地雕刻，逐步去除多餘部分，最終呈現出精細的作品。具體而言，AI從一張純粹的噪點圖（相當於一堆隨機像素）出發，經過數十乃至上百個"去噪步驟"，每一步都根據文字描述稍微調整圖像，最終雕刻出符合描述的清晰圖像。這個從粗到細、從模糊到清晰的過程，正是理解後續方法的關鍵背景。

當需要同時使用多個LoRA時，最直接的辦法有兩種。第一種是"權重合併"：把多個LoRA的參數直接加在一起，相當於把所有調節器合併成一個大調節器。這種方法每次生成時只需要調用一套參數，效率高，但不同概念的參數互相疊加，往往導致嚴重的干擾——每個概念的特徵都被稀釋、扭曲了。第二種是"解碼中心合併"：不合併參數，而是讓每個LoRA獨立運行，分別生成各自的預測結果，再把這些結果整合起來。這種方式更靈活，干擾更少，但也更耗資源，因為每個去噪步驟都需要跑多個LoRA。

金斯頓大學團隊的研究正是在第二種思路的基礎上做了關鍵改進。他們的前輩工作——LoRA-Switch和LoRA-Composite——已經驗證了解碼中心方法的優越性。LoRA-Switch的做法是在每個去噪步驟里只激活一個LoRA，所有LoRA按照固定的周期輪流上場，就像接力賽一樣，每人跑一段。LoRA-Composite則截然相反，每個步驟里所有LoRA同時參與，各自給出預測，然後取平均值作為最終預測。這兩種方法雖然都能減少干擾，卻都有一個共同的盲點：它們對待所有LoRA一視同仁，完全忽視了一個關鍵資訊——當前的文字描述到底對哪個概念更看重。

贊助商廣告

**二、提示詞裡藏著的"優先級密碼"**

金斯頓大學團隊提出的核心洞察可以這樣理解：如果你讓AI生成"一位穿著校服站在圖書館裡的女孩"，那麼"女孩"這個概念（對應角色LoRA）在這個場景里顯然比"圖書館背景"（對應背景LoRA）更加核心，更應該占據更多的"表達權"。反過來，如果你生成"一張充滿森林氣息的風景畫，角落裡有一位人物"，那麼背景LoRA的重要性就遠超角色LoRA。

這個判斷的依據從哪裡來？答案就在文字描述本身里。AI圖像生成系統在處理文字描述時，會通過一個"文本編碼器"把文字轉換成數學向量（可以理解為一串代表語義的數字）。這個向量捕捉了整段文字的語義核心。研究團隊發現，通過比較不同部分的語義向量，就能量化每個概念在整個描述中的"語義份量"。

具體而言，團隊設計了兩種權重計算策略，分別命名為PAW和PTW，它們就像兩種不同的"重要性測量儀"，只是測量角度略有不同。

PAW的思路是"做減法看影響"。給定一段完整的文字描述，把其中與某個LoRA相關的觸發詞（即用來激活該LoRA所對應概念的關鍵詞，比如某位明星的名字）刪掉，然後比較刪詞前後的語義向量有多大變化。變化越大，說明那些詞對整段描述的語義影響越深，對應的LoRA就越重要。這就好比檢查一篇文章的某個段落有多重要——把它刪掉之後文章的意思改變越多，那個段落就越關鍵。

PTW的思路則是"直接看相似度"。不做刪減，而是直接把該LoRA的觸發詞單獨編碼成向量，然後跟完整描述的向量做相似度比較。觸發詞的語義跟整段描述越貼近，對應的LoRA就越重要。這更像是看一個詞語跟一篇文章的主題有多契合——越契合，這個詞對應的概念在整篇文章里就越核心。

兩種策略各有側重：PAW更強調"刪掉它之後損失有多大"，PTW更強調"它和整體主題有多契合"。在後續實驗中，研究團隊發現，對於不同的生成方式，這兩種策略的表現各有優勢，因此針對不同方法分別選用了最優策略。

贊助商廣告

計算出每個LoRA的重要性分數之後，團隊將這些分數進行歸一化處理——也就是把所有分數的總和調整為1，讓它們變成百分比形式的權重。於是，每個LoRA就有了一個代表"它在這次生成中應該發揮多大影響力"的數字。

**三、兩種新方法：W-Switch與W-Composite**

有了權重之後，接下來的問題是如何把權重融入實際的圖像生成過程。研究團隊在LoRA-Switch和LoRA-Composite的基礎上，分別設計了對應的改進版本。

W-Composite是對LoRA-Composite的升級。原版LoRA-Composite在每個去噪步驟里讓所有LoRA同時參與，然後對它們的輸出取簡單平均。W-Composite的改動在於將這個平均改為"加權平均"——每個LoRA的輸出不再平等地貢獻1/N的份額，而是按照之前計算出的重要性權重來分配貢獻比例。重要性高的LoRA發出更大的聲音，重要性低的LoRA相應地小聲一些。整個計算在每個去噪步驟里都以同樣的權重執行，權重全程恆定，因為提示詞沒有變化，語義重要性自然也不會變。

W-Switch是對LoRA-Switch的升級，改動方式略有不同。原版LoRA-Switch讓所有LoRA輪流上場，每人激活相同數量的步驟。W-Switch保留了"每次只激活一個LoRA"的設計（這樣可以避免不同LoRA同時運行導致的融合干擾），但把每個LoRA被激活的步驟數量改為與其重要性權重成比例。假設共有三個LoRA，權重分別是50%、30%、20%，那麼在每一個完整的循環周期里，第一個LoRA會被激活5步，第二個3步，第三個2步，總計10步構成一個完整周期。這個周期不斷重複，直到全部去噪步驟完成。

由於AI的圖像生成遵循"從粗到細"的規律——早期步驟決定大結構和整體布局，後期步驟則打磨精細細節——人臉的細節特徵往往在最後幾個步驟里才得到精確刻畫。為了確保人物角色的面部特徵能被充分保留，團隊對W-Switch做了一個額外的小調整：在最後5個去噪步驟里，強制將與人物角色相關的LoRA保持激活狀態，不參與輪換。這個小改動在數值上顯著提升了人物面部的相似度指標，代價僅是對其他概念的影響力有極其輕微的影響。

贊助商廣告

**四、評估難題：現有評分方式為何不夠用**

在介紹實驗結果之前，有必要了解這項研究另一個重要貢獻：它指出了現有評估方法的缺陷，並提出了更合理的替代方案。

目前學界評估AI圖像生成質量時，最常用的指標是CLIPScore，也就是把生成圖像和原始文字描述分別編碼，然後測量兩者語義向量的相似度。分數越高，說明圖像和描述越吻合。然而，這個方法有個根本性的局限：它只能告訴你"生成的圖像跟你說的話有多像"，卻無法告訴你"生成的圖像跟真實的參考圖像有多像"。換句話說，它只能評估"語義準確性"，不能評估"視覺保真度"——尤其是對於需要精確重現某位真實人物面孔的場景，這個指標嚴重不足。

還有另外兩個常用指標：ICLIP和IDINO，分別用CLIP和DINO兩種視覺編碼器測量生成圖像與參考圖像之間的相似度。這已經比CLIPScore進了一步，但團隊發現這兩個指標仍有兩個關鍵問題。

第一個問題是"全局嵌入失真"。生成的圖像同時包含多個概念（比如人物、服裝、背景），而參考圖像通常只包含一個概念（比如只有那位明星的照片）。當你把一張"人物+服裝+背景"的複合圖像與只有人物的參考圖像做相似度比較時，生成圖像的全局向量被多個概念的資訊稀釋，與任何一個單一概念的參考圖像都會顯得不那麼相似。這種相似度的下降並不代表生成質量差，而是不同概念之間資訊疊加造成的"噪聲"。

第二個問題是"均值偏好偏差"。當一個概念有多張參考圖像時，通常的做法是計算生成圖像與所有參考圖像的平均相似度。這樣做會系統性地偏向那些在向量空間裡靠近"所有參考圖像中心"的生成結果，而不是靠近任何一張具體參考圖像的結果。然而，在現實中，一張與某一張參考圖像極度相似的生成圖，其視覺保真度往往遠高於一張僅僅處於"平均水平"的圖。這種偏差對於人臉來說尤為明顯：即便是略微不同的臉，其向量可能仍在"中心附近"，但實際上已經完全換了一張臉。

贊助商廣告

為了解決這兩個問題，團隊提出了一套全新的評估流程。核心思路是：先把生成圖像里的每個概念單獨"切割"出來，再分別與對應的參考圖像做比較，並且用"最大相似度"代替"平均相似度"。

具體操作上，對於人物角色，團隊使用FAN人臉檢測器自動定位並裁剪人臉區域，然後用ArcFace（一種專門用於人臉識別的算法，能精確區分不同人的面部特徵）計算裁剪出的人臉與參考圖像的相似度，得到IArcFace指標。對於服裝、物體等前景概念，團隊使用SAM3（一種能根據文字描述自動分割圖像區域的工具）將對應區域裁剪出來，再分別計算CLIP和DINO相似度。對於背景概念，則反向操作：先把所有前景物體遮掉，讓背景區域儘量"乾淨"，再做背景相似度評估。每個概念單獨取與所有參考圖像中最高的相似度值，最後將所有概念的分數取平均，作為這張圖的綜合得分。

這套流程就像把一道複合菜餚拆分成單獨的食材，逐一品評每種食材的新鮮度和品質，而非用整道菜的綜合口感來模糊地評判每種食材是否到位。

**五、實驗驗證：數字說明了什麼**

實驗在ComposLoRA測試基準上進行，這是一個專門為多LoRA組合生成設計的評測框架，包含11個LoRA模組，分別對應3個人物角色、2個背景場景、2種服裝、2種物體和2種藝術風格。所有圖像生成均使用Stable Diffusion v1.5結合Realistic Vision V5.1檢查點，以100個去噪步驟、7倍的文字引導強度、1024×768解析度為標準配置，全程無需額外訓練，僅在單塊NVIDIA RTX A6000顯卡上運行。

實驗對比了五種方法：原版LoRA-Switch、原版LoRA-Composite、CMLoRA（一種利用動態緩存策略計算權重的競爭方法），以及本文提出的W-Switch和W-Composite。實驗分別測試了同時組合2到5個LoRA的情況，考察隨著概念數量增加，各方法的性能變化趨勢。

在圖像保真度指標（ICLIP和IDINO）上，W-Switch在所有組合數量下均取得了最高的平均分，與原版Switch相比提升穩定。W-Composite同樣超越了原版Composite，但整體略遜於W-Switch。最值得關注的趨勢是：隨著組合LoRA數量從2增加到5，CMLoRA的IDINO指標急劇下滑（從51.39跌至41.05，下降幅度超過19%），而W-Switch的同一指標僅從54.20小幅降至48.03，下降幅度約11%。這說明W-Switch在面對更複雜的多概念組合時表現出明顯更強的穩定性。

贊助商廣告

在人物身份保留指標IArcFace上，W-Composite表現出色，排名第二（僅次於W-Switch），原因在於W-Composite讓角色LoRA在每個去噪步驟都參與生成，有助於面部細節的持續積累。W-Switch通過"最後5步強制激活角色LoRA"的機制，也取得了不錯的成績。從單LoRA基準（即僅激活角色LoRA時的IArcFace得分55.07）到5個LoRA同時組合時，W-Switch的指標下降僅為2.44%，W-Composite下降2.67%，而CMLoRA下降高達6.22%。這意味著即便在最複雜的5概念組合場景下，新方法依然能將人物面部相似度損耗壓縮到很小的範圍內。

在文字描述對齊指標TCLIP上，W-Switch同樣名列前茅，充分說明它生成的圖像不只是與參考圖像更像，還與用戶的文字意圖更契合。

**六、更高維度的評價：LLM評分與用戶研究**

純粹的數值指標有其局限性，它們無法很好地捕捉圖像整體的美觀度、多個概念之間搭配是否和諧、畫面中元素的空間布局是否合理。為此，研究團隊引入了兩種補充評估手段。

第一種是讓MiniCPM-V（一個能理解圖像和文字的多模態大語言模型）擔任"評委"。評委同時看到用同一段文字描述生成的多張圖像（來自不同方法），從四個維度評分：元素融合度（各個概念是否自然地融為一體）、空間一致性（光線方向、透視角度是否統一）、語義準確性（各元素是否符合描述）和美學質量（整體視覺效果如何）。每個維度滿分10分。結果顯示，W-Switch在四個維度上均取得最高平均分（8.768、8.605、8.702、8.487），W-Composite緊隨其後，兩者均超越了三個對比基準方法。尤其是隨著組合LoRA數量增加，W-Switch的領先優勢不斷擴大，在N=5的場景下表現最為突出。

第二種是真人用戶研究，邀請16位參與者評判14組不同概念組合的生成結果。每位參與者看到同一文字描述對應的5張圖像（來自5種方法），需要根據與參考圖像的吻合程度以及上述四條美學標準，選出最滿意的一張。統計結果顯示，W-Switch被選為最佳的比例高達47.32%，而第二名W-Composite為18.75%，原版Switch為13.84%，原版Composite為12.50%，CMLoRA僅為7.59%。研究團隊還對這一結果進行了嚴格的統計顯著性檢驗（Wilcoxon符號秩檢驗，並用Holm-Bonferroni方法校正多重比較），確認W-Switch相對三個對比方法的優勢均達到了統計顯著水平（α=0.05）。W-Composite的優勢雖然在數值上明顯，但經過校正後未達到統計顯著性門檻。

贊助商廣告

**七、細節調優的講究：消融實驗揭示的規律**

研究團隊還通過消融實驗（即"控制變量實驗"，每次只改動一個因素）驗證了各個設計選擇的必要性。

關於PAW和PTW兩種權重計算策略的對比，實驗結果呈現出有趣的分工：對於W-Composite，PTW在ICLIP、IDINO和IArcFace上整體表現略優；對於W-Switch，PAW在IArcFace指標上更有優勢，使其在平均得分上略勝PTW。不過兩種策略的差距相當細微，說明兩者都是有效的權重估計手段，選擇哪種策略對最終結果的影響相當有限。

關於"最後5步強制激活角色LoRA"這一設計，實驗將加入該機制與不加入該機制的W-Switch做了直接對比。結果表明，加入該機制後，IArcFace提升了0.43分（從52.63提升至53.06），ICLIP和TCLIP也有所提升，IDINO僅有極小幅度的下降。這個代價與收益的權衡非常划算，因此團隊將其納入W-Switch的標準配置。

**八、局限性與未來的路**

任何誠實的研究都會正視自己的局限，這項工作也不例外。

目前最主要的局限在於方法的"全局性"——權重調整影響的是整張圖像的生成過程，而無法針對圖像中的特定空間區域進行精細控制。舉例來說，如果你希望人物占據畫面左側、背景填滿右側，現有方法並不能直接實現這種空間布局的精確控制。這種局限帶來的典型錯誤包括：物體與人物之間的互動關係不自然（比如雨傘拿的方式很彆扭）、某些概念在生成結果中"消失了"（比如描述里提到泡泡糖，結果圖里沒出現）、以及偶發的人物面孔重複（畫面里出現了兩個相似的臉）。

另一個值得注意的局限來自實驗數據源本身。所有LoRA模組均來自社區平台CivitAI，這些模組的訓練細節通常沒有公開，質量參差不齊。研究發現，即便只激活單個角色LoRA（沒有任何其他概念的干擾），IArcFace的上限也只有55.07分，說明部分角色LoRA本身對人臉的還原能力就已經有限了。因此，在解讀人臉相似度方面的實驗結果時，需要考慮到這一底層限制。

贊助商廣告

團隊也展望了幾個有價值的研究方向。將方法擴展到影片生成和3D內容創作是最直接的延伸路徑，但這些場景要求在時間維度和空間維度上都維持概念的一致性，難度更高。在特徵空間內實現區域級精細控制，將是解決上述空間布局問題的關鍵方向。此外，在更多不同架構的基礎模型（比如基於Transformer的DiT架構）上驗證這套方法的通用性，也是未來值得探索的方向。

說到底，這項研究做的事情用一句話就能概括：讓AI在同時處理多個"設定"時，能根據當前任務的語義重心，更聰明地分配每個設定的"發言權"，而不是一視同仁地對待所有設定。這個改變聽起來簡單，但帶來的效果改善在數值指標、LLM評分和真人偏好研究上都有一致且穩定的體現。

有意思的是，這種"按重要程度分配權重"的思路，本質上與人類導演指揮拍攝時的本能判斷非常相似：場景需要突出人物時，給攝影師最多的指導；需要突出環境時，讓布景師多花心思。AI的圖像生成過程，也許需要的正是這種類似"導演直覺"的優先級判斷機制。

對這個研究方向有興趣的讀者，可以通過arXiv編號2606.03792找到完整論文，或訪問研究團隊在GitHub上公開的代碼倉庫，自行動手探索。

---

Q&A

Q1：LoRA技術在AI圖像生成中具體是怎麼工作的？

A：LoRA是一種輕量級的AI微調技術，可以把它理解為給AI"加裝小型專題知識包"。原本的AI圖像生成模型有數億個參數，重新訓練整個模型成本極高。LoRA不動原有參數，而是在旁邊添加一小組低秩矩陣（參數量極少），專門用來讓AI記住某個特定概念，比如某位明星的面孔或某件特定服裝。使用時把這個"知識包"附加到原模型上，就能讓AI準確生成對應概念的圖像，效率遠高於全量重訓。

Q2：多LoRA組合時的"干擾問題"為什麼這麼難解決？

A：干擾問題的根本原因在於多個LoRA的參數或輸出之間會相互影響。當你把代表"某明星臉"和"某類服裝"的兩個LoRA同時激活時，兩者的調節信號會在AI內部疊加混合，導致人臉特徵跑到服裝上，或服裝特徵影響了人臉的呈現。組合的概念越多，信號之間的相互干擾就越複雜。解碼中心方法雖然能緩解權重層面的衝突，但如何給每個LoRA分配合理的影響力比例，仍然是一個需要精心設計的問題。

贊助商廣告

Q3：W-Switch和W-Composite這兩種新方法分別適合什麼場景？

A：W-Switch在整體表現上更全面，在圖像保真度、人臉相似度、語義準確性以及用戶偏好研究中均排名第一，尤其在組合概念較多（4至5個）時優勢更明顯，適合對整體圖像質量要求較高的場景。W-Composite由於在每個去噪步驟都讓所有LoRA參與，對人臉細節的持續積累效果更好，在人臉身份保留方面表現與W-Switch接近，計算方式也相對簡單，適合對人物面部還原有特殊需求、且不追求極致複雜組合的場景。