宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

復刻任何畫風、保留任何內容——復旦大學與StepFun聯手打造的AI「換裝大師」FreeStyle

2026年06月23日 首頁 » 熱門科技

這項由復旦大學、StepFun(階躍星辰)、西湖大學和香港大學聯合完成的研究,於2026年6月18日以預印本形式發布於arXiv平台,論文編號為arXiv:2606.20506v1。感興趣的讀者可以通過這個編號在arXiv上檢索並閱讀完整的原始論文。

一張照片,兩份參考。一份告訴AI"我要這個內容",另一份告訴AI"我要這種風格"。聽起來不難?實則是個讓整個AI圖像生成領域頭疼已久的老大難問題。當你把一張梵谷的《星夜》當作風格參考,讓AI把你家貓咪的照片"梵谷化"時,AI很可能把梵谷畫裡的漩渦、星星甚至那棵柏樹都一併塞進貓咪圖里——這就是研究者們所說的"內容泄漏",一種讓人哭笑不得的AI幻覺。

為了從根本上解決這個頑疾,來自多家頂尖機構的研究團隊提出了一套完整的解決方案,並將其命名為FreeStyle。這套方案不僅僅是一個新模型,而是從數據生產、訓練策略到評測體系的全鏈條設計,力圖在"像這種風格"與"保留這個內容"之間找到真正穩定的平衡點。

一、先從一個現實困境說起

平日裡,許多人會用AI生圖工具做一件事:把自己的照片"變成"某種藝術風格——水彩畫、漫畫、油畫,或者某款流行遊戲的美術風格。這個需求聽起來很簡單,但對AI來說,實際上是在同時完成兩件截然不同的任務。

第一件任務是"記住你是誰"。無論風格怎麼變,生成的圖片裡的貓還得是那隻貓,而不是別的貓;那個人的臉還得是那張臉,而不是隨便一個卡通人物。第二件任務是"穿上新衣服"。生成的圖片要真正呈現出參考風格的筆觸、色調、紋理和審美感——而不僅僅是在表面刷一層濾鏡。

當兩件任務同時進行時,AI會遇到一個根本性的困境:風格參考圖里除了"風格",還有"內容"。梵谷的畫裡不只有筆觸,還有具體的樹、星星和村莊。AI在學習"梵谷式筆觸"的同時,很容易不小心也把那棵樹搬進了你的貓咪圖里。這就是"內容泄漏"——一種讓最終結果既不像原來的貓,又不純粹是梵谷風格的尷尬狀態。

這個問題之所以長期沒有被很好地解決,根源在於兩個缺失:一是缺乏大規模、乾淨的訓練數據——既要有足夠多樣的風格,又要保證內容和風格之間沒有交叉污染;二是缺乏針對不同泄漏機制的精準干預方法。FreeStyle的核心貢獻,正是在這兩個維度上同時發力。

二、用社區LoRA挖礦:一個天才的數據生產思路

數據是AI訓練的糧食。要訓練一個能同時處理"內容參考"和"風格參考"的模型,理想的訓練數據應該是這樣的三元組:一張內容參考圖(比如一隻貓)、一張風格參考圖(比如某種水彩畫風格示例)、以及一張目標圖(那隻貓以水彩畫風格呈現的版本)。

問題是,這樣的三元組數據在自然界裡幾乎不存在,必須人為製造。以往的做法要麼覆蓋的風格太少,要麼製造過程太貴,要麼內容和風格之間仍然藕斷絲連、分離不徹底。

研究團隊想到了一個別出心裁的方案:去挖掘AI繪圖社區裡的LoRA資源庫。LoRA是一種輕量級的AI模型微調技術,可以理解為給大模型裝上一個"風格插件"或"內容插件"。全球AI繪圖社區(比如Civitai、TensorArt、Liblib等平台)里,有數以萬計的創作者上傳了自己訓練的LoRA——有的專門用來生成某種特定畫風(比如"日式二次元線稿風"),有的專門用來生成某個特定角色或物體(比如"寫實狼犬")。

研究團隊把這些社區LoRA看作天然的"風格錨點"和"內容錨點"。每一個風格LoRA,就代表了一種經過社區驗證的、內聚的視覺風格;每一個內容LoRA,就代表了一類特定的視覺內容主題。把一個風格LoRA和一個內容LoRA組合起來,就能生成天然分離的三元組數據——風格來自風格LoRA,內容來自內容LoRA,兩者互不干擾。

這個思路的妙處在於,社區LoRA本身就是一個巨大的多樣性寶庫,覆蓋了從傳統東方繪畫到現代像素藝術,從寫實攝影風到卡通漫畫的幾乎所有風格流派;內容方面則涵蓋了角色、場景、動物、建築、食物、載具等幾乎所有常見類別。這使得最終生產出來的數據集在風格和內容的多樣性上,遠遠超過了以往任何一個同類數據集。

當然,挖礦不是隨便挖的,需要嚴格的篩選流程。研究團隊把整個數據生產過程分成了四個環節,環環相扣。

第一個環節是篩選"穩定可用"的LoRA。從各大平台爬取的LoRA多達68600多個,但並非每個LoRA都能穩定工作。研究團隊設計了一個批量測試流程:為每個LoRA生成3×3共9張預覽圖,然後由人工專家和審美評分模型聯合判斷——如果9張圖里至少有7張質量合格,才認定這個LoRA是"穩定觸發"的,可以進入下一步。經過這一關,最終留下的FLUX風格LoRA約1700個,內容LoRA約900個;Illustrious模型下風格LoRA約210個,內容LoRA約7000個;Qwen模型下內容和風格LoRA合計約87個。

第二個環節是為每個LoRA生成高質量的參考圖。研究團隊為不同底層模型(FLUX-dev、Illustrious、Qwen-Image)設計了專門調優的ComfyUI工作流,並結合大約4萬個獨特提示詞組合,為每個LoRA至少生成20張參考圖。由於生成結果不總是完美穩定,他們用Qwen3-VL這個視覺語言模型做質量把關:把網上爬取的LoRA演示圖作為參考,讓模型判斷新生成的圖是否與LoRA的主題一致,不符合的直接淘汰。

第三個環節是篩選有效的LoRA組合。風格LoRA和內容LoRA雖然各管各的,但混合使用時並不總是和諧共處。有些內容LoRA本身帶有強烈的內置風格,一旦和風格LoRA結合,兩者就會互相打架,導致生成結果又模糊又混亂。研究團隊把所有風格LoRA和內容LoRA做了笛卡爾積(也就是兩兩配對),每個組合生成一張圖,然後同時檢驗:這張圖的內容是否和內容LoRA的單獨生成圖保持一致?這張圖的風格是否和風格LoRA的單獨生成圖保持一致?兩項都通過才算有效組合。這一關的通過率大約只有40%,但正因為篩得嚴,留下來的組合才真正乾淨穩定。

第四個環節是批量生成最終三元組數據。有了經過驗證的有效LoRA組合,就可以放開手腳批量生產目標圖了。由於組合本身已經驗證過,這一環節的通過率高達80%,極大地提升了生產效率。最終,研究團隊用FLUX模型生產了27.3萬個三元組,用Qwen模型生產了3.3萬個,用Illustrious模型生產了17.2萬個,構成了一個極其龐大且多樣的數據集。此外,他們還用Qwen3-VL模型為每個三元組自動生成了描述內容參考圖的文字提示詞,使訓練數據具備了完整的"內容+風格+文字指令"三元結構。

除了LoRA挖礦數據,研究團隊還製作了一批"風格遷移"數據用於第一階段訓練。具體做法是:從網上爬取大量內容多樣的圖片,選取大約645個經過驗證的穩定風格觸發詞,用一個叫Nano Banana Pro的先進生圖模型把每張內容圖"翻譯"成對應風格,然後用DINOv2(一種圖像理解模型)檢驗內容有沒有保留,用ONEIG風格編碼器檢驗風格有沒有對上,兩項都過關的才保留下來,拼成乾淨的三元組。

三、兩階段訓練:像武林高手一樣分層練功

有了數據,接下來是訓練策略。研究團隊沒有把所有數據一股腦扔進去訓練,而是採用了一種"由易到難、循序漸進"的兩階段課程學習方式。

之所以要分兩個階段,是因為研究團隊發現,內容泄漏在不同的任務設置下,走的是完全不同的"偷渡通道",需要用不同的方法分別堵住。

第一階段專門處理"只有風格參考"的任務。在這個階段,模型的任務是:給定一張內容圖和一張風格參考圖,生成一張把內容圖"翻譯"成風格參考圖風格的新圖。研究團隊通過仔細分析發現,在這個任務下,內容泄漏主要發生在注意力機制里——具體來說,在去噪過程的後期階段,模型會對風格參考圖裡的某些區域給予過度的注意力,導致那些區域的具體內容(比如風格圖裡的人物、場景)被"照抄"進生成結果里。

為了形象地理解這件事,可以把模型的注意力機制想像成一個學生在考試時的"視線分配"。正常情況下,學生應該把大部分視線放在答題紙(內容圖)上,只是偶爾瞄一眼參考資料(風格圖)來獲取風格靈感。但泄漏情況下,這個學生在考試快結束時突然開始死盯著參考資料不放,把參考資料里的圖案和文字都抄進了答題紙——這就是注意力過度分配到風格參考圖的問題所在。

為了解決這個問題,研究團隊設計了兩個配合使用的約束損失函數(可以理解為訓練時給模型的"行為準則")。第一個叫"注意力富集約束":它會計算每個語義分組(文字部分、內容參考部分、風格參考部分)相對於其token數量比例所獲得的注意力比例,得出一個"富集係數"。這個係數為1意味著該組獲得的注意力恰好和其大小成正比;大於1說明它獲得了"超額關注"。約束要求風格參考部分的富集係數不超過0.6倍的基準值,並且在去噪後期(也就是泄漏最容易發生的階段)施加更強的懲罰,以此抑制模型對風格圖的過度凝視。第二個叫"注意力熵約束":它確保模型在注視風格參考圖時,視線是相對均勻分散在風格圖各個區域的,而不是只死盯著某幾個token——這樣才能提取到全局的風格特徵,而不是局部的內容細節。這兩個約束只施加在第一個Transformer塊上,因為研究發現內容泄漏最先在這一層發生,後續層很難糾正已經形成的錯誤語義布局。

第二階段引入"內容參考+風格參考"雙參考任務,也就是同時給模型看內容圖和風格圖,讓它生成一張既保留內容結構又呈現目標風格的圖。這個任務比第一階段難得多,因為模型要同時"聽"兩份參考的話,還要根據文字提示做進一步調整。

然而,當內容參考圖出現後,情況發生了根本性變化:模型的注意力大部分被內容參考圖吸收,風格參考圖的注意力分配不再出現之前那種"後期暴增"的異常模式。於是第一階段的注意力約束失去了它的"靶心",不再那麼有效。但內容泄漏並沒有消失——它換了一條通道悄悄進行。

新的泄漏通道與RoPE(旋轉位置編碼)有關。RoPE是現代Transformer模型用來理解"哪個token在哪個位置"的一種機制,可以把它理解為給每個圖像小塊貼上一個精確的"坐標標籤"。RoPE編碼里有高頻成分和低頻成分:高頻成分記錄精細的局部位置關係,低頻成分記錄宏觀的全局結構。研究團隊發現,在雙參考任務下,風格參考圖的高頻RoPE成分會和生成圖裡的對應位置建立精確的"坐標對應"關係,使得模型可以按位置把風格圖裡的內容"貼片"搬進生成圖——這就是所謂的"位置對應泄漏"。

針對這個新問題,研究團隊提出了"頻率感知RoPE調製"策略。核心思路是:對風格參考圖的RoPE編碼做一個頻率相關的縮放——高頻成分(容易造成局部內容複製的)被削弱,低頻成分(有助於傳遞全局風格結構的)被增強。具體來說,他們給風格參考圖的每個RoPE維度賦予一個平滑的縮放係數,從高頻端的0.9(輕微削弱)漸變到低頻端的1.2(適度增強),過渡曲線的平滑度由一個參數β=2控制。這個調製只施加在風格參考圖的分支上,內容參考圖分支保持原樣不變,從而在風格提取和內容保留之間保持精確的職責分工。

整個訓練過程中,第一階段在風格遷移數據上跑了12萬步,批量大小32,學習率6e-6,使用8張H100 GPU;第二階段在LoRA挖礦三元組和風格遷移數據按3:1混合後,再跑2.4萬步。整個模型的骨架沿用了Qwen-Image-Edit的多模態架構,文字理解部分用視覺語言模型編碼,圖像生成部分用流匹配目標訓練,沒有引入任何額外的圖像編碼器——因為研究團隊通過t-SNE聚類實驗發現,現有的CLIP和DINOv2等編碼器在區分藝術風格時並不比直接使用VAE潛在空間特徵更好,反而會引入額外的噪聲。

四、如何衡量好壞:一套更公平的評測體系

做完了系統,還要有一把公平的尺子來量它的好壞。研究團隊同時推出了一套開放的評測基準,這套基準的設計本身就是一個重要貢獻。

評測數據集由200張內容參考圖和200張風格參考圖構成,內容圖涵蓋各種物體類別、場景和構圖,風格圖覆蓋油畫、水彩、3D渲染、像素藝術、抽象藝術等多個藝術領域。每一對參考圖都配有GPT生成的風格遷移文字指令,並且每種風格類別下有多個指令變體,以減少指令本身帶來的偏差。

評測覆蓋兩種任務設置:純風格參考生成(只有風格圖和內容原圖,生成風格化版本),以及雙參考生成(同時有內容參考圖、風格參考圖和文字指令,生成滿足所有條件的新圖)。

評測指標按照四個維度分組展開。風格一致性方面,使用ONEIG編碼器測量感知風格相似度,用CSD(基於對比學習的風格描述子)測量風格相似度,還用視覺語言模型VLM-S讓Qwen3-VL直接評分"生成圖和風格參考圖的整體視覺風格有多像"。內容保留方面,用DINOv2餘弦相似度測量語義結構的保留程度;此外特別採用了來自CSGO研究的內容對齊分數(CAS),這個指標先對DINOv2特徵做實例歸一化(去掉與風格相關的通道統計量),再計算歸一化後的特徵之間的均方誤差——這樣測出來的內容一致性不會被風格差異所干擾,更公平地反映真正的結構保留情況。還用VLM-C讓視覺語言模型直接評判內容保留質量。指令跟隨方面(僅雙參考任務),用CLIP-T測量圖像與文字指令的匹配度,用VLM-F讓模型判斷生成圖是否遵循了文字要求。美觀度方面,用LAION-Aesthetic和V2.5-Aesthetic兩個美學評分器衡量生成圖的視覺吸引力,防止出現指標好看但圖像實際上很難看的情況。

特別值得一提的是"驗證分數"這個新概念。驗證分數(Ver-S和Ver-C)不是一個連續數值,而是一個比例——在所有生成圖裡,有多少張被視覺語言模型判定為"風格遷移成功"或"內容保留成功"?判定方式是:對每張圖問模型三次同樣的是非題,至少兩次回答"是"才算通過。這個二元判定比連續相似度分數更直觀地反映了實際成功率,也更能暴露出那些平均分數看起來不錯、但實際上有相當比例生成失敗的方法。

五、實驗結果:在平衡感這件事上,FreeStyle做到了什麼

研究團隊把FreeStyle和一系列競爭對手放在同一個評測基準上比較,競爭對手包括閉源商業系統(Gemini、Seedream 4.5),以及多個開源方法(USO、CSGO、EasyRef、FLUX.2 klein、TeleStyle、Qwen-Image-Edit、OmniStyle)。

在純風格參考任務上,FreeStyle在VLM-Style一項拿到了7.142分,是所有開源方法裡最高的;Ver-S(風格驗證通過率)達到0.482,同樣排名第一。這意味著在所有開源方法裡,FreeStyle生成的圖被視覺語言模型判定為"風格遷移成功"的比例最高。同時,它的Ver-C(內容保留驗證)達到0.928,在開源方法裡排第二(和USO並列),說明它在轉換風格的同時很好地保留了內容。

這個結果和一個值得注意的對比現象放在一起看更有意思。CSGO的CSD分數最高(0.665),但它的VLM-Content只有1.516,Ver-C只有0.715——說明它雖然在風格特徵層面和參考圖很像,但視覺語言模型判斷它的內容保留質量其實相當有限。而Qwen-Image-Edit的DINOv2和CAS都最好,但它的VLM-Style只有3.487——說明它內容保留得不錯,但風格遷移力度很弱。這個對比生動地說明了為什麼單看任何一個指標都不全面,必須把特徵相似度指標和VLM判斷一起看。

在雙參考任務上,FreeStyle同樣在VLM-Style(5.467)和Ver-S(0.409)兩項居開源方法首位,綜合表現最均衡。對比其他方法,USO在內容指標上表現很好,但風格和指令跟隨很差;FLUX.2 klein指令跟隨強,但風格遷移弱(VLM-Style只有2.388)。沒有任何一個競爭對手能同時在風格、內容和指令跟隨三個維度上都保持有競爭力的水準。

消融實驗進一步驗證了每個設計選擇的價值。去掉第一階段的注意力富集約束,VLM泄漏分數從0.522暴增到2.674,意味著內容泄漏率大幅上升。去掉第二階段的頻率感知RoPE調製,泄漏分數從0.453升到1.047,同樣有顯著惡化。兩個組件各自針對不同的泄漏機制,缺一不可。

數據來源的對比實驗也很有說服力。用OmniStyle數據集訓練的同款模型(其他設置完全一樣)在VLM-Style上只有3.038,Ver-S只有0.186;而用FreeStyle的LoRA挖礦數據訓練後,這兩項分別躍升至7.142和0.482。代價是DINOv2和CAS分數有所下降(從0.897到0.809,從0.762到1.175),反映出模型在風格遷移上更"大膽"了,有時候內容結構會做一些與風格相適應的變形。不過從VLM-Content的角度看(從9.669到8.919),內容保留的語義質量差距並沒有那麼懸殊,說明數值變化一部分來自風格化帶來的外觀差異,而非真正的內容遺失。

---

說到底,FreeStyle這項研究做的事情,就是把一個"看起來很簡單、做起來很難"的問題,用一套從數據到訓練再到評測的完整工程體系認真地解了一遍。歸根結底,它的價值不僅在於生成的圖片更好看,更在於它讓我們理解了風格和內容是通過哪些具體通道互相干擾的——注意力過度分配是一個通道,位置編碼的高頻成分是另一個通道,而這兩個通道在不同任務設置下的主次地位還會發生變化。這種對機制的理解,比單純的性能數字更有持久的參考價值。

對於普通用戶來說,這項研究意味著在不遠的將來,"把這張照片變成那種風格"這件事會變得更可靠——不只是偶爾成功,而是穩定成功,同時還能精確控制哪些內容要保留、哪些要改變。這個能力在圖像創作、影視特效前期可視化、遊戲美術批量生產等場景里有相當直接的應用空間。

當然,研究本身也坦誠地列出了幾個尚未解決的難題。社區LoRA的質量服從長尾分布,少數LoRA質量極高,大多數質量參差不齊,如何自動化地持續評估和篩選是一個工程挑戰。不同底層模型(FLUX、Illustrious、Qwen)訓練出來的風格語義存在域偏移,跨模型的風格泛化還需要進一步研究。現有的驗證分數在測量風格與內容衝突的細粒度程度上還比較粗糙,未來需要更精細的泄漏度量工具。

有興趣深入了解技術細節的讀者,可以在arXiv上通過編號2606.20506查閱完整論文,研究團隊也表示會開源數據集、評測基準、ComfyUI工作流和模型權重。

---

Q&A

Q1:FreeStyle中的"內容泄漏"具體指什麼現象?

A:內容泄漏是指AI在進行風格遷移時,把風格參考圖裡的具體內容(比如人物、場景、物體)不小心搬進了生成結果里。舉個例子,你用梵谷的《星夜》做風格參考,想把貓咪照片變成梵谷畫風,但AI可能把《星夜》里的村莊或漩渦也一併畫進貓咪圖裡,這就是內容泄漏。FreeStyle分別針對注意力過度分配和位置編碼高頻成分這兩條泄漏通道設計了專門的抑制機制。

Q2:FreeStyle的社區LoRA挖礦數據集和OmniStyle數據集相比優勢在哪?

A:兩套數據訓練出的模型在風格遷移效果上差距顯著。用OmniStyle數據訓練的模型VLM風格評分只有3.038,風格驗證通過率只有18.6%;而用LoRA挖礦數據訓練後,這兩項分別達到7.142和48.2%。核心優勢在於LoRA挖礦數據覆蓋的風格種類更廣、更多長尾小眾風格,且風格和內容之間的分離更徹底,提供了更乾淨的訓練信號。

Q3:FreeStyle的頻率感知RoPE調製是怎麼起作用的?

A:RoPE是模型理解圖像中每個小塊"在哪個位置"的機制,高頻成分記錄精細的局部位置關係,低頻成分記錄宏觀結構。研究發現雙參考任務里風格圖的高頻RoPE成分會讓模型按位置把風格圖內容"貼片"複製進生成圖。FreeStyle的做法是把風格參考圖分支的高頻RoPE成分縮小到0.9倍(削弱局部複製傾向),低頻成分放大到1.2倍(保留全局風格感),從源頭切斷位置對應泄漏通道,同時不影響內容參考圖分支的正常工作。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新