當你的AI畫作被人偷走轉賣，誰來幫你抓住那個「內鬼」？——西北師範大學等高校聯合研究團隊提出的FedOT框架給出了答案

這項由西北師範大學、東京大學、新加坡國立大學和中山大學聯合完成的研究，以arXiv預印本形式於2026年6月22日發布，編號為arXiv:2606.22875v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

研究要解決的問題，其實可以用一個非常貼近生活的場景來描述。假設你所在的公司花了大量時間和金錢，聯合多家合作夥伴秘密訓練了一套能夠生成精美圖像的AI系統。這套系統非常寶貴，能畫出以假亂真的人物肖像、風景畫乃至各種商業插圖。然而有一天，你發現網上出現了一個陌生人在兜售用這套系統生成的圖片，甚至把整個AI模型都轉賣給了別人。你想追究責任，卻發現自己根本無法證明這些圖片是你們的系統生成的，更不知道究竟是哪個合作夥伴乾的這件事。

這就是當下AI領域一個真實存在且相當棘手的問題。研究團隊針對的，正是一種叫做"聯邦學習中的潛在擴散模型"的技術組合——聽起來很晦澀，但其實不難理解。所謂"潛在擴散模型"，可以理解為一台極其高級的AI畫筆，它能根據文字描述或者隨機靈感，生成質量極高的圖像，是當下最流行的AI作圖技術之一，Stable Diffusion就是其中的代表。而"聯邦學習"則是一種讓多個參與方共同訓練同一個AI模型的方式，各方不需要把自己的私密數據上交給中央伺服器，只需要上傳模型的更新結果，從而保護數據隱私——就好比多家餐廳聯合研發一道招牌菜，但每家店都只分享改進建議，而不透露自己的食材採購記錄。

這兩種技術結合起來，本是一件好事：既能發揮AI的強大生成能力，又能保護各參與方的數據隱私。然而聯邦學習有一個不可迴避的漏洞——為了讓各方都能參與訓練，伺服器必須把最新版本的AI模型分發給所有參與者。這就意味著，一旦其中某個參與者心懷不軌，就可以把這個共同打造的AI模型偷偷拿走、轉賣或濫用，而其他人對此幾乎毫無辦法。

贊助商廣告

FedOT框架正是為了堵上這個漏洞而生。它提出了一套完整的"水印+防拆"機制，既能在事後證明某張圖片確實來自某個聯邦訓練的模型（所有權驗證），也能精準指出究竟是哪個參與者泄露了模型（溯源追蹤）。更重要的是，它還防止了一種極為狡猾的"偷梁換柱"攻擊——後文會詳細講到這究竟是怎麼回事。

一、為什麼給AI模型打水印這麼難

要理解FedOT的創新之處，先得搞清楚潛在擴散模型的內部結構，以及為什麼已有的水印技術在聯邦學習場景下會失效。

潛在擴散模型內部其實由兩個相對獨立的部件協作完成圖像生成。第一個部件叫VAE（變分自編碼器），可以把它理解為模型的"翻譯官"——它負責把普通圖片壓縮成一種緊湊的數字代碼（行話叫"潛在向量"或"latent vector"），也能反過來把這種代碼解壓回圖片。第二個部件叫U-Net，是真正負責"作畫"的核心，它在那個壓縮後的數字代碼空間裡反覆加工，把一團隨機的噪聲逐步雕琢成符合要求的圖像。

在聯邦學習的場景下，每次訓練疊代時，各參與方只會更新和上傳U-Net的參數，VAE則保持凍結不動。這個特點讓VAE天然成為埋藏水印的好地方——研究人員可以在VAE的解碼器里埋下特定信號，使得凡是經過這個VAE生成的圖片，都會帶有肉眼看不見卻能被專門工具檢測出來的水印。這種思路來自一篇名為"Stable Signature"的已有研究，是目前針對潛在擴散模型最直接的水印方案。

然而，把這套方案直接搬到聯邦學習場景中，會撞上兩堵牆。第一堵牆是：現有的VAE水印方法只能證明"這張圖來自我們的聯邦模型"，卻沒有辦法進一步區分究竟是五個參與方中的哪一個泄露了模型。這就好比你能證明某個蛋糕出自你們的聯合廚房，卻沒有辦法找出是哪位廚師把配方偷偷帶出去了。

第二堵牆更加致命：VAE水印極其脆弱。由於VAE是開源的，任何人都可以從網上下載一個沒有水印的乾淨VAE，然後把它替換進泄露的模型里。這個操作幾乎零成本，完成後模型的生成質量幾乎不受影響，但水印就這樣被徹底抹去了。這就像在一把名貴的小提琴上刻下暗記，卻發現有人可以輕易把琴頭換掉，暗記就此消失。

贊助商廣告

FedOT的核心使命，就是同時攻克這兩道難關。

二、分塊水印：一把鑰匙解決"是誰的"和"是哪個人的"兩個問題

應對第一堵牆，研究團隊設計了一套他們稱之為"分塊水印"的機制。這個思路說起來並不複雜，但很巧妙。

在FedOT框架里，每個客戶端（參與方）收到的AI模型都帶有一個獨特的水印，這個水印是一串由0和1組成的二進制代碼，總長度為n位。這串代碼被分成前後兩段：前r位是所有參與方共享的相同內容，專門用於證明"這個模型來自我們的聯邦學習團隊"（所有權驗證）；後面的n-r位則對每個參與方來說是獨一無二的，用於在所有權驗證通過之後，進一步鎖定"是哪個參與者的那份模型"（溯源追蹤）。

在實驗中，研究團隊將總長度n設為48位，其中前16位用於所有權驗證，後32位用於追蹤具體客戶端。當一張可疑圖片出現時，伺服器先用專門的水印提取器從圖片中解讀出嵌入的水印資訊。如果提取出來的前16位與已知的聯邦組水印匹配程度超過一個設定的閾值（實驗中設為0.69，對應的誤報率僅有0.1%），就可以確認這張圖來自該聯邦模型。隨後，伺服器再把提取出來的後32位分別與每個參與方對應的獨特水印段對比，找到匹配度最高的那個，就鎖定了泄露者。

這種先驗證所有權、再追蹤個體的兩步走設計有一個額外好處：大部分時候只需要檢查前16位就能完成初步篩查，只有在確認所有權之後才需要進一步做全量匹配，這樣在規模龐大的部署中可以節省不少計算資源。

為了讓不同參與方的後32位水印足夠"涇渭分明"，不至於因為太相似而張冠李戴，研究團隊還藉助了一種叫做遺傳算法的優化技術，專門挑選出各參與方之間漢明距離（即兩串代碼有多少位不同）儘可能大的水印組合。實驗證明，這套優化分配方案在1000個客戶端規模下的碰撞概率（誤判概率）為零，即便擴大到10000個客戶端，碰撞概率也僅有0.337%，相比隨機分配有顯著提升。

贊助商廣告

水印的嵌入方式延續了Stable Signature的思路，由伺服器在分發模型之前，針對每個客戶端單獨微調VAE的解碼器部分。具體來說，伺服器先準備一批公開的圖片，讓VAE編碼器把它們壓縮成數字代碼，再讓可訓練的解碼器把這些代碼還原成圖片，然後把還原出來的圖片送入一個專門的水印提取器，讓提取器讀出當前嵌入的水印信號。通過對比提取出的信號與目標水印之間的差距（用二元交叉熵損失函數來衡量），不斷調整解碼器的參數，直到解碼器生成的圖片能穩定攜帶目標水印為止。與此同時，為了保證圖片的視覺質量不被水印拖累，還加入了一個叫Watson-VGG的感知損失項，讓嵌入水印後的圖片與原圖在人眼看來差距極小。整個嵌入過程對每個客戶端只需進行一次，不需要在每輪聯邦訓練中重複，每塊GPU大約只需5分鐘就能完成。

三、潛在向量變換：給VAE和U-Net之間上一把"專屬鎖"

然而，即便水印嵌入得再精妙，如果攻擊者只需要換掉VAE就能把水印一筆勾銷，那整套系統依然形同虛設。這正是研究團隊要面對的第二堵牆，也是FedOT最具獨創性的部分——潛在向量變換（LVT）。

LVT的核心思路源自對聯邦擴散模型訓練機制的一個深刻觀察：在聯邦訓練過程中，U-Net會反覆接觸VAE編碼器產生的數字代碼（潛在向量），並逐漸"學會"在這個特定的數字空間裡生成圖像。換句話說，U-Net對VAE產生的數字代碼是有"依賴性"的——它只認識特定VAE產生的那種格式的代碼，換了一個不同的VAE，產生的代碼格式就會不一樣，U-Net就會"看不懂"，從而無法生成高質量圖像。

LVT的做法，就是在聯邦訓練開始之前，主動對VAE的"翻譯規則"動手腳，讓它產生的數字代碼與原始的標準格式有所不同。這樣一來，後續參與聯邦訓練的U-Net就會逐漸適應這種經過改造的數字代碼格式。一旦有人想通過替換VAE來去除水印，新換進來的標準VAE產生的是正常格式的代碼，而U-Net已經只認識改造後的格式，二者就產生了"語言不通"的問題，生成的圖片質量會大幅下降，模型也就基本廢掉了。

贊助商廣告

LVT的訓練過程分為兩個階段，可以用"訓練翻譯官"的比喻來理解。在第一階段，VAE編碼器在固定解碼器的情況下接受訓練：它要學會把輸入圖片翻譯成經過特定變換的數字代碼，而解碼器則仍然按照變換後的代碼來還原圖片，以此迫使編碼器學會那個特定的變換規則。在第二階段，編碼器被凍結，輪到解碼器接受訓練：由於編碼器已經學會了新的翻譯規則，它產生的代碼已經是變換後的版本，解碼器需要學會從這種變換後的代碼中正確還原出圖片，相當於學會了"逆變換"。兩個階段完成後，整個VAE就形成了一套只有伺服器知道的"私有翻譯協議"。

研究團隊探索了三種不同的變換策略。第一種叫平移變換，就是在所有數字代碼上加一個固定的常數偏移量，相當於把整個"翻譯字典"往某個方向整體挪動。從數學角度看，原來服從均值為μ、方差為σ?的高斯分布的代碼，變換後的均值變成了μ+c，方差不變。這種變換在測試中發現，當偏移量c設為11時，被替換攻擊後的圖片FID（衡量圖片質量的指標，數值越小越好）從20.4急劇攀升至92.5，說明防禦效果相當強力；但代價是，即便沒有攻擊，生成圖片的質量（FID=22.4）相比其他方案也更差一些。

第二種叫鏡像變換，就是把所有數字代碼乘以負一，相當於在數字空間裡做一次"翻轉"。這種變換在被攻擊後FID上升幅度達到49，防禦能力同樣很強，而且在沒有攻擊時生成質量（FID=21.5）優於平移變換；但有一個明顯缺點是，攻擊發生後生成圖片的CLIP分數（衡量圖片與文字描述的匹配度）大幅下滑，意味著圖片內容和文字提示之間的語義關聯被嚴重破壞，內容幾乎無法辨認。

第三種叫負像變換，思路與前兩種有所不同——它不直接在數字代碼上做操作，而是在圖片層面做文章：把輸入圖片的每個像素值取反（255減去原始像素值），相當於把彩色圖片變成類似"底片"的效果，然後讓VAE學會把正常圖片映射到這種"底片"圖片對應的代碼空間。這種變換能保留更多圖片的高頻細節，避免了鏡像變換帶來的邊緣模糊問題。實驗證明，負像變換在未受攻擊時的生成質量最佳（FID=20.4），在被攻擊後FID上升幅度為20，防禦能力雖然不如前兩種那麼激進，但綜合表現最均衡，是研究團隊推薦的最優選擇。

贊助商廣告

相比之下，還有一種基準方案叫隨機變換，即在代碼上疊加隨機的高斯噪聲。理論上這也能改變代碼分布，但實驗發現VAE根本無法學會如何適應每次都不同的隨機噪聲——因為隨機噪聲打破了潛在空間內相鄰樣本之間的局部鄰域關係，導致解碼器無法建立穩定的逆映射。最終隨機變換版本在未受攻擊時FID高達35.6，圖片質量已經相當差了，因此只作為對照基準而非實際建議方案。

四、實驗證明了什麼

研究團隊在實際實驗中使用了Stable Diffusion v2.1模型，模擬了5個聯邦客戶端的場景，用COCO2017數據集（包含10000張涵蓋80個類別的圖片）訓練VAE的變換，用LAION-10K數據集（10000張高質量圖文對）模擬各客戶端的私有訓練數據。整個實驗在4塊RTX 4090顯卡上運行，LVT訓練約需24小時，每個客戶端的聯邦訓練約需7.5小時。

在所有權驗證和溯源能力方面，以負像變換版本為例，其所有權檢測率達到0.960，位精度（bit accuracy，即水印各位被正確提取的比例）達到0.947；溯源追蹤的檢測率為0.932，位精度為0.910。這意味著絕大多數情況下，系統都能正確識別出一張圖片來自聯邦模型，並且在需要時能準確指出是哪個客戶端泄露的。對比之下，原版Stable Signature*（即直接把Stable Signature用於聯邦學習）只有所有權驗證能力，完全無法溯源追蹤。

在抵禦VAE替換攻擊方面，實驗數據非常直觀。對於沒有LVT保護的版本（FedOTw/o LVT），攻擊前FID為16.7，攻擊後FID變化幾乎可以忽略不計，僅上升了0.37，說明攻擊者可以輕而易舉地去掉水印而不影響模型可用性。而加入負像變換後，攻擊後FID上升了20.2，遠超原始Stable Diffusion的基線水平（22.99），意味著攻擊者即便成功替換了VAE、去掉了水印，也會發現模型已經幾乎不能正常使用了——這正是FedOT想要達到的效果：讓"偷梁換柱"這個動作得不償失。

研究團隊還測試了恢復攻擊場景。以負像變換為例，攻擊者在觀察到生成圖片呈現出"底片"般的異常色調後，可能會想到再對圖片做一次取反來"復原"。實驗模擬了這種最理想的攻擊情形，結果發現即便經過二次取反恢復，FID依然比正常水平高出4.7，說明潛在空間中學到的變換隻是對像素級取反的近似，並非完美復現，因此無法通過簡單的圖片操作完全消除影響。類似地，平移變換和鏡像變換的恢復攻擊實驗也得出了相似的結論：即便攻擊者知道變換的參數，也難以通過後處理把圖片質量完全恢復到正常水平。

贊助商廣告

針對淨化攻擊（attacker通過在乾淨數據上微調來"洗掉"水印）的測試同樣令人放心。當攻擊者對包含水印的模型參數進行長達300輪的微調後，三種LVT方案的FID均從22以下升至26以上，其中鏡像變換版本上升幅度最大。這說明想要消除水印，必然要付出破壞圖片質量的代價，兩者之間存在無法迴避的權衡。

此外，研究團隊還測試了針對生成圖片本身的常見攻擊手段，包括裁剪、亮度調整、JPEG壓縮（質量50%）、對比度調整、添加文字水印以及縮放至50%解析度，以及將裁剪和亮度調整組合施加的最強組合攻擊。在所有這些攻擊下，負像變換版本的水印位精度最低仍有0.778（組合攻擊下），整體表現穩健，說明水印對圖片級別的後處理也有一定的抵抗力。

實驗還考察了不同聯邦規模和數據分布的影響。當客戶端數量從5擴展到10再到20時，生成質量和水印檢測率基本保持穩定，檢測率始終在0.941以上。在非獨立同分布（non-i.i.d.）數據場景下，通過狄利克雷分布模擬不同程度的數據異質性，結果同樣顯示檢測率始終高於0.957，說明數據分布不均勻對水印的魯棒性影響有限。

針對合謀攻擊（即多個惡意客戶端聯合行動，把各自VAE參數取平均來混淆水印）的測試也給出了有趣的發現。當2到3個客戶端合謀時，溯源追蹤段的位精度會顯著下降（2方合謀下降約0.216，3方合謀下降約0.321），但所有權驗證段的位精度反而略有上升。研究團隊把這一現象歸因於分塊水印設計的特性：所有權段對所有客戶端是相同的，多個模型參數取平均會強化這個共同信號；而溯源段對每個客戶端是獨特的，取平均會相互抵消。這種不同的變化模式本身也提供了一個判斷是否存在合謀的信號，研究團隊表示將在未來工作中進一步探討這個方向。

在端到端的歸因精度測試中，研究團隊對5個客戶端各採樣1000張生成圖片，系統整體歸因正確率達到98.12%，誤歸因率僅為1.88%。

贊助商廣告

五、這套框架如何在實際中運作

把上面所有這些機制串聯起來，FedOT的完整工作流程是這樣的：伺服器首先對初始的全局模型做LVT訓練，讓VAE的潛在空間按照選定的變換規則（比如負像變換）發生偏移；然後，伺服器為每個客戶端製作一份帶有獨特分塊水印的VAE解碼器，連同已經經過LVT改造的VAE編碼器，一起分發給各個客戶端；客戶端在收到模型後，只需在本地數據上微調U-Net，VAE保持凍結不動；每輪訓練結束後，客戶端把更新後的U-Net參數上傳給伺服器，伺服器聚合這些參數並分發給下一輪；如此循環直到訓練完成。整個過程中，VAE始終攜帶著專屬水印，U-Net則逐漸適應了LVT改造後的潛在空間，與這個特定VAE深度綁定。一旦有可疑圖片出現，伺服器就能提取水印，先驗證所有權，再鎖定來源客戶端。

值得一提的是，研究團隊選擇在16輪聯邦訓練後停止，這是因為實驗發現在LVT改造的潛在空間下，生成質量在第15至16輪時達到最佳，之後繼續訓練反而會讓質量下滑。這是LVT引入的潛在空間偏移帶來的訓練動力學變化，是一個需要注意的實踐細節。

關於系統的可擴展性，每個客戶端對應一個獨立的watermarked VAE，每個模型約占335MB儲存空間。隨著客戶端數量增加，伺服器的儲存需求線性增長。研究團隊坦承受限於硬體條件，無法在真實百萬級客戶端規模下驗證，但指出Stable Signature已有文獻證明類似的水印方案在多達1000萬用戶的場景下依然有效，由此間接支持了FedOT的可擴展性潛力。

說到底，FedOT解決的是一個在AI技術快速普及的當下越來越真實的問題：當多個機構共同訓練一個強大的AI模型時，如何保護這個共同成果不被內部某個成員私自帶走變現？研究團隊通過把水印嵌入與潛在空間改造兩件事結合起來，讓"偷模型"變成了一件費力不討好的事——即便成功拿走了模型，要麼帶著水印跑不掉，要麼換掉水印但模型也廢了。這種讓盜竊行為在技術上自我懲罰的設計思路，是整個研究最值得關注的地方。當然，研究團隊也坦誠地指出，水印嵌入不可避免地會帶來一定程度的圖片質量下降，這是目前所有水印技術共同面臨的內在權衡，未來仍有改進空間。對於關注AI版權保護、聯邦學習安全或者生成式AI治理的讀者而言，這篇論文提供了一個完整且可操作的思路框架，值得深入了解，完整內容可通過arXiv:2606.22875v1獲取。

贊助商廣告

Q&A

Q1：FedOT中的"分塊水印"和普通水印有什麼區別？

A：普通的VAE水印只能證明某張圖片來自某個聯邦模型（相當於證明出自同一個廚房），但無法區分是哪個參與方泄露的模型。FedOT的分塊水印把水印分成兩段：前一段所有參與方共享，用於證明所有權；後一段每人獨一份，用於追蹤具體泄露者。這樣既能驗證來源，也能精準溯源。

Q2：LVT的潛在向量變換為什麼能阻止攻擊者直接換掉VAE？

A：因為U-Net在聯邦訓練過程中會持續接觸經過LVT改造的潛在代碼，時間久了就只認識這種"改版格式"。一旦有人換上一個標準的VAE，產生的代碼是原始格式，U-Net看不懂，生成的圖片質量就會嚴重下降，模型等於廢掉了。代價太大，自然打消了攻擊者的念頭。

Q3：FedOT框架適用於哪些實際場景？

A：FedOT主要適用於多個機構聯合訓練圖像生成AI但需要保護模型版權的場景，比如醫療機構聯合訓練醫學影像生成模型、多個企業聯合開發商業圖像工具等。凡是需要把同一個AI模型分發給多個參與方，同時擔心其中某方非法轉賣或濫用的情況，FedOT都能提供所有權證明和泄露方追蹤的能力。