宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

當你的AI畫作被人偷走轉賣,誰來幫你抓住那個「內鬼」?——西北師範大學等高校聯合研究團隊提出的FedOT框架給出了答案

2026年06月29日 首頁 » 熱門科技

這項由西北師範大學、東京大學、新加坡國立大學和中山大學聯合完成的研究,以arXiv預印本形式於2026年6月22日發布,編號為arXiv:2606.22875v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

研究要解決的問題,其實可以用一個非常貼近生活的場景來描述。假設你所在的公司花了大量時間和金錢,聯合多家合作夥伴秘密訓練了一套能夠生成精美圖像的AI系統。這套系統非常寶貴,能畫出以假亂真的人物肖像、風景畫乃至各種商業插圖。然而有一天,你發現網上出現了一個陌生人在兜售用這套系統生成的圖片,甚至把整個AI模型都轉賣給了別人。你想追究責任,卻發現自己根本無法證明這些圖片是你們的系統生成的,更不知道究竟是哪個合作夥伴乾的這件事。

這就是當下AI領域一個真實存在且相當棘手的問題。研究團隊針對的,正是一種叫做"聯邦學習中的潛在擴散模型"的技術組合——聽起來很晦澀,但其實不難理解。所謂"潛在擴散模型",可以理解為一台極其高級的AI畫筆,它能根據文字描述或者隨機靈感,生成質量極高的圖像,是當下最流行的AI作圖技術之一,Stable Diffusion就是其中的代表。而"聯邦學習"則是一種讓多個參與方共同訓練同一個AI模型的方式,各方不需要把自己的私密數據上交給中央伺服器,只需要上傳模型的更新結果,從而保護數據隱私——就好比多家餐廳聯合研發一道招牌菜,但每家店都只分享改進建議,而不透露自己的食材採購記錄。

這兩種技術結合起來,本是一件好事:既能發揮AI的強大生成能力,又能保護各參與方的數據隱私。然而聯邦學習有一個不可迴避的漏洞——為了讓各方都能參與訓練,伺服器必須把最新版本的AI模型分發給所有參與者。這就意味著,一旦其中某個參與者心懷不軌,就可以把這個共同打造的AI模型偷偷拿走、轉賣或濫用,而其他人對此幾乎毫無辦法。

FedOT框架正是為了堵上這個漏洞而生。它提出了一套完整的"水印+防拆"機制,既能在事後證明某張圖片確實來自某個聯邦訓練的模型(所有權驗證),也能精準指出究竟是哪個參與者泄露了模型(溯源追蹤)。更重要的是,它還防止了一種極為狡猾的"偷梁換柱"攻擊——後文會詳細講到這究竟是怎麼回事。

一、為什麼給AI模型打水印這麼難

要理解FedOT的創新之處,先得搞清楚潛在擴散模型的內部結構,以及為什麼已有的水印技術在聯邦學習場景下會失效。

潛在擴散模型內部其實由兩個相對獨立的部件協作完成圖像生成。第一個部件叫VAE(變分自編碼器),可以把它理解為模型的"翻譯官"——它負責把普通圖片壓縮成一種緊湊的數字代碼(行話叫"潛在向量"或"latent vector"),也能反過來把這種代碼解壓回圖片。第二個部件叫U-Net,是真正負責"作畫"的核心,它在那個壓縮後的數字代碼空間裡反覆加工,把一團隨機的噪聲逐步雕琢成符合要求的圖像。

在聯邦學習的場景下,每次訓練疊代時,各參與方只會更新和上傳U-Net的參數,VAE則保持凍結不動。這個特點讓VAE天然成為埋藏水印的好地方——研究人員可以在VAE的解碼器里埋下特定信號,使得凡是經過這個VAE生成的圖片,都會帶有肉眼看不見卻能被專門工具檢測出來的水印。這種思路來自一篇名為"Stable Signature"的已有研究,是目前針對潛在擴散模型最直接的水印方案。

然而,把這套方案直接搬到聯邦學習場景中,會撞上兩堵牆。第一堵牆是:現有的VAE水印方法只能證明"這張圖來自我們的聯邦模型",卻沒有辦法進一步區分究竟是五個參與方中的哪一個泄露了模型。這就好比你能證明某個蛋糕出自你們的聯合廚房,卻沒有辦法找出是哪位廚師把配方偷偷帶出去了。

第二堵牆更加致命:VAE水印極其脆弱。由於VAE是開源的,任何人都可以從網上下載一個沒有水印的乾淨VAE,然後把它替換進泄露的模型里。這個操作幾乎零成本,完成後模型的生成質量幾乎不受影響,但水印就這樣被徹底抹去了。這就像在一把名貴的小提琴上刻下暗記,卻發現有人可以輕易把琴頭換掉,暗記就此消失。

FedOT的核心使命,就是同時攻克這兩道難關。

二、分塊水印:一把鑰匙解決"是誰的"和"是哪個人的"兩個問題

應對第一堵牆,研究團隊設計了一套他們稱之為"分塊水印"的機制。這個思路說起來並不複雜,但很巧妙。

在FedOT框架里,每個客戶端(參與方)收到的AI模型都帶有一個獨特的水印,這個水印是一串由0和1組成的二進制代碼,總長度為n位。這串代碼被分成前後兩段:前r位是所有參與方共享的相同內容,專門用於證明"這個模型來自我們的聯邦學習團隊"(所有權驗證);後面的n-r位則對每個參與方來說是獨一無二的,用於在所有權驗證通過之後,進一步鎖定"是哪個參與者的那份模型"(溯源追蹤)。

在實驗中,研究團隊將總長度n設為48位,其中前16位用於所有權驗證,後32位用於追蹤具體客戶端。當一張可疑圖片出現時,伺服器先用專門的水印提取器從圖片中解讀出嵌入的水印資訊。如果提取出來的前16位與已知的聯邦組水印匹配程度超過一個設定的閾值(實驗中設為0.69,對應的誤報率僅有0.1%),就可以確認這張圖來自該聯邦模型。隨後,伺服器再把提取出來的後32位分別與每個參與方對應的獨特水印段對比,找到匹配度最高的那個,就鎖定了泄露者。

這種先驗證所有權、再追蹤個體的兩步走設計有一個額外好處:大部分時候只需要檢查前16位就能完成初步篩查,只有在確認所有權之後才需要進一步做全量匹配,這樣在規模龐大的部署中可以節省不少計算資源。

為了讓不同參與方的後32位水印足夠"涇渭分明",不至於因為太相似而張冠李戴,研究團隊還藉助了一種叫做遺傳算法的優化技術,專門挑選出各參與方之間漢明距離(即兩串代碼有多少位不同)儘可能大的水印組合。實驗證明,這套優化分配方案在1000個客戶端規模下的碰撞概率(誤判概率)為零,即便擴大到10000個客戶端,碰撞概率也僅有0.337%,相比隨機分配有顯著提升。

水印的嵌入方式延續了Stable Signature的思路,由伺服器在分發模型之前,針對每個客戶端單獨微調VAE的解碼器部分。具體來說,伺服器先準備一批公開的圖片,讓VAE編碼器把它們壓縮成數字代碼,再讓可訓練的解碼器把這些代碼還原成圖片,然後把還原出來的圖片送入一個專門的水印提取器,讓提取器讀出當前嵌入的水印信號。通過對比提取出的信號與目標水印之間的差距(用二元交叉熵損失函數來衡量),不斷調整解碼器的參數,直到解碼器生成的圖片能穩定攜帶目標水印為止。與此同時,為了保證圖片的視覺質量不被水印拖累,還加入了一個叫Watson-VGG的感知損失項,讓嵌入水印後的圖片與原圖在人眼看來差距極小。整個嵌入過程對每個客戶端只需進行一次,不需要在每輪聯邦訓練中重複,每塊GPU大約只需5分鐘就能完成。

三、潛在向量變換:給VAE和U-Net之間上一把"專屬鎖"

然而,即便水印嵌入得再精妙,如果攻擊者只需要換掉VAE就能把水印一筆勾銷,那整套系統依然形同虛設。這正是研究團隊要面對的第二堵牆,也是FedOT最具獨創性的部分——潛在向量變換(LVT)。

LVT的核心思路源自對聯邦擴散模型訓練機制的一個深刻觀察:在聯邦訓練過程中,U-Net會反覆接觸VAE編碼器產生的數字代碼(潛在向量),並逐漸"學會"在這個特定的數字空間裡生成圖像。換句話說,U-Net對VAE產生的數字代碼是有"依賴性"的——它只認識特定VAE產生的那種格式的代碼,換了一個不同的VAE,產生的代碼格式就會不一樣,U-Net就會"看不懂",從而無法生成高質量圖像。

LVT的做法,就是在聯邦訓練開始之前,主動對VAE的"翻譯規則"動手腳,讓它產生的數字代碼與原始的標準格式有所不同。這樣一來,後續參與聯邦訓練的U-Net就會逐漸適應這種經過改造的數字代碼格式。一旦有人想通過替換VAE來去除水印,新換進來的標準VAE產生的是正常格式的代碼,而U-Net已經只認識改造後的格式,二者就產生了"語言不通"的問題,生成的圖片質量會大幅下降,模型也就基本廢掉了。

LVT的訓練過程分為兩個階段,可以用"訓練翻譯官"的比喻來理解。在第一階段,VAE編碼器在固定解碼器的情況下接受訓練:它要學會把輸入圖片翻譯成經過特定變換的數字代碼,而解碼器則仍然按照變換後的代碼來還原圖片,以此迫使編碼器學會那個特定的變換規則。在第二階段,編碼器被凍結,輪到解碼器接受訓練:由於編碼器已經學會了新的翻譯規則,它產生的代碼已經是變換後的版本,解碼器需要學會從這種變換後的代碼中正確還原出圖片,相當於學會了"逆變換"。兩個階段完成後,整個VAE就形成了一套只有伺服器知道的"私有翻譯協議"。

研究團隊探索了三種不同的變換策略。第一種叫平移變換,就是在所有數字代碼上加一個固定的常數偏移量,相當於把整個"翻譯字典"往某個方向整體挪動。從數學角度看,原來服從均值為μ、方差為σ?的高斯分布的代碼,變換後的均值變成了μ+c,方差不變。這種變換在測試中發現,當偏移量c設為11時,被替換攻擊後的圖片FID(衡量圖片質量的指標,數值越小越好)從20.4急劇攀升至92.5,說明防禦效果相當強力;但代價是,即便沒有攻擊,生成圖片的質量(FID=22.4)相比其他方案也更差一些。

第二種叫鏡像變換,就是把所有數字代碼乘以負一,相當於在數字空間裡做一次"翻轉"。這種變換在被攻擊後FID上升幅度達到49,防禦能力同樣很強,而且在沒有攻擊時生成質量(FID=21.5)優於平移變換;但有一個明顯缺點是,攻擊發生後生成圖片的CLIP分數(衡量圖片與文字描述的匹配度)大幅下滑,意味著圖片內容和文字提示之間的語義關聯被嚴重破壞,內容幾乎無法辨認。

第三種叫負像變換,思路與前兩種有所不同——它不直接在數字代碼上做操作,而是在圖片層面做文章:把輸入圖片的每個像素值取反(255減去原始像素值),相當於把彩色圖片變成類似"底片"的效果,然後讓VAE學會把正常圖片映射到這種"底片"圖片對應的代碼空間。這種變換能保留更多圖片的高頻細節,避免了鏡像變換帶來的邊緣模糊問題。實驗證明,負像變換在未受攻擊時的生成質量最佳(FID=20.4),在被攻擊後FID上升幅度為20,防禦能力雖然不如前兩種那麼激進,但綜合表現最均衡,是研究團隊推薦的最優選擇。

相比之下,還有一種基準方案叫隨機變換,即在代碼上疊加隨機的高斯噪聲。理論上這也能改變代碼分布,但實驗發現VAE根本無法學會如何適應每次都不同的隨機噪聲——因為隨機噪聲打破了潛在空間內相鄰樣本之間的局部鄰域關係,導致解碼器無法建立穩定的逆映射。最終隨機變換版本在未受攻擊時FID高達35.6,圖片質量已經相當差了,因此只作為對照基準而非實際建議方案。

四、實驗證明了什麼

研究團隊在實際實驗中使用了Stable Diffusion v2.1模型,模擬了5個聯邦客戶端的場景,用COCO2017數據集(包含10000張涵蓋80個類別的圖片)訓練VAE的變換,用LAION-10K數據集(10000張高質量圖文對)模擬各客戶端的私有訓練數據。整個實驗在4塊RTX 4090顯卡上運行,LVT訓練約需24小時,每個客戶端的聯邦訓練約需7.5小時。

在所有權驗證和溯源能力方面,以負像變換版本為例,其所有權檢測率達到0.960,位精度(bit accuracy,即水印各位被正確提取的比例)達到0.947;溯源追蹤的檢測率為0.932,位精度為0.910。這意味著絕大多數情況下,系統都能正確識別出一張圖片來自聯邦模型,並且在需要時能準確指出是哪個客戶端泄露的。對比之下,原版Stable Signature*(即直接把Stable Signature用於聯邦學習)只有所有權驗證能力,完全無法溯源追蹤。

在抵禦VAE替換攻擊方面,實驗數據非常直觀。對於沒有LVT保護的版本(FedOTw/o LVT),攻擊前FID為16.7,攻擊後FID變化幾乎可以忽略不計,僅上升了0.37,說明攻擊者可以輕而易舉地去掉水印而不影響模型可用性。而加入負像變換後,攻擊後FID上升了20.2,遠超原始Stable Diffusion的基線水平(22.99),意味著攻擊者即便成功替換了VAE、去掉了水印,也會發現模型已經幾乎不能正常使用了——這正是FedOT想要達到的效果:讓"偷梁換柱"這個動作得不償失。

研究團隊還測試了恢復攻擊場景。以負像變換為例,攻擊者在觀察到生成圖片呈現出"底片"般的異常色調後,可能會想到再對圖片做一次取反來"復原"。實驗模擬了這種最理想的攻擊情形,結果發現即便經過二次取反恢復,FID依然比正常水平高出4.7,說明潛在空間中學到的變換隻是對像素級取反的近似,並非完美復現,因此無法通過簡單的圖片操作完全消除影響。類似地,平移變換和鏡像變換的恢復攻擊實驗也得出了相似的結論:即便攻擊者知道變換的參數,也難以通過後處理把圖片質量完全恢復到正常水平。

針對淨化攻擊(attacker通過在乾淨數據上微調來"洗掉"水印)的測試同樣令人放心。當攻擊者對包含水印的模型參數進行長達300輪的微調後,三種LVT方案的FID均從22以下升至26以上,其中鏡像變換版本上升幅度最大。這說明想要消除水印,必然要付出破壞圖片質量的代價,兩者之間存在無法迴避的權衡。

此外,研究團隊還測試了針對生成圖片本身的常見攻擊手段,包括裁剪、亮度調整、JPEG壓縮(質量50%)、對比度調整、添加文字水印以及縮放至50%解析度,以及將裁剪和亮度調整組合施加的最強組合攻擊。在所有這些攻擊下,負像變換版本的水印位精度最低仍有0.778(組合攻擊下),整體表現穩健,說明水印對圖片級別的後處理也有一定的抵抗力。

實驗還考察了不同聯邦規模和數據分布的影響。當客戶端數量從5擴展到10再到20時,生成質量和水印檢測率基本保持穩定,檢測率始終在0.941以上。在非獨立同分布(non-i.i.d.)數據場景下,通過狄利克雷分布模擬不同程度的數據異質性,結果同樣顯示檢測率始終高於0.957,說明數據分布不均勻對水印的魯棒性影響有限。

針對合謀攻擊(即多個惡意客戶端聯合行動,把各自VAE參數取平均來混淆水印)的測試也給出了有趣的發現。當2到3個客戶端合謀時,溯源追蹤段的位精度會顯著下降(2方合謀下降約0.216,3方合謀下降約0.321),但所有權驗證段的位精度反而略有上升。研究團隊把這一現象歸因於分塊水印設計的特性:所有權段對所有客戶端是相同的,多個模型參數取平均會強化這個共同信號;而溯源段對每個客戶端是獨特的,取平均會相互抵消。這種不同的變化模式本身也提供了一個判斷是否存在合謀的信號,研究團隊表示將在未來工作中進一步探討這個方向。

在端到端的歸因精度測試中,研究團隊對5個客戶端各採樣1000張生成圖片,系統整體歸因正確率達到98.12%,誤歸因率僅為1.88%。

五、這套框架如何在實際中運作

把上面所有這些機制串聯起來,FedOT的完整工作流程是這樣的:伺服器首先對初始的全局模型做LVT訓練,讓VAE的潛在空間按照選定的變換規則(比如負像變換)發生偏移;然後,伺服器為每個客戶端製作一份帶有獨特分塊水印的VAE解碼器,連同已經經過LVT改造的VAE編碼器,一起分發給各個客戶端;客戶端在收到模型後,只需在本地數據上微調U-Net,VAE保持凍結不動;每輪訓練結束後,客戶端把更新後的U-Net參數上傳給伺服器,伺服器聚合這些參數並分發給下一輪;如此循環直到訓練完成。整個過程中,VAE始終攜帶著專屬水印,U-Net則逐漸適應了LVT改造後的潛在空間,與這個特定VAE深度綁定。一旦有可疑圖片出現,伺服器就能提取水印,先驗證所有權,再鎖定來源客戶端。

值得一提的是,研究團隊選擇在16輪聯邦訓練後停止,這是因為實驗發現在LVT改造的潛在空間下,生成質量在第15至16輪時達到最佳,之後繼續訓練反而會讓質量下滑。這是LVT引入的潛在空間偏移帶來的訓練動力學變化,是一個需要注意的實踐細節。

關於系統的可擴展性,每個客戶端對應一個獨立的watermarked VAE,每個模型約占335MB儲存空間。隨著客戶端數量增加,伺服器的儲存需求線性增長。研究團隊坦承受限於硬體條件,無法在真實百萬級客戶端規模下驗證,但指出Stable Signature已有文獻證明類似的水印方案在多達1000萬用戶的場景下依然有效,由此間接支持了FedOT的可擴展性潛力。

說到底,FedOT解決的是一個在AI技術快速普及的當下越來越真實的問題:當多個機構共同訓練一個強大的AI模型時,如何保護這個共同成果不被內部某個成員私自帶走變現?研究團隊通過把水印嵌入與潛在空間改造兩件事結合起來,讓"偷模型"變成了一件費力不討好的事——即便成功拿走了模型,要麼帶著水印跑不掉,要麼換掉水印但模型也廢了。這種讓盜竊行為在技術上自我懲罰的設計思路,是整個研究最值得關注的地方。當然,研究團隊也坦誠地指出,水印嵌入不可避免地會帶來一定程度的圖片質量下降,這是目前所有水印技術共同面臨的內在權衡,未來仍有改進空間。對於關注AI版權保護、聯邦學習安全或者生成式AI治理的讀者而言,這篇論文提供了一個完整且可操作的思路框架,值得深入了解,完整內容可通過arXiv:2606.22875v1獲取。

Q&A

Q1:FedOT中的"分塊水印"和普通水印有什麼區別?

A:普通的VAE水印只能證明某張圖片來自某個聯邦模型(相當於證明出自同一個廚房),但無法區分是哪個參與方泄露的模型。FedOT的分塊水印把水印分成兩段:前一段所有參與方共享,用於證明所有權;後一段每人獨一份,用於追蹤具體泄露者。這樣既能驗證來源,也能精準溯源。

Q2:LVT的潛在向量變換為什麼能阻止攻擊者直接換掉VAE?

A:因為U-Net在聯邦訓練過程中會持續接觸經過LVT改造的潛在代碼,時間久了就只認識這種"改版格式"。一旦有人換上一個標準的VAE,產生的代碼是原始格式,U-Net看不懂,生成的圖片質量就會嚴重下降,模型等於廢掉了。代價太大,自然打消了攻擊者的念頭。

Q3:FedOT框架適用於哪些實際場景?

A:FedOT主要適用於多個機構聯合訓練圖像生成AI但需要保護模型版權的場景,比如醫療機構聯合訓練醫學影像生成模型、多個企業聯合開發商業圖像工具等。凡是需要把同一個AI模型分發給多個參與方,同時擔心其中某方非法轉賣或濫用的情況,FedOT都能提供所有權證明和泄露方追蹤的能力。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新